import seaborn as sns # Titanicデータセットの読み込み titanic_data = sns.load_dataset(‘titanic’) # データの概要を確認 print(titanic_data.head()) このデータセットをつかって、再度分類のサンプルコード生成して、評価は、例の4つで

2024年6月8日

了解しました。以下は、Titanicデータセットを使用してランダムフォレストモデルをトレーニングし、精度、適合率、再現率、F1スコア、およびROC AUCスコアを評価するサンプルコードです。

python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# データの読み込み
titanic_data = sns.load_dataset('titanic')

# 特徴量と目的変数の分割
X = titanic_data[['pclass', 'sex', 'age', 'fare', 'embarked']] # 使用する特徴量を選択
y = titanic_data['survived'] # 目的変数を選択

# カテゴリカル変数のダミー変数化
X = pd.get_dummies(X, columns=['sex', 'embarked'], drop_first=True)

# 欠損値の補完
X['age'].fillna(X['age'].median(), inplace=True)
X['fare'].fillna(X['fare'].median(), inplace=True)

# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ランダムフォレストモデルの作成とトレーニング
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# テストセットでの予測
y_pred = rf_model.predict(X_test)

# モデルの評価
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, rf_model.predict_proba(X_test)[:, 1])

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1 Score:", f1)
print("ROC AUC Score:", roc_auc)

このコードは、Titanicデータセットを使用してランダムフォレストモデルをトレーニングし、精度、適合率、再現率、F1スコア、およびROC AUCスコアを評価します。

未分類

Posted by ぼっち

Accuracy: 0.0 Precision: 0.0 Recall: 0.0 F1 Score: 0.0 ROC AUC Score: 0.9999537180443555 となる。なんで？