オーバーサンプリングをおこなってみたい。

2024年6月8日

オーバーサンプリングは、少数クラスのサンプルを増やすことでデータセットのクラスの不均衡を解消する方法です。代表的な手法の1つは、SMOTE（Synthetic Minority Over-sampling Technique）です。SMOTEは、少数クラスのサンプルの近傍に合成データポイントを生成することでオーバーサンプリングを実現します。

以下は、SMOTEを使ってオーバーサンプリングを行う方法の一般的な手順です。

インストール: imbalanced-learn ライブラリを使ってSMOTEを利用するために、まずはライブラリをインストールします。

bash
pip install imbalanced-learn

インポート: 必要なライブラリやクラスをインポートします。

python
from imblearn.over_sampling import SMOTE

SMOTEを適用: オーバーサンプリングを行いたいデータに対して、SMOTEを適用します。

python
# SMOTEを適用
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

モデルの再トレーニング: オーバーサンプリング後のデータを使ってモデルを再トレーニングします。

python
# ランダムフォレストモデルの作成とトレーニング
rf_model_resampled = RandomForestClassifier(n_estimators=100, random_state=100)
rf_model_resampled.fit(X_train_resampled, y_train_resampled)

これにより、オーバーサンプリングが実装され、新しいデータセットを使用してトレーニングされたモデルが得られます。オーバーサンプリング後のデータセットを使用してモデルの評価を行い、性能の向上が見られるかどうかを確認してください。

未分類

Posted by ぼっち

オーバーサンプリング、アンダーサンプリングって、目的変数に対して行うの？

Accuracy: 0.5335775335775336 Precision: 0.5237452475014479 Recall: 0.5335775335775336 F1 Score: 0.5251315843386484 ROC AUC Score: 0.7264941698664935 結果はこれ、やはり重みづけではだめか？

コメント一覧

まだ、コメントがありません