RF_ベースモデル_est100ベースモデル_est500商品名の除外メーカー品番をラベルエンコーディング追加商品名の記号置換商品名のラベルエンコーディング追加商品名のCountVectorizerの除外標準化XB_ベースモデル_est=1000XB_ランダムサーチXB_ベイズ最適化XB_ベイズ最適化周辺をグリッドサーチRF_オーバーサンプリングRF_オーバーアンダーサンプリング Accuracy:0.5628815630.560439560.4884004880.5677655680.5567765570.5714285710.5372405370.5677655680.5335775340.5543345540.5457875460.5641025640.5763125760.568986569 Precision:0.5315840.5277868790.4782995730.5402894350.5314114290.5392694230.5214282930.5402894350.5237452480.5215769110.5144864210.5397745430.554801010.541631725 Recall:0.5628815630.560439560.4884004880.5677655680.5567765570.5714285710.5372405370.5677655680.5335775340.5543345540.5457875460.5641025640.5763125760.568986569 F10.5259812770.5214738420.481048240.5319235320.5225131660.5370858670.5254654420.5319235320.5251315840.5190071830.5115733910.5346487760.5467326680.53367793 ROC0.7550416090.7828641750.7191715240.7903844320.7616002680.7545344520.7385223670.7903920030.726494170.8012548850.7742405460.8034846850.7677418510.755179211 大して変わらないなぁ

オーバーサンプリングとアンダーサンプリングを組み合わせることで、一般的にはモデルの性能が向上することが期待されますが、すべてのケースで改善が見られるわけではありません。データや問題によって最適なアプローチが異なるため、複数の手法を試すことが重要です。

ただし、上記の結果からは性能が大幅に向上しているわけではありません。可能な原因としては、以下の点が考えられます:

  1. ハイパーパラメーターのチューニング:ランダムフォレストやXGBoostなどのモデルのハイパーパラメーターを最適化することで、性能が向上する可能性があります。
  2. 特徴量エンジニアリング:より効果的な特徴量を作成することで、モデルの性能が向上する可能性があります。
  3. モデルの選択:他のモデルやアンサンブル学習などを試してみることも検討してください。
  4. より複雑なリサンプリング手法:SMOTEやTomekリンク以外のリサンプリング手法を試してみることも考えられます。

これらのアプローチを試してみて、より良い結果が得られるかどうかを確認してください。

未分類

Posted by ぼっち