RF_ベースモデル_est100ベースモデル_est500商品名の除外メーカー品番をラベルエンコーディング追加商品名の記号置換商品名のラベルエンコーディング追加商品名のCountVectorizerの除外標準化XB_ベースモデル_est=1000XB_ランダムサーチXB_ベイズ最適化XB_ベイズ最適化周辺をグリッドサーチRF_オーバーサンプリング Accuracy:0.5628815630.560439560.4884004880.5677655680.5567765570.5714285710.5372405370.5677655680.5335775340.5543345540.5457875460.5641025640.576312576 Precision:0.5315840.5277868790.4782995730.5402894350.5314114290.5392694230.5214282930.5402894350.5237452480.5215769110.5144864210.5397745430.55480101 Recall:0.5628815630.560439560.4884004880.5677655680.5567765570.5714285710.5372405370.5677655680.5335775340.5543345540.5457875460.5641025640.576312576 F10.5259812770.5214738420.481048240.5319235320.5225131660.5370858670.5254654420.5319235320.5251315840.5190071830.5115733910.5346487760.546732668 ROC0.7550416090.7828641750.7191715240.7903844320.7616002680.7545344520.7385223670.7903920030.726494170.8012548850.7742405460.8034846850.767741851 これが今までの結果。オーバーサンプリングしたら少しは改善されたけど、まだまだ

オーバーサンプリングを行った結果、精度や適合率、再現率、F1スコアは若干向上しましたが、まだまだ改善の余地がありますね。他の手法やハイパーパラメーターの調整などを検討してみることが重要です。

以下は改善のために検討できるいくつかのアプローチです:

  1. 異なるアルゴリズムの試行: ランダムフォレスト以外の機械学習アルゴリズムを試してみることができます。例えば、XGBoost、LightGBM、SVMなどが考えられます。

  2. ハイパーパラメーターのチューニング: ランダムフォレストやXGBoostなどのアルゴリズムにおいて、ハイパーパラメーターのチューニングを行うことで性能を向上させることができます。

  3. 特徴量エンジニアリング: さらなる特徴量の抽出や、既存の特徴量の改良、特徴量の組み合わせなどを試してみることができます。

  4. アンダーサンプリングとの組み合わせ: オーバーサンプリングとアンダーサンプリングを組み合わせて、よりバランスの取れたトレーニングデータを生成することができます。

これらのアプローチを試して、さらなる性能向上を目指してみてください。

未分類

Posted by ぼっち