今回、変更したのが、下処理をcountvectorizerからtf-ideへ変更したんだ。それで一気にaccuracy,precision,recall,f1の値が向上した。そんなことあるの?

はい、TF-IDF(Term Frequency-Inverse Document Frequency)は、単語の重要度を評価するための特徴量変換手法であり、CountVectorizerよりもさらに洗練されたものです。TF-IDFは、単語の出現頻度だけでなく、その単語が含まれるドキュメントの数に応じて重み付けを行います。このため、TF-IDFを使用すると、より重要な単語がモデルにより重視される可能性があります。

その結果、TF-IDFを使用することで、モデルの性能が向上し、精度、再現率、F1スコアなどの評価指標が改善される場合があります。TF-IDFは、テキストデータの特徴量変換において非常に効果的であり、多くの場合、CountVectorizerよりも優れた結果をもたらすことがあります。

未分類

Posted by ぼっち