rf_classifier.fit(X_rf, y_test) testデータでトレーニングしてテストデータを予測したら精度良くなるのは当たり前じゃない？

2024年6月8日

そうですね、その点におっしゃる通りです。テストデータでトレーニングすることで、実際のテストデータに対しては過剰に最適化されたモデルが得られ、テストデータでの精度が高くなる傾向があります。しかし、これはモデルの実際の性能を正確に評価する手法ではありません。

正しい方法は、テストデータをトレーニングするのではなく、テストデータはトレーニングデータとは別にモデルの評価に使用することです。つまり、テストデータはモデルの未見のデータに対する性能を評価するために確保されるべきです。

したがって、モデルの性能を正確に評価するためには、テストデータはトレーニングデータとは別に分割して、モデルのトレーニングと評価に使用する必要があります。その際には、train_test_split 関数を使用してデータを適切に分割することが重要です。

Posted by ぼっち