オーバーサンプリングとかの影響はない?
オーバーサンプリングは、訓練データセットのクラスの不均衡を解消するために使用される技術です。ナイーブベイズモデルのトレーニング中に使用されるデータセットがオーバーサンプリングされた場合、モデルが学習するデータの分布が変わります。そのため、予測時にも同じトランスフォーメーションを適用する必要があります。
修正されたコードでは、モデルのトレーニング時と同じトランスフォーメーションを使用して特徴量をベクトル化しています。そのため、オーバーサンプリングの影響はありません。新しいデータを予測する際には、オーバーサンプリングが適用されたトランスフォーメーションと同じものを使用しているため、予測の一貫性が保たれます。

ディスカッション
コメント一覧
まだ、コメントがありません