オーバーサンプリング、アンダーサンプリングって、目的変数に対して行うの?

はい、オーバーサンプリングとアンダーサンプリングは、主に目的変数(ターゲット変数、クラスラベル)に対して行います。

  1. オーバーサンプリング:少数クラスのサンプルを増やすために行われます。つまり、少数クラスのサンプルを増やすことで、クラス間のバランスを取ります。これにより、モデルが少数クラスをより効果的に学習できるようになります。

  2. アンダーサンプリング:多数クラスのサンプルを減らすことで行われます。これにより、クラス間のバランスを取ります。一般的に、多数クラスのサンプルを減らすことで、モデルのトレーニング時間を短縮することができます。ただし、データの情報が失われる可能性もあります。

これらの手法は、不均衡なデータセットでの機械学習モデルのトレーニングにおいて、特に重要です。不均衡なデータセットでは、モデルが多数クラスに偏ってしまう傾向があるため、オーバーサンプリングやアンダーサンプリングによってバランスを取ることが重要です。

未分類

Posted by ぼっち