クラスの不均衡ってなに

クラスの不均衡(Class Imbalance)とは、データセット内の異なるクラス(カテゴリ)間のサンプル数に大きな差がある状況を指します。一般的には、二値分類の場合に1つのクラスが他のクラスよりも圧倒的に多い場合にクラスの不均衡が発生しますが、多クラス分類でも同様の状況が生じることがあります。

例えば、医療診断の場合、健康な人(負例)と病気の人(陽性例)を分類する二値分類問題を考えてみましょう。この場合、健康な人の数は多く、病気の人の数は比較的少ないかもしれません。このような状況では、健康な人を正しく予測することは容易ですが、病気の人を見逃すことが問題になります。つまり、クラスの不均衡がある場合、モデルが一般的に多数クラスに偏ってしまい、少数クラスに対する識別性能が低下する傾向があります。

クラスの不均衡は、実世界の多くの問題で一般的に見られます。例えば、不良品検出、詐欺検出、医療診断、自然言語処理などの分野で発生することがあります。クラスの不均衡に対処するためには、適切なサンプリング手法、クラスの重み付け、異常検出、再サンプリングなどの方法が使用されます。

未分類

Posted by ぼっち