ジニ不純度について詳しく

ジニ不純度(Gini impurity)は、分類タスクにおける不純度を測る指標の一つです。分割されたデータが「異なるクラスの要素をどれだけ混在しているか」を表す指標であり、0から1の値を取ります。0は最も純粋な状態(全ての要素が同じクラスに属する)を示し、1は最も不純な状態(各クラスが均等に混在する)を示します。

ジニ不純度は以下の式で計算されます。

G=1i=1cpi2G = 1 – sum_{i=1}^{c} p_i^2

ここで、cc

ジニ不純度が小さいほど、分割後のデータがより純粋になると言えます。決定木やランダムフォレストなどの機械学習モデルでは、分割の際にジニ不純度が最小になるように特徴量を選択します。

未分類

Posted by ぼっち