情報利得の不純度とは

2024年6月8日

情報利得の不純度は、決定木やランダムフォレストなどの機械学習モデルで使用される概念の一つです。情報利得は、ある属性（特徴量）によってデータを分割することによって得られる純度の向上を測る指標であり、その不純度とは分割前後のデータセットの混合度合いを表します。

決定木やランダムフォレストなどの分類モデルでは、データを分割することで各部分グループがより純粋になるようにします。情報利得は、その分割がどれだけうまく行われたかを測る指標であり、分割前後の不純度の差を示します。不純度が低いほど情報利得は大きくなります。

一般的に使用される不純度の指標としては、ジニ不純度やエントロピーがあります。ジニ不純度は、各クラスの確率の二乗和を1から引いた値であり、エントロピーは各クラスの確率の対数を取った値の和にマイナスをかけたものです。情報利得の不純度は、分割前の不純度から分割後の不純度を引いた値として計算されます。

Posted by ぼっち