情報利得の不純度とは
情報利得の不純度は、決定木やランダムフォレストなどの機械学習モデルで使用される概念の一つです。情報利得は、ある属性(特徴量)によってデータを分割することによって得られる純度の向上を測る指標であり、その不純度とは分割前後のデータセットの混合度合いを表します。
決定木やランダムフォレストなどの分類モデルでは、データを分割することで各部分グループがより純粋になるようにします。情報利得は、その分割がどれだけうまく行われたかを測る指標であり、分割前後の不純度の差を示します。不純度が低いほど情報利得は大きくなります。
一般的に使用される不純度の指標としては、ジニ不純度やエントロピーがあります。ジニ不純度は、各クラスの確率の二乗和を1から引いた値であり、エントロピーは各クラスの確率の対数を取った値の和にマイナスをかけたものです。情報利得の不純度は、分割前の不純度から分割後の不純度を引いた値として計算されます。
関連記事

対話型インタープリタでは文字列は引用符に囲まれ、特殊文字はバックスラッシュでエスケープされた状態で出力される。print()関数では全体を囲む引用符が除去され、エスケープ文字や特殊文字がプリントされた状態で出力される。
正しいです。対話型インタープリタでは、文字列が引用符で囲まれ、特殊文字はバックス ...

.objects.get_or_create()
.objects.get_or_create()はDjangoのORM(Obje ...

UFuncTypeError: ufunc ‘maximum’ did not contain a loop with signature matching types (dtype(‘<U21’), dtype(‘<U21’)) -> None
エラーが発生しました。これは、OneHotEncoder が文字列データを処理で ...
ディスカッション
コメント一覧
まだ、コメントがありません