決定木の不純度の指標

決定木の不純度を評価するための主な指標には、ジニ不純度(Gini impurity)、エントロピー(Entropy)、および分類誤差(Classification error)があります。

  1. ジニ不純度(Gini impurity):

    • ジニ不純度は、分割したノード内のクラスの不純度を測定する指標です。
    • ジニ不純度が高いほど、ノード内のクラスが均等に混合されていることを示し、分割が不安定であることを示します。
    • ジニ不純度は、以下の式で計算されます。
      IG(p)=1i=1Jpi2I_G(p) = 1 – sum_{i=1}^{J} p_i^2
    • ここで、JJ
  2. エントロピー(Entropy):

    • エントロピーは、情報理論からの概念であり、分割したノード内のクラスの混合度を測定する指標です。
    • エントロピーが高いほど、ノード内のクラスが均等に混合されていることを示し、分割が不安定であることを示します。
    • エントロピーは、以下の式で計算されます。
      H(p)=i=1Jpilog2(pi)H(p) = – sum_{i=1}^{J} p_i log_2(p_i)
    • ここで、JJ
  3. 分類誤差(Classification error):

    • 分類誤差は、分割したノード内のクラスの中で最も多数派のクラスの割合を表します。
    • 分類誤差が高いほど、ノード内のクラスが均等に混合されていることを示し、分割が不安定であることを示します。
    • 分類誤差は、以下の式で計算されます。
      E(p)=1max(p1,p2,...,pJ)E(p) = 1 – max(p_1, p_2, …, p_J)
    • ここで、JJ

これらの指標は、決定木の分割基準として使用され、特定のノードの不純度を評価して最適な分割を見つけるのに役立ちます。

未分類

Posted by ぼっち