カテゴリ変数を数値化する事をなんていうんだっけ

カテゴリ変数を数値化することを「エンコーディング」と呼びます。エンコーディングには、主に以下の2つの方法があります。

  1. ラベルエンコーディング(Label Encoding):

    • カテゴリごとに整数値を割り当てる方法です。例えば、カテゴリが「赤」、「青」、「緑」の場合、それぞれ 0、1、2 などの整数値に変換します。scikit-learnライブラリの LabelEncoder クラスを使用することができます。
  2. ワンホットエンコーディング(One-Hot Encoding):

    • カテゴリごとに新しいバイナリ列を作成し、該当するカテゴリに 1 を、それ以外のカテゴリに 0 を割り当てる方法です。例えば、「赤」、「青」、「緑」のカテゴリがある場合、それぞれのカテゴリに対して新しい列を作成し、「赤」の場合は [1, 0, 0]、「青」の場合は [0, 1, 0]、「緑」の場合は [0, 0, 1] などの形で表現します。pandasライブラリの get_dummies 関数を使うことができます。

これらのエンコーディング手法は、機械学習モデルにカテゴリデータを入力する際に使用されます。適切なエンコーディング手法は、データの性質や機械学習モデルの要件に応じて選択されます。

未分類

Posted by ぼっち