カテゴリ変数を数値化する事をなんていうんだっけ
カテゴリ変数を数値化することを「エンコーディング」と呼びます。エンコーディングには、主に以下の2つの方法があります。
-
ラベルエンコーディング(Label Encoding):
- カテゴリごとに整数値を割り当てる方法です。例えば、カテゴリが「赤」、「青」、「緑」の場合、それぞれ 0、1、2 などの整数値に変換します。scikit-learnライブラリの
LabelEncoderクラスを使用することができます。
- カテゴリごとに整数値を割り当てる方法です。例えば、カテゴリが「赤」、「青」、「緑」の場合、それぞれ 0、1、2 などの整数値に変換します。scikit-learnライブラリの
-
ワンホットエンコーディング(One-Hot Encoding):
- カテゴリごとに新しいバイナリ列を作成し、該当するカテゴリに 1 を、それ以外のカテゴリに 0 を割り当てる方法です。例えば、「赤」、「青」、「緑」のカテゴリがある場合、それぞれのカテゴリに対して新しい列を作成し、「赤」の場合は [1, 0, 0]、「青」の場合は [0, 1, 0]、「緑」の場合は [0, 0, 1] などの形で表現します。pandasライブラリの
get_dummies関数を使うことができます。
- カテゴリごとに新しいバイナリ列を作成し、該当するカテゴリに 1 を、それ以外のカテゴリに 0 を割り当てる方法です。例えば、「赤」、「青」、「緑」のカテゴリがある場合、それぞれのカテゴリに対して新しい列を作成し、「赤」の場合は [1, 0, 0]、「青」の場合は [0, 1, 0]、「緑」の場合は [0, 0, 1] などの形で表現します。pandasライブラリの
これらのエンコーディング手法は、機械学習モデルにカテゴリデータを入力する際に使用されます。適切なエンコーディング手法は、データの性質や機械学習モデルの要件に応じて選択されます。

ディスカッション
コメント一覧
まだ、コメントがありません