One-hotエンコーディングとは

One-hotエンコーディングは、カテゴリカルなデータを数値データに変換する手法の一つです。主に機械学習やディープラーニングのモデルに入力する際に使われます。

One-hotエンコーディングでは、カテゴリカルなデータの各カテゴリが新しい特徴として表現され、そのカテゴリが存在する場合には1、存在しない場合には0という数値に変換されます。具体的な手順は以下の通りです:

  1. カテゴリカルな特徴のユニークな値を抽出します。
  2. ユニークな値の数だけ新しい特徴(列)を用意します。
  3. 各サンプルごとに、そのサンプルのカテゴリが存在する特徴に1を設定し、それ以外の特徴には0を設定します。

例えば、以下のようなカテゴリカルな特徴があるとします:

css
["赤", "青", "緑", "赤", "黄"]

この場合、One-hotエンコーディングを行うと次のようになります:


赤 青 緑 黄 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 1

このようにして、元のカテゴリカルな特徴がバイナリの特徴に変換され、機械学習モデルなどで利用できる形式になります。One-hotエンコーディングは、カテゴリカルな特徴を数値データに変換する際に広く利用される手法の一つです。

未分類

Posted by ぼっち