Oneホットエンコーディングだと、カテゴリ変数が大量になる

2024年6月17日

確かに、One-Hotエンコーディングはカテゴリ変数の各カテゴリに対して新しいバイナリ変数を作成するため、カテゴリ数が多い場合には次元の爆発が発生し、計算コストが高くなる可能性があります。特に、商品名略称のようにカテゴリ数が多い場合には問題が生じます。

代替案として、カテゴリ変数をラベルエンコーディングする方法も考えられます。ラベルエンコーディングは、各カテゴリに整数を割り当てる方法です。ただし、この方法は各カテゴリに順序を与えることになるので、カテゴリ間に大小関係が意味を持つ場合にのみ使用すべきです。

もしくは、カテゴリ数が多い場合は、より複雑なカテゴリエンコーディング手法を検討する必要があります。たとえば、カテゴリの出現頻度や目的変数との関連性を考慮したエンコーディング手法を利用することができます。

データの性質や目的に応じて最適なエンコーディング方法を選択することが重要です。

未分類

Posted by ぼっち