ターゲットエンコーダーとカウントベクトライザーってどうちがう？

2024年6月8日

ターゲットエンコーダーとカウントベクトライザーは、テキストデータを処理するために異なる目的で使用される変換器です。

カウントベクトライザー（CountVectorizer）:
- カウントベクトライザーは、テキストデータから単語の出現回数を特徴として抽出します。
- テキストをトークン化し、各単語の出現回数を数え、それを特徴として表現します。
- 例えば、「This is a sample sentence.」という文があれば、「This」「is」「a」「sample」「sentence」という単語が存在し、それぞれの出現回数が特徴として表現されます。
ターゲットエンコーダー（TargetEncoder）:
- ターゲットエンコーダーは、カテゴリカルな特徴を連続的な数値に変換しますが、その際にターゲット変数（通常はクラスラベル）の情報を使用します。
- 各カテゴリ値に対して、そのカテゴリが特定のクラスに属する確率（または平均）を計算し、その値でカテゴリを置換します。
- 主にクラス分類問題でターゲットエンコーディングが使用されます。例えば、カテゴリ「猫」「犬」「鳥」があり、それぞれの平均ターゲット値（例えば、猫が生じる確率）を計算し、それで各カテゴリを置換します。

要するに、カウントベクトライザーはテキストデータを数値化し、単語の出現回数を特徴として抽出しますが、ターゲットエンコーダーはカテゴリ変数を数値化し、その際にターゲット変数の情報を使用してカテゴリをエンコードします。

Posted by ぼっち