CountVectorizerは文章ならどうなる?

2024年6月17日

文章の場合、CountVectorizerは文書を単語や単語の組み合わせ(n-grams)に分割し、それらの出現回数を数えてベクトル化します。具体的な動作は以下の通りです:

  1. 文書をトークン(単語や単語の組み合わせ)に分割します。通常、単語の区切りは空白文字によって行われますが、その他の方法も指定できます。
  2. トークンを辞書に追加します。辞書は、トークン(単語や単語の組み合わせ)をインデックスにマッピングするためのものです。
  3. 各文書を、辞書に基づいて、各トークンの出現回数をカウントしたベクトルに変換します。

例えば、次のような文書があるとします。

arduino
文書1: "This is a document"
文書2: "This document is another document"

CountVectorizerはこれらの文書を以下のようなベクトルに変換します。

arduino
文書1: [1, 1, 1, 1, 0, 0]  # "This", "is", "a", "document", "another" がそれぞれ1回出現
文書2: [1, 1, 0, 2, 1, 1]  # "This", "is", "a", "document", "another" がそれぞれ1または2回出現

このように、CountVectorizerは文章を数値データに変換することで、機械学習モデルに入力できるようにします。

未分類

Posted by ぼっち