CountVectorizerは文章ならどうなる?
文章の場合、CountVectorizerは文書を単語や単語の組み合わせ(n-grams)に分割し、それらの出現回数を数えてベクトル化します。具体的な動作は以下の通りです:
- 文書をトークン(単語や単語の組み合わせ)に分割します。通常、単語の区切りは空白文字によって行われますが、その他の方法も指定できます。
- トークンを辞書に追加します。辞書は、トークン(単語や単語の組み合わせ)をインデックスにマッピングするためのものです。
- 各文書を、辞書に基づいて、各トークンの出現回数をカウントしたベクトルに変換します。
例えば、次のような文書があるとします。
arduino 文書1: "This is a document" 文書2: "This document is another document"
CountVectorizerはこれらの文書を以下のようなベクトルに変換します。
arduino 文書1: [1, 1, 1, 1, 0, 0] # "This", "is", "a", "document", "another" がそれぞれ1回出現 文書2: [1, 1, 0, 2, 1, 1] # "This", "is", "a", "document", "another" がそれぞれ1または2回出現
このように、CountVectorizerは文章を数値データに変換することで、機械学習モデルに入力できるようにします。

ディスカッション
コメント一覧
まだ、コメントがありません