CountVectorizerは具体的に何をしているの?
CountVectorizerは、テキストデータから単語の出現回数を数えて、各文書を単語の出現回数のベクトルで表現するためのツールです。具体的な動作は以下の通りです:
- テキストデータをトークン(単語)に分割します。
- トークンを辞書に追加します。辞書は、トークン(単語)をインデックスにマッピングするためのものです。
- 各文書を、辞書に基づいて、各トークンの出現回数をカウントしたベクトルに変換します。
例えば、次のような文書があるとします。
arduino
文書1: "This is a document" 文書2: "This document is another document"
CountVectorizerはこれらの文書を以下のようなベクトルに変換します。
arduino
文書1: [1, 1, 1, 1, 0, 0] # "This", "is", "a", "document", "another" がそれぞれ1回出現 文書2: [1, 1, 0, 2, 1, 1] # "This", "is", "a", "document", "another" がそれぞれ1または2回出現
このように、CountVectorizerはテキストデータを数値データに変換することで、機械学習モデルに入力できるようにします。

ディスカッション
コメント一覧
まだ、コメントがありません