CountVectorizerは具体的に何をしているの？

2024年6月8日

CountVectorizerは、テキストデータから単語の出現回数を数えて、各文書を単語の出現回数のベクトルで表現するためのツールです。具体的な動作は以下の通りです：

テキストデータをトークン（単語）に分割します。
トークンを辞書に追加します。辞書は、トークン（単語）をインデックスにマッピングするためのものです。
各文書を、辞書に基づいて、各トークンの出現回数をカウントしたベクトルに変換します。

例えば、次のような文書があるとします。

arduino
文書1: "This is a document"
文書2: "This document is another document"

CountVectorizerはこれらの文書を以下のようなベクトルに変換します。

arduino
文書1: [1, 1, 1, 1, 0, 0]  # "This", "is", "a", "document", "another" がそれぞれ1回出現
文書2: [1, 1, 0, 2, 1, 1]  # "This", "is", "a", "document", "another" がそれぞれ1または2回出現

このように、CountVectorizerはテキストデータを数値データに変換することで、機械学習モデルに入力できるようにします。

未分類

Posted by ぼっち

パラメーターチューニングをサーチしたい

商品名をラベルエンコーディングしたい

コメント一覧

まだ、コメントがありません