CountVectorizer について詳しく

CountVectorizer は、テキストデータから単語の出現回数を数えて特徴量化するためのツールです。具体的には、以下のような手順で動作します:

  1. テキストデータ(文書)をトークン化し、単語や単語の集合(トークン)に分割します。
  2. 各文書内の各単語の出現回数をカウントします。
  3. カウントされた出現回数を特徴量として表現します。

以下に、CountVectorizer の主な機能やパラメータについて説明します:

  • トークン化(Tokenization): デフォルトでは、CountVectorizer は単語レベルでテキストをトークン化しますが、token_pattern パラメータを使用して正規表現パターンを指定してカスタマイズすることもできます。
  • ストップワード除去(Stopword Removal): stop_words パラメータを使用して、共通の単語(例:a, the, is)を除去することができます。
  • トークンの頻度制限(Token Frequency Limiting): min_dfmax_df パラメータを使用して、ある程度以上の頻度で登場するトークンやあまりにも頻繁に登場するトークンを除去することができます。
  • n-gram: ngram_range パラメータを使用して、unigram(1つの単語)、bigram(2つの連続した単語)、trigram(3つの連続した単語)などの n-gram を抽出することができます。
  • 出現回数のカウント: 各文書内の各単語の出現回数をカウントして、それを特徴量として表現します。

CountVectorizer を使用することで、テキストデータを機械学習モデルに適した形式に変換することができます。これにより、テキストデータを扱う機械学習タスクに適した特徴量行列を作成することができます。

未分類

Posted by ぼっち