CountVectorizerは形態素解析する感じ?

2024年6月17日

CountVectorizerは、単純に文書を単語レベルで分割してベクトル化するだけですので、形態素解析までは行いません。形態素解析は、単語をさらに細かい単位に分割する処理であり、日本語のような複雑な言語において特に重要です。CountVectorizerは、英語のような単語が空白文字で区切られる言語において、単語の出現回数を数えるだけのシンプルな処理です。形態素解析が必要な場合は、別途行う必要があります。

未分類

Posted by ぼっち