TF-IDEで処理してくれ

2024年6月8日

TF-IDF（Term Frequency-Inverse Document Frequency）は、単語の重要度を評価するための手法です。TF-IDFは、単語の出現頻度（TF）と逆文書頻度（IDF）の積で計算されます。TFは、特定の単語が文書内でどれだけ頻繁に現れるかを示し、IDFはその単語がデータセット全体でどれだけ一般的でないかを示します。

以下は、TF-IDFを用いて商品名略称のテキストデータを処理する例です。

python
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDFのベクタライザーを初期化
tfidf_vectorizer = TfidfVectorizer()

# 商品名略称のテキストデータをTF-IDFに変換
tfidf_matrix = tfidf_vectorizer.fit_transform(df["商品名略称"])

# 変換後のデータをDataFrameに変換
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf_vectorizer.get_feature_names_out())

# 元のDataFrameと結合
df_with_tfidf = pd.concat([df, tfidf_df], axis=1)

このコードでは、TfidfVectorizerを使用して商品名略称のテキストデータをTF-IDFに変換し、元のDataFrameに結合しています。TF-IDFにより、各単語がテキストデータ内でどれだけ重要であるかを表す特徴量が生成されます。

未分類

Posted by ぼっち