クラスタリングのサンプルコードくれ

2024年6月8日

以下はPythonでのクラスタリングのサンプルコードです。商品名や説明文からTF-IDFを使って特徴量を抽出し、K-meansアルゴリズムを使用してクラスタリングを行います。

python
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# 商品名や説明文のデータを用意する
data = [
    "ミニサイズのテレビ",
    "大型冷蔵庫",
    "コンパクトカメラ",
    "ミニドライヤー",
    "大容量洗濯機",
    "コンパクトなスピーカー"
]

# TF-IDFベクトル化
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data)

# クラスタリング（ここではクラスタ数を2としていますが、適切なクラスタ数はデータや問題に応じて調整する必要があります）
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X)

# クラスタリング結果を表示
clusters = kmeans.labels_
result_df = pd.DataFrame({'商品名': data, 'クラスタ': clusters})
print(result_df)

このコードは、与えられた商品名のリスト（data）をTF-IDFベクトルに変換し、K-meansクラスタリングを実行しています。最終的なクラスタリング結果はresult_dfに保存され、各商品がどのクラスタに属するかが表示されます。

未分類

Posted by ぼっち