X_product_name_vectorizedも相関係数を表示したい

2024年6月8日

X_product_name_vectorizedは、CountVectorizerを使ってテキストデータを数値データに変換したもので、通常は非常に高次元のデータとなります。そのため、全ての特徴量とsizeの相関係数を一度に表示することは現実的ではありません。

代わりに、特定の特徴量（単語やフレーズ）とsizeの相関係数を計算することはできます。具体的には、各特徴量（単語やフレーズ）とsizeの相関係数を順に計算し、興味のある特徴量について確認することができます。ただし、相関係数は単独の特徴量と目的変数（size）の間の線形関係を示すため、テキストデータと目的変数の間には意味のある相関が得られるとは限りません。

具体的なコード例は以下のようになりますが、X_product_name_vectorizedが非常に大きい場合は実行に時間がかかる可能性があります。

python
import numpy as np

# 相関係数の計算
correlations = {}
for feature_name in vectorizer.get_feature_names():
    feature_index = vectorizer.vocabulary_[feature_name]
    feature_vector = X_product_name_vectorized[:, feature_index].toarray().flatten()
    correlation = np.corrcoef(feature_vector, y)[0, 1]
    correlations[feature_name] = correlation

# 相関係数の表示
for feature_name, correlation in sorted(correlations.items(), key=lambda x: x[1], reverse=True):
    print(f"{feature_name}: {correlation}")

このコードは、各単語やフレーズの特徴量とsizeの相関係数を計算し、その結果を降順で表示します。

未分類

Posted by ぼっち

通常はカテゴリ変数は相関係数を計算しないの？

X_product_name_vectorizedの中のでーたを見てみたい

コメント一覧

まだ、コメントがありません