X_product_name_vectorizedも相関係数を表示したい
X_product_name_vectorizedは、CountVectorizerを使ってテキストデータを数値データに変換したもので、通常は非常に高次元のデータとなります。そのため、全ての特徴量とsizeの相関係数を一度に表示することは現実的ではありません。
代わりに、特定の特徴量(単語やフレーズ)とsizeの相関係数を計算することはできます。具体的には、各特徴量(単語やフレーズ)とsizeの相関係数を順に計算し、興味のある特徴量について確認することができます。ただし、相関係数は単独の特徴量と目的変数(size)の間の線形関係を示すため、テキストデータと目的変数の間には意味のある相関が得られるとは限りません。
具体的なコード例は以下のようになりますが、X_product_name_vectorizedが非常に大きい場合は実行に時間がかかる可能性があります。
python
import numpy as np # 相関係数の計算 correlations = {} for feature_name in vectorizer.get_feature_names(): feature_index = vectorizer.vocabulary_[feature_name] feature_vector = X_product_name_vectorized[:, feature_index].toarray().flatten() correlation = np.corrcoef(feature_vector, y)[0, 1] correlations[feature_name] = correlation # 相関係数の表示 for feature_name, correlation in sorted(correlations.items(), key=lambda x: x[1], reverse=True): print(f"{feature_name}: {correlation}")
このコードは、各単語やフレーズの特徴量とsizeの相関係数を計算し、その結果を降順で表示します。

ディスカッション
コメント一覧
まだ、コメントがありません