クラスタリングは、相関関係を見るために行うの?

クラスタリングは、主にデータセット内の観測値を類似したグループにまとめるために行われます。これにより、データセット内のパターンや構造を理解しやすくなりますが、通常、相関関係を明らかにするためにクラスタリングを行うことはありません。

相関関係を理解したい場合、主に以下の手法が使用されます。

  1. 相関係数の計算: データセット内の各変数間の相関係数を計算し、変数間の線形関係を評価します。相関係数は、-1から1の範囲で定義され、0に近いほど相関が弱く、1または-1に近いほど相関が強いことを示します。

  2. 相関行列の可視化: 相関行列をヒートマップとして可視化することで、変数間の相関関係を視覚的に理解することができます。明るい色が強い相関を示し、暗い色が相関が弱いことを示します。

  3. 散布図行列の作成: データセット内の各変数の組み合わせに対して散布図を作成し、変数間の相関関係を視覚化します。散布図行列は、多次元データセット内の相関関係を理解するために有用です。

クラスタリングは、主にデータの構造を理解し、類似した観測値をグループ化するために使用されます。データ内のグループやクラスタの特性や特徴を調査し、データセット内の構造を把握するためにクラスタリングを実行します。

未分類

Posted by ぼっち