先の説明で、似たような相関関係が複数あるとよくないといったが、似たような相関関係が複数とはどういう意味
似たような相関関係が複数ある場合、異なる特徴量同士が似たような情報を持っていることを指します。つまり、複数の特徴量がほぼ同じような情報を提供しているということです。
例えば、以下のような状況を考えてみましょう:
- 特徴量Aと特徴量Bが互いに強い正の相関を示している。
- 特徴量Aと特徴量Cもまた、互いに強い正の相関を示している。
この場合、特徴量Aと特徴量B、特徴量Aと特徴量Cはどちらも似たような情報を提供しています。つまり、AとB、AとCの組み合わせはほぼ同じ情報を持っており、モデルにとっては冗長な情報となります。
このような状況では、特徴量の数を減らすことでモデルの複雑さを減らし、過学習を防ぐことができます。また、予測性能を向上させるために、重要度の高い特徴量のみを残すことができます。

ディスカッション
コメント一覧
まだ、コメントがありません