エンコーディングしなくても、自動的に処理してくれるブースティング系のアルゴリズムなかったっけ

ブースティング系のアルゴリズムのうち、LightGBMやCatBoost、XGBoostなど一部の実装では、カテゴリカルな特徴量を直接扱うことができます。これらのアルゴリズムでは、カテゴリカルな特徴量を整数や順序のない数値としてエンコーディングする必要はありません。ただし、内部的には適切な方法でカテゴリカルな特徴量が処理されます。そのため、データセット内のカテゴリカルな特徴量をそのまま使用することができます。

ただし、このようなアルゴリズムを使用する場合でも、適切なパフォーマンスを得るためには、データの事前処理やハイパーパラメータのチューニングなどが必要になることがあります。

未分類

Posted by ぼっち