トレーニングデータのサブサンプルってなに

トレーニングデータのサブサンプルとは、トレーニングデータ全体から一部のデータをランダムに選択して取り出したものを指します。この部分集合は、モデルの学習に使用されます。サブサンプルの割合は、subsampleというハイパーパラメータで指定されます。

例えば、subsampleが0.8の場合、トレーニングデータからランダムに80%のデータが選ばれ、そのデータを使ってモデルがトレーニングされます。これにより、毎回異なるデータのサブセットでモデルをトレーニングすることができ、過学習を抑制する効果が期待されます。

未分類

Posted by ぼっち