学習率が0.1ならどうなる

学習率が0.1の場合、Q値の更新式は次のようになります。

Q(st,at)=0.9Q(st,at)+0.1(rt+γmaxaQ(st+1,a))Q(s_t, a_t) = 0.9 cdot Q(s_t, a_t) + 0.1 cdot (r_t + gamma cdot max_{a’} Q(s_{t+1}, a’))

ここで、0.9は以前の知識に対する重みであり、0.1は新しい情報に対する重みです。つまり、以前のQ値の90%が保持され、新しい情報が10%で反映されます。

このような場合、以前の知識が比較的重視されつつも、新しい情報が少しずつ反映されます。学習率が0.1の場合、更新されるQ値は以前のQ値に比べてやや新しい情報に引っ張られる傾向があります。

未分類

Posted by ぼっち