-
Q学習は推定値
を使って推定値 を更新する (これをブートストラップと呼ぶ) -
ゆえにQ学習は不安定なのだが, NNを加えると更に不安定になりやすい
- DQNでは, 推定値
と推定値 の相関が強くなりすぎないように「経験再生」と「ターゲットネットワーク」と呼ばれるものを導入する
- DQNでは, 推定値
-
経験再生
-
ターゲットネットワーク
- 出力
の回帰といっても, Qは固定ではないので学習が不安定となる (ブートストラップ)- → ネットワーク自体はQ関数を近似しているので, Momentum Encoderのように, 重みをコピーした全く同じネットワークの出力をground-truthとすればよい!! (オモロイ)
- → ただし, ずっと同じ重みを使い続けるわけにもいかないので,
回に一回はそのネットワーク自体も学習させる
- 出力
JavaScriptを有効にしてください
DQN
· ☕ 1 min read
