JavaScriptを有効にしてください

REINFORCE

 ·  ☕ 1 min read
  • 単純な方策勾配方法では
    J(θ)=Eτθ[tG(τ)logπθ(At|St)]
  • が使われていたが, 全ての時刻 tにおいて収益 G(τ)が一律に使用されているのが気がかりである
  • 重要なのは, 時刻 tの行動の後の評価であるから, [0,t)の収益はノイズとなり得る
  • そこで, REINFORCEでは以下のように勾配を変更する

J(θ)=Eτθ[tGtlogπθ(At|St)]

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web