JavaScriptを有効にしてください

SAC(Soft-Actor-Critic)

 ·  ☕ 1 min read

SAC(Soft-Actor-Critic)の理論的背景はSoft-Q学習からきており、従来の目的関数に方策エントロピー項を加え、より多様な探索を可能にした手法です。
エントロピー項は正則化の役割を持っており、ポリシーは価値とエントロピーのトレードオフの最大化を学習します。
すなわちエントロピーが大きい領域は探索が不十分な領域、小さい領域はよく探索された領域として、価値が大きいけど未探索な点(価値があまり信用できない)・価値が大きく探索も十分(価値が信用できる)が分かるように数式に取り入れている手法です。
引用: https://qiita.com/pocokhc/items/354a2ddf4cbd742d3191

  • 方策エントロピーと報酬はトレードオフな関係にある
    • ゆえに, それらの両方を目的関数として学習する
      $$J(\pi) = E_{\pi} \begin{bmatrix} \sum^T_{t=0} R(s_t, a_t) + \alpha H(\pi(.|s_t)) \end{bmatrix}$$
共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web