- Actor-Critic型のSoft-Q学習
- Soft-Q学習とは簡単に言うと, 報酬 + 方策エントロピーを目的関数に据える学習手法
SAC(Soft-Actor-Critic)の理論的背景はSoft-Q学習からきており、従来の目的関数に方策エントロピー項を加え、より多様な探索を可能にした手法です。
エントロピー項は正則化の役割を持っており、ポリシーは価値とエントロピーのトレードオフの最大化を学習します。
すなわちエントロピーが大きい領域は探索が不十分な領域、小さい領域はよく探索された領域として、価値が大きいけど未探索な点(価値があまり信用できない)・価値が大きく探索も十分(価値が信用できる)が分かるように数式に取り入れている手法です。
引用: https://qiita.com/pocokhc/items/354a2ddf4cbd742d3191
- 方策エントロピーと報酬はトレードオフな関係にある
- ゆえに, それらの両方を目的関数として学習する
$$J(\pi) = E_{\pi} \begin{bmatrix} \sum^T_{t=0} R(s_t, a_t) + \alpha H(\pi(.|s_t)) \end{bmatrix}$$
- ゆえに, それらの両方を目的関数として学習する