強化学習

📅 2022/6/27 · ☕ 2 min read

#post

価値を如何に定めるか？
- 状態 $s$ と方策 $π$ で決める→状態価値関数
- 状態 $s$ と方策 $π$ と行動 $a$ で決める→行動価値関数 (Q関数)
方策 $π$ はグラフ遷移そのものと等しい存在
- 例えば, $π (a | s)$ は状態 $s$ から行動 $a$ を実行する確率を表す
価値ベース手法
- 価値関数を経由して適切な方策を探索
- Q関数をNNで近似するのが価値ベースにおける深層強化学習
  - Qは状態集合 $S$ と行動集合 $A$ とで, $| S | \times | A |$ 個存在する
  - なので, NNでコンパクトに近似できたらうれしい
  - ⇒ 深層強化学習
    - Q学習は入力 $s_{t}, a_{t}$ のときに出力 $T := R_{t} + γ max Q (s_{t + 1}, a)$ を出力するような関数と捉えることができるので,
    - ただの回帰問題として解くことができる → NN

$Q^{'} (s_{t}, a_{t}) = Q (s_{t}, a_{t}) + α (R_{t} + γ max Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$

  - どうやって解くの？
    - まず, 適当に[サンプリング](https://scrapbox.io/yuwd/%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0)してきた状態  $s$から $T$が最大となる $a, Q'$を探す
    - 現在の  $Q$と $Q'$の差を誤差と捉え, モデルを更新


- [DQN](https://yuiga.dev/blog/posts/dqn//) では, これらに加えて「経験再生」と「ターゲットネットワーク」という概念が導入される

方策ベース手法
- Q関数のように価値を近似するのではなく, 方策を直接近似する
- REINFORCE / Actor-Critic (方策勾配法 → REINFORCE → Actor-Critic の順に勉強すると良い)
- 方策勾配法
  - 方策 $π_{θ} (a | s)$ をNNで近似して, その勾配を求める
  - 軌道 $τ$ が $τ = (s_{0}, a_{0}, r_{0}), (s_{1}, a_{1}, r_{1}), \dots$ で与えられたとき
  - 目的関数を次のように定義
    $J (θ) = E_{τ_{θ}} [G (τ)]$
  - SGDと同様に勾配方向 $\nabla J (θ)$ にパラメタを更新する
    $\nabla J (θ) = E_{τ_{θ}} [\sum_{t} G (τ) \nabla l o g π_{θ} (A_{t} | S_{t})]$
- → REINFORCE

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

強化学習

関連記事