 
  
  
  
引用: ゼロから作るDeep Learning ❹ ―強化学習編
- 
価値を如何に定めるか? - 状態  - 状態  
 
- 状態  
- 
方策 - 例えば,  
 
- 例えば,  
- 
価値ベース手法 
  - どうやって解くの?
    - まず, 適当に[サンプリング](https://scrapbox.io/yuwd/%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0)してきた状態  $s$から $T$が最大となる $a, Q'$を探す
    - 現在の  $Q$と $Q'$の差を誤差と捉え, モデルを更新
- [DQN](https://yuiga.dev/blog/en/ja/posts/dqn//) では, これらに加えて「経験再生」と「ターゲットネットワーク」という概念が導入される
- 方策ベース手法
- 
Q関数のように価値を近似するのではなく, 方策を直接近似する 
- 
REINFORCE / Actor-Critic (方策勾配法 → REINFORCE → Actor-Critic の順に勉強すると良い) 
- 
方策勾配法 - 方策   - 軌道  - 目的関数を次のように定義
 
- SGDと同様に勾配方向 
 
 
- 方策   
 
- 
