-
モンテカルロ法
- 二次グリッド上の経路探索問題なら, 状態 $s$ は $(i,j)$の各マス
- 方策 $\pi$に準じて $N$回行動 $a$をサンプリング
- 移動先の状態 $s_k$と収益 $G_t(s_k)$を記録
- 終端まで収益 $G_t(s_k)$を計算
- 最後に各状態 $s$の収益 $G_t(s_k)$の平均を取る
- [* 行動 $a$をサンプリングしている点に注意]
- つまり, $N$回グラフ上をうろちょろしてデータを収集しつつ, 収益の平均値を採用
-
DPと違う点は, DPは遷移確率が既知である点
- なのでDPの場合, 収益の期待値は簡単に求まるが,
- MCの場合は収益の期待値=サンプリングの平均ということになる
JavaScriptを有効にしてください
MC法
· ☕ 1 min read