MC法 – 行李の底に収めたり[YuWd]

JavaScriptを有効にしてください

MC法

📅 2022/6/26 · ☕ 1 min read

モンテカルロ法
- 二次グリッド上の経路探索問題なら, 状態 $s$ は $(i,j)$の各マス
- 方策 $\pi$に準じて $N$回行動 $a$をサンプリング
  - 移動先の状態 $s_k$と収益 $G_t(s_k)$を記録
  - 終端まで収益 $G_t(s_k)$を計算
- 最後に各状態 $s$の収益 $G_t(s_k)$の平均を取る
- [* 行動 $a$をサンプリングしている点に注意]
  - つまり, $N$回グラフ上をうろちょろしてデータを収集しつつ, 収益の平均値を採用
DPと違う点は, DPは遷移確率が既知である点
- なのでDPの場合, 収益の期待値は簡単に求まるが,
- MCの場合は収益の期待値＝サンプリングの平均ということになる

引用: https://qiita.com/triwave33/items/0c8833e6b899c26b208e

共有

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

関連記事