JavaScriptを有効にしてください

MC法

 ·  ☕ 1 min read
  • モンテカルロ法

    • 二次グリッド上の経路探索問題なら, 状態 $s$ は $(i,j)$の各マス
    • 方策 $\pi$に準じて $N$回行動 $a$をサンプリング
      • 移動先の状態 $s_k$と収益 $G_t(s_k)$を記録
      • 終端まで収益 $G_t(s_k)$を計算
    • 最後に各状態 $s$の収益 $G_t(s_k)$の平均を取る
    • [* 行動 $a$をサンプリングしている点に注意]
      • つまり, $N$回グラフ上をうろちょろしてデータを収集しつつ, 収益の平均値を採用
  • DPと違う点は, DPは遷移確率が既知である点

    • なのでDPの場合, 収益の期待値は簡単に求まるが,
    • MCの場合は収益の期待値=サンプリングの平均ということになる



引用: https://qiita.com/triwave33/items/0c8833e6b899c26b208e

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web