JavaScriptを有効にしてください

MC法

 ·  ☕ 1 min read
  • モンテカルロ法

    • 二次グリッド上の経路探索問題なら, 状態 s(i,j)の各マス
    • 方策 πに準じて N回行動 aサンプリング
      • 移動先の状態 skと収益 Gt(sk)を記録
      • 終端まで収益 Gt(sk)を計算
    • 最後に各状態 sの収益 Gt(sk)の平均を取る
    • [* 行動 aをサンプリングしている点に注意]
      • つまり, N回グラフ上をうろちょろしてデータを収集しつつ, 収益の平均値を採用
  • DPと違う点は, DPは遷移確率が既知である点

    • なのでDPの場合, 収益の期待値は簡単に求まるが,
    • MCの場合は収益の期待値=サンプリングの平均ということになる



引用: https://qiita.com/triwave33/items/0c8833e6b899c26b208e

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web