方策エントロピー 📅 2022/7/7 · ☕ 1 min read 探索空間において探索されたことで更新される情報量 情報エントロピー, もしくは方策の対数尤度の期待値と考えればOK H(π(⋅|st))=∑a−π(a|s)logπ(a|s)=Ea∼π[−logπ(a|s)] 引用: https://horomary.hatenablog.com/entry/2020/12/20/115439 ... #強化学習 #post
SAC(Soft-Actor-Critic) 📅 2022/7/7 · ☕ 1 min read Actor-Critic型のSoft-Q学習 Soft-Q学習とは簡単に言うと, 報酬 + 方策エントロピーを目的関数に据える学習手法 SAC(Soft-Actor-Critic)の理論的背景はSoft-Q学習からきており、従来の目的関数に方策エントロピー項を加え、より多様な探索を可能にした手法です。 エントロピー項は正則化の役割 ... #強化学習 #post
REINFORCE 📅 2022/6/27 · ☕ 1 min read 単純な方策勾配方法では ∇J(θ)=Eτθ[∑tG(τ)∇logπθ(At|St)] が使われていたが, 全ての時刻 tにおいて収益 G(τ)が一律に使用されているのが気がかりである 重要なのは, 時刻 tの行動の後の評価であるから, [0,t)の収益はノイズとなり得る そこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t ... #強化学習 #post
TD法 📅 2022/6/26 · ☕ 1 min read DP法とMC法の中間 MCの場合, 終端までわかってないと使えなかった なので, 1ステップの状態に対してサンプリングを行い, 評価→行動 引用: ゼロから作るDeep Learning ❹ ―強化学習編 ... #強化学習 #post
DQN 📅 2022/6/26 · ☕ 1 min read Q学習は推定値 Et を使って推定値 Et+1を更新する (これをブートストラップと呼ぶ) ゆえにQ学習は不安定なのだが, NNを加えると更に不安定になりやすい DQNでは, 推定値 Et と推定値 Et+1の相関が強くなりすぎないように「経験再生」と「ターゲットネットワーク」と呼ばれるものを導入する 経験再生 過去の状態や行動 ... #強化学習 #post
MC法 📅 2022/6/26 · ☕ 1 min read モンテカルロ法 二次グリッド上の経路探索問題なら, 状態 s は (i,j)の各マス 方策 πに準じて N回行動 aをサンプリング 移動先の状態 skと収益 Gt(sk)を記録 終端まで収益 Gt(sk)を計算 最後に各状態 sの収益 Gt(sk)の平均を取る [* 行動 aをサンプリングしている点に注 ... #強化学習 #post
DAgger algorithm 📅 2022/6/26 · ☕ 1 min read 状態: s∈S 行動: a∈A 方策: π π:S→A と定義 累積的にデータセットを増やしながら方策を学習していく感じ 誤差が少ないらしい ... #模倣学習 #強化学習 #post