Posts

REINFORCE

📅 2022/6/27 · ☕ 1 min read

単純な方策勾配方法では $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G(\tau) \nabla log \pi_\theta (A_t|S_t) \rbrack$$ が使われていたが, 全ての時刻 $t$において収益 $G(\tau)$が一律に使用されているのが気がかりである重要なのは, 時刻 $t$の行動の後の評価であるから, $\lbrack0,t)$の収益はノイズとなり得るそこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t ...

強化学習

📅 2022/6/27 · ☕ 2 min read

引用: ゼロから作るDeep Learning ❹ ―強化学習編価値を如何に定めるか？状態 $s$と方策 $\pi$で決める→状態価値関数状態 $s$と方策 $\pi$と行動 $a$で決める→行動価値関数 (Q関数) 方策 $\pi$はグラフ遷移そのものと等しい存在例えば, $\pi(a|s)$は状態 $s$から行動 $a$を実行する確率を表す価値ベース手法価値 ...

#post

【論文メモ】Do Transformer Modifications Transfer Across Implementations and Applications?

📅 2022/6/27 · ☕ 1 min read

Transformerの改善案は大量にあるが, 本当に有効なのはどれだけあるの？という論文結論 (有効な改善方法) 活性化関数: GLU+GeLU/Swish 正規化: RMS Norm パラメタ共有: デコーダの入出力における埋め込み表現を共有すると良いアーキテクチャ Mixture of Experts Transformer Synthesizer Product Key Memory ...

#論文

PPO

📅 2022/6/27 · ☕ 0 min read

...

#post

【論文メモ】CP-GAN

📅 2022/6/27 · ☕ 1 min read

todo ...

#論文

【論文メモ】CLIP

📅 2022/6/27 · ☕ 1 min read

CLIPによって, image↔textの特徴量変換が容易になったと言える → ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation ...

【論文メモ】HAMT - History Aware Multimodal Transformer for Vision-and-Language Navigation

📅 2022/6/26 · ☕ 1 min read

パラメタの更新にActor-Criticを使用強化学習と模倣学習の両方を組み込んでいる ...

#論文

【論文メモ】HAMT - History Aware Multimodal Transformer for Vision-and-Language Navigation

TD法

📅 2022/6/26 · ☕ 1 min read

DP法とMC法の中間 MCの場合, 終端までわかってないと使えなかったなので, 1ステップの状態に対してサンプリングを行い, 評価→行動引用: ゼロから作るDeep Learning ❹ ―強化学習編 ...

DQN

📅 2022/6/26 · ☕ 1 min read

Q学習は推定値 $E_t$ を使って推定値 $E_{t+1}$を更新する (これをブートストラップと呼ぶ) ゆえにQ学習は不安定なのだが, NNを加えると更に不安定になりやすい DQNでは, 推定値 $E_t$ と推定値 $E_{t+1}$の相関が強くなりすぎないように「経験再生」と「ターゲットネットワーク」と呼ばれるものを導入する経験再生過去の状態や行動 ...

MC法

📅 2022/6/26 · ☕ 1 min read

モンテカルロ法二次グリッド上の経路探索問題なら, 状態 $s$ は $(i,j)$の各マス方策 $\pi$に準じて $N$回行動 $a$をサンプリング移動先の状態 $s_k$と収益 $G_t(s_k)$を記録終端まで収益 $G_t(s_k)$を計算最後に各状態 $s$の収益 $G_t(s_k)$の平均を取る [* 行動 $a$をサンプリングしている点に注 ...