post
「村上春樹、河合隼雄に会いにいく」
· ☕ 4 min read
p132-134 村上: ただ、ぼくが「ねじまき鳥クロニクル」に関 して感ずるのは、何がどういう意味を持っているの かということが、自分でもまったくわからないとい うことなのです。これまで書いてきたどの小説にも まして、わからない。 たとえば、「世界の終りとハードボイルド・ワン ダーランド」は、かなり同じような手法で書いたも のではあるのですが、ある ...

Twitter
· ☕ 1 min read
AboutMeでTweetの有害性について書いたが, とても良く言語化されている以下の記事達を発見した. /shokai/承認欲求の刺激につながる機能を全て排除する /shokai/人間には承認欲求を刺激すると知能が下がるバグがある ...

REINFORCE
· ☕ 1 min read
単純な方策勾配方法では $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G(\tau) \nabla log \pi_\theta (A_t|S_t) \rbrack$$ が使われていたが, 全ての時刻 $t$において収益 $G(\tau)$が一律に使用されているのが気がかりである 重要なのは, 時刻 $t$の行動の後の評価であるから, $\lbrack0,t)$の収益はノイズとなり得る そこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t ...

強化学習
· ☕ 2 min read
引用: ゼロから作るDeep Learning ❹ ―強化学習編 価値を如何に定めるか? 状態 $s$と方策 $\pi$で決める→状態価値関数 状態 $s$と方策 $\pi$と行動 $a$で決める→行動価値関数 (Q関数) 方策 $\pi$はグラフ遷移そのものと等しい存在 例えば, $\pi(a|s)$は状態 $s$から行動 $a$を実行する確率を表す 価値ベース手法 価値 ...


PPO
· ☕ 0 min read
...

TD法
· ☕ 1 min read
DP法とMC法の中間 MCの場合, 終端までわかってないと使えなかった なので, 1ステップの状態に対してサンプリングを行い, 評価→行動 引用: ゼロから作るDeep Learning ❹ ―強化学習編 ...


DQN
· ☕ 1 min read
Q学習は推定値 $E_t$ を使って推定値 $E_{t+1}$を更新する (これをブートストラップと呼ぶ) ゆえにQ学習は不安定なのだが, NNを加えると更に不安定になりやすい DQNでは, 推定値 $E_t$ と推定値 $E_{t+1}$の相関が強くなりすぎないように「経験再生」と「ターゲットネットワーク」と呼ばれるものを導入する 経験再生 過去の状態や行動 ...

MC法
· ☕ 1 min read
モンテカルロ法 二次グリッド上の経路探索問題なら, 状態 $s$ は $(i,j)$の各マス 方策 $\pi$に準じて $N$回行動 $a$をサンプリング 移動先の状態 $s_k$と収益 $G_t(s_k)$を記録 終端まで収益 $G_t(s_k)$を計算 最後に各状態 $s$の収益 $G_t(s_k)$の平均を取る [* 行動 $a$をサンプリングしている点に注 ...


AGI
· ☕ 1 min read
中国語の部屋 ...

DAgger algorithm
· ☕ 1 min read
状態: $s \in S$ 行動: $a \in A$ 方策: $\pi$ $\pi : S \rightarrow A$ と定義 累積的にデータセットを増やしながら方策を学習していく感じ 誤差が少ないらしい ...


三島由紀夫
· ☕ 1 min read
「私の鼻は大きくて魅力的でしよ」などと頑張つてゐる女の子より、美の規格を外れた鼻に絶望して、人生を呪つてゐる女の子のはうを愛します。それが「生きてゐる」といふことだからです。 ...