post – 行李の底に収めたり[YuWd]

p132-134 村上: ただ、ぼくが「ねじまき鳥クロニクル」に関して感ずるのは、何がどういう意味を持っているのかということが、自分でもまったくわからないということなのです。これまで書いてきたどの小説にもまして、わからない。たとえば、「世界の終りとハードボイルド・ワンダーランド」は、かなり同じような手法で書いたものではあるのですが、ある ...

Twitter

📅 2022/6/28 · ☕ 1 min read

AboutMeでTweetの有害性について書いたが, とても良く言語化されている以下の記事達を発見した. /shokai/承認欲求の刺激につながる機能を全て排除する /shokai/人間には承認欲求を刺激すると知能が下がるバグがある ...

#misc
#post

REINFORCE

📅 2022/6/27 · ☕ 1 min read

単純な方策勾配方法では $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G(\tau) \nabla log \pi_\theta (A_t|S_t) \rbrack$$ が使われていたが, 全ての時刻 $t$において収益 $G(\tau)$が一律に使用されているのが気がかりである重要なのは, 時刻 $t$の行動の後の評価であるから, $\lbrack0,t)$の収益はノイズとなり得るそこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t ...

強化学習

📅 2022/6/27 · ☕ 2 min read

引用: ゼロから作るDeep Learning ❹ ―強化学習編価値を如何に定めるか？状態 $s$と方策 $\pi$で決める→状態価値関数状態 $s$と方策 $\pi$と行動 $a$で決める→行動価値関数 (Q関数) 方策 $\pi$はグラフ遷移そのものと等しい存在例えば, $\pi(a|s)$は状態 $s$から行動 $a$を実行する確率を表す価値ベース手法価値 ...