post – 行李の底に収めたり[YuWd]

Sergey Levine

📅 2022/6/30 · ☕ 1 min read

ロボティクス系で結構すごい人らしい ...

CORS

📅 2022/6/29 · ☕ 1 min read

Cross-Origin Resource Sharing オリジンとは, プロトコル + ドメイン + ポートのことつまり, CORSとは同じオリジン間でのリソースの共有のことなので, オリジンが異なるリクエストは基本CORSエラーが起きる ...

美味しい牡蠣フライの食べ方

📅 2022/6/29 · ☕ 1 min read

一度ブログに読書録を書いた牡蠣フライ理論について ...

「村上春樹、河合隼雄に会いにいく」

📅 2022/6/29 · ☕ 4 min read

p132-134 村上: ただ、ぼくが「ねじまき鳥クロニクル」に関して感ずるのは、何がどういう意味を持っているのかということが、自分でもまったくわからないということなのです。これまで書いてきたどの小説にもまして、わからない。たとえば、「世界の終りとハードボイルド・ワンダーランド」は、かなり同じような手法で書いたものではあるのですが、ある ...

Twitter

📅 2022/6/28 · ☕ 1 min read

AboutMeでTweetの有害性について書いたが, とても良く言語化されている以下の記事達を発見した. /shokai/承認欲求の刺激につながる機能を全て排除する /shokai/人間には承認欲求を刺激すると知能が下がるバグがある ...

#misc
#post

REINFORCE

📅 2022/6/27 · ☕ 1 min read

単純な方策勾配方法では

\nabla J (θ) = E_{τ_{θ}} [\sum_{t} G (τ) \nabla l o g π_{θ} (A_{t} | S_{t})]

が使われていたが, 全ての時刻

t

において収益

G (τ)

が一律に使用されているのが気がかりである重要なのは, 時刻

t

の行動の後の評価であるから,

[0, t)

の収益はノイズとなり得るそこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t ...

強化学習

📅 2022/6/27 · ☕ 2 min read

引用: ゼロから作るDeep Learning ❹ ―強化学習編価値を如何に定めるか？状態

s

と方策

π

で決める→状態価値関数状態

s

と方策

π

と行動

a

で決める→行動価値関数 (Q関数) 方策

π

はグラフ遷移そのものと等しい存在例えば,

π (a | s)

は状態

s

から行動

a

を実行する確率を表す価値ベース手法価値 ...

#post

PPO

📅 2022/6/27 · ☕ 0 min read

...

#post

TD法

📅 2022/6/26 · ☕ 1 min read

DP法とMC法の中間 MCの場合, 終端までわかってないと使えなかったなので, 1ステップの状態に対してサンプリングを行い, 評価→行動引用: ゼロから作るDeep Learning ❹ ―強化学習編 ...

DQN

📅 2022/6/26 · ☕ 1 min read

Q学習は推定値

E_{t}

を使って推定値

E_{t + 1}

を更新する (これをブートストラップと呼ぶ) ゆえにQ学習は不安定なのだが, NNを加えると更に不安定になりやすい DQNでは, 推定値

E_{t}

と推定値

E_{t + 1}

の相関が強くなりすぎないように「経験再生」と「ターゲットネットワーク」と呼ばれるものを導入する経験再生過去の状態や行動 ...

MC法

📅 2022/6/26 · ☕ 1 min read

モンテカルロ法二次グリッド上の経路探索問題なら, 状態

s

は

(i, j)

の各マス方策

π

に準じて

N

回行動

a

をサンプリング移動先の状態

s_{k}

と収益

G_{t} (s_{k})

を記録終端まで収益

G_{t} (s_{k})

を計算最後に各状態

s

の収益

G_{t} (s_{k})

の平均を取る [* 行動

a

をサンプリングしている点に注 ...

AGI

📅 2022/6/26 · ☕ 1 min read

中国語の部屋 ...

#post

DAgger algorithm

📅 2022/6/26 · ☕ 1 min read

状態:

s \in S

行動:

a \in A

方策:

π

π : S \to A

と定義累積的にデータセットを増やしながら方策を学習していく感じ誤差が少ないらしい ...

DAgger algorithm

1
…
6
7
8
…
28