残差接続
· ☕ 1 min read
残差の何がうれしいか? そのモジュールが特徴量変換器として必要なければスキップすることができる 言い換えれば, 恒等変換が起点となるので, 恒等写像が簡単に実現できる ...

リプシッツ連続
· ☕ 1 min read
関数 f(x) がリプシッツ連続である \existk,x1,x2,|f(x1)f(x2)|k|x1x2| 機械学習において, 摂動 eを与えた場合の解析に良く用いられるword (ホントか?) すなわち, リプシッツ連続であれば, |f(x+e)f(x)|k|e| が成り立つので, 摂動に強い分類器であると言える. ...

tex
· ☕ 1 min read
\setlength{\baselineskip}{10pt} で「行間 + 文字の高さ」が10ptになる ...

Hessianの固有値とフラットさ
· ☕ 1 min read
Hessianの固有値は等高線の密度を表現する どの方向に勾配が, どの程度早く移動するか なので, 最大固有値が小さいと損失平面はフラットになる (等高線の密度がどの方向にも低い) ...


CORS
· ☕ 1 min read
Cross-Origin Resource Sharing オリジンとは, プロトコル + ドメイン + ポート のこと つまり, CORSとは同じオリジン間でのリソースの共有のこと なので, オリジンが異なるリクエストは基本CORSエラーが起きる ...

「村上春樹、河合隼雄に会いにいく」
· ☕ 4 min read
p132-134 村上: ただ、ぼくが「ねじまき鳥クロニクル」に関 して感ずるのは、何がどういう意味を持っているの かということが、自分でもまったくわからないとい うことなのです。これまで書いてきたどの小説にも まして、わからない。 たとえば、「世界の終りとハードボイルド・ワン ダーランド」は、かなり同じような手法で書いたも のではあるのですが、ある ...

Twitter
· ☕ 1 min read
AboutMeでTweetの有害性について書いたが, とても良く言語化されている以下の記事達を発見した. /shokai/承認欲求の刺激につながる機能を全て排除する /shokai/人間には承認欲求を刺激すると知能が下がるバグがある ...

REINFORCE
· ☕ 1 min read
単純な方策勾配方法では J(θ)=Eτθ[tG(τ)logπθ(At|St)] が使われていたが, 全ての時刻 tにおいて収益 G(τ)が一律に使用されているのが気がかりである 重要なのは, 時刻 tの行動の後の評価であるから, [0,t)の収益はノイズとなり得る そこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t ...

強化学習
· ☕ 2 min read
引用: ゼロから作るDeep Learning ❹ ―強化学習編 価値を如何に定めるか? 状態 sと方策 πで決める→状態価値関数 状態 sと方策 πと行動 aで決める→行動価値関数 (Q関数) 方策 πはグラフ遷移そのものと等しい存在 例えば, π(a|s)は状態 sから行動 aを実行する確率を表す 価値ベース手法 価値 ...


【論文メモ】Do Transformer Modifications Transfer Across Implementations and Applications?
· ☕ 1 min read
Transformerの改善案は大量にあるが, 本当に有効なのはどれだけあるの?という論文 結論 (有効な改善方法) 活性化関数: GLU+GeLU/Swish 正規化: RMS Norm パラメタ共有: デコーダの入出力における埋め込み表現を共有すると良い アーキテクチャ Mixture of Experts Transformer Synthesizer Product Key Memory ...

PPO
· ☕ 0 min read
...