post – 行李の底に収めたり[YuWd]

subword

📅 2022/2/20 · ☕ 1 min read

なので, 基本的にTransformer本人からすれば「未知語」というものは存在しない subwordとは？普通の単語はそのまま扱い, 固有名詞や数などはサブワードに分割例: “I have a new GPU!” → { ‘i’, ‘have’, ‘a’, ’new’, ‘gp’, ‘##u’, ‘!’ } / “annoyingly” -> {“annoying”, “ly”} これにより, 語彙数の爆発を防ぐ上で「普通の単語」と言ったが, 実装上は,「頻度が高いものはそのまま」「頻度が低いも ...

#post

PageSpeed Insights

📅 2022/2/19 · ☕ 1 min read

#web ...

#post

magnitude

📅 2022/2/19 · ☕ 1 min read

最初にメモリ上に展開するため, めっちゃ速い OOV (Out-of-Vocabulary) に強いらしい似ているOOV同士は近い所に埋め込みたい (1) 似てる単語があったら, その単語に近くなるように埋め込みたい (2)

o o v_{d} (w) = [0.3 O O V_{d} (w) + 0.7 M A T C H_{3} (3, 6, w)

] (1) → 似ている単語は同じ感じにしたい＝ OOV (2) → 似てる単語があったら, その単語に近くなるように埋め込みたい = MATCH 与えられた単語に近い単語上位3つの平均を取る mag ...

#post

Class Activation Mapping

📅 2022/2/19 · ☕ 0 min read

...

#post

ABN: Attention Branch Network

📅 2022/2/19 · ☕ 1 min read

ベースモデルをfeature extractorとperception branchに分割して, その間にattentionを計算するattention branchを挟む ...

#post

eigenvalue

📅 2022/2/19 · ☕ 1 min read

ｱｲｶﾞﾝﾊﾞﾘｭｰ ...

#post

ViT

📅 2022/2/19 · ☕ 1 min read

モデルは「ViT-(1)/(2)」という名前で表され(1)にはモデルサイズB/L/Hが入ります。(2)にはパッチの大きさの16や14などが入ります。ViT-L/16であればViT-Largeで入力画像のパッチの1つの大きさが16であるモデルのことです。 https://qiita.com/omiita/items/0049ade809c4817670d7 ...

#post

SAM : Sharpness-Aware Minimization

📅 2022/2/19 · ☕ 1 min read

Optimizerの一つ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新 SAMは損失が最小かつその周りも平坦となっているパラメータを探す

min_{w} L_{S}^{SAM} (w) + λ | w |_{2}^{2}

L_{S}^{SAM} (w)

は以下のように定義.

L_{S}

は通常の損失関数. 何でもOK

L_{S}^{SAM} (w) ≜ max_{| ϵ |_{p} \leq ρ} L_{S} (w + ϵ)

↑ 要はwの近傍まで考慮して最適化するので, 上図のように最小かつ周囲が平坦になる最大化するεは ...

#post

Sequence to sequence learning with neural networks(2014)

📅 2022/2/19 · ☕ 2 min read

#Computer #機械学習 [*** — 概要 — ] [** どんなもの？] 多層LSTMでML task(Machine-Translation-Task)を解く. LSTMを2回通す(encoder/decoder)ことで, T次元ベクトル→固定長の意味ベクトル→T ’ 次元ベクトルと変換することができる. (入力時に語順を逆さにする) [** どういう系譜？先行研究との ...

Sequence to sequence learning with neural networks(2014)

機械翻訳の評価指標

📅 2022/2/19 · ☕ 1 min read

https://www.k-intl.co.jp/blog/B_220202A ...

#post

Reversible Residual layers

📅 2022/2/19 · ☕ 1 min read

機械学習 ...

#post

自動微分

📅 2022/2/19 · ☕ 1 min read

https://gyazo.com/3e268654e8e64ed6859f39e3c9b3d951 w1, w2 を出発点として, w5までを連鎖律を用いて計算するのが「自動微分」(ボトムアップ) 数式微分・数値微分とも異なる自動微分には「ボトムアップ」と「トップダウン」がある具体的に求めてみるとこんな感じもしフルスクラッチで実装するなら, 初等関数を表現するクラスで導関数を定義すればOK？下の図はボトムアップの自動微分を図式化し ...

#post

ReactorKit

📅 2022/2/19 · ☕ 1 min read

iOS ...

#post