post
subword
· ☕ 1 min read
なので, 基本的にTransformer本人からすれば「未知語」というものは存在しない subwordとは? 普通の単語はそのまま扱い, 固有名詞や数などはサブワードに分割 例: “I have a new GPU!” → { ‘i’, ‘have’, ‘a’, ’new’, ‘gp’, ‘##u’, ‘!’ } / “annoyingly” -> {“annoying”, “ly”} これにより, 語彙数の爆発を防ぐ 上で「普通の単語」と言ったが, 実装上は,「頻度が高いものはそのまま」「頻度が低いも ...

magnitude
· ☕ 1 min read
最初にメモリ上に展開するため, めっちゃ速い OOV (Out-of-Vocabulary) に強いらしい 似ているOOV同士は近い所に埋め込みたい (1) 似てる単語があったら, その単語に近くなるように埋め込みたい (2) oovd(w)=[0.3OOVd(w)+0.7MATCH3(3,6,w)] (1) → 似ている単語は同じ感じにしたい = OOV (2) → 似てる単語があったら, その単語に近くなるように埋め込みたい = MATCH 与えられた単語に近い単語上位3つの平均を取る mag ...


ABN: Attention Branch Network
· ☕ 1 min read
ベースモデルをfeature extractorとperception branchに分割して, その間にattentionを計算するattention branchを挟む ...


eigenvalue
· ☕ 1 min read
アイガンバリュー ...

ViT
· ☕ 1 min read
モデルは「ViT-(1)/(2)」という名前で表され(1)にはモデルサイズB/L/Hが入ります。(2)にはパッチの大きさの16や14などが入ります。ViT-L/16であればViT-Largeで入力画像のパッチの1つの大きさが16であるモデルのことです。 https://qiita.com/omiita/items/0049ade809c4817670d7 ...

SAM : Sharpness-Aware Minimization
· ☕ 1 min read
Optimizerの一つ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新 SAMは損失が最小かつその周りも平坦となっているパラメータを探す minwLSSAM(w)+λ|w|22 LSSAM(w) は以下のように定義. LS は通常の損失関数. 何でもOK LSSAM(w)max|ϵ|pρLS(w+ϵ) ↑ 要はwの近傍まで考慮して最適化するので, 上図のように最小かつ周囲が平坦になる 最大化するεは ...


Sequence to sequence learning with neural networks(2014)
· ☕ 2 min read
#Computer #機械学習 [*** — 概要 — ] [** どんなもの?] 多層LSTMでML task(Machine-Translation-Task)を解く. LSTMを2回通す(encoder/decoder)ことで, T次元ベクトル→固定長の意味ベクトル→T ’ 次元ベクトル と変換することができる. (入力時に語順を逆さにする) [** どういう系譜?先行研究との ...


自動微分
· ☕ 1 min read
https://gyazo.com/3e268654e8e64ed6859f39e3c9b3d951 w1, w2 を出発点として, w5までを連鎖律を用いて計算するのが「自動微分」(ボトムアップ) 数式微分・数値微分とも異なる 自動微分には「ボトムアップ」と「トップダウン」がある 具体的に求めてみるとこんな感じ もしフルスクラッチで実装するなら, 初等関数を表現するクラスで導関数を定義すればOK? 下の図はボトムアップの自動微分を図式化し ...