SAM : Sharpness-Aware Minimization
· ☕ 1 min read
Optimizerの一つ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新 SAMは損失が最小かつその周りも平坦となっているパラメータを探す $$\min_{\mathbf{w}} L_\mathcal{S}^\text{SAM}(\mathbf{w})+\lambda|\mathbf{w}|_2^2$$ $L_\mathcal{S}^\text{SAM}(\mathbf{w})$ は以下のように定義. $L_\mathcal{S}$ は通常の損失関数. 何でもOK $$L_\mathcal{S}^\text{SAM}(\mathbf{w}) \triangleq \max_{|\mathbf{\epsilon}|_p\leq\rho} L_\mathcal{S}(\mathbf{w}+\mathbf{\epsilon})$$ ↑ 要はwの近傍まで考慮して最適化するので, 上図のように最小かつ周囲が平坦になる 最大化するεは ...


Sequence to sequence learning with neural networks(2014)
· ☕ 2 min read
#Computer #機械学習 [*** — 概要 — ] [** どんなもの?] 多層LSTMでML task(Machine-Translation-Task)を解く. LSTMを2回通す(encoder/decoder)ことで, T次元ベクトル→固定長の意味ベクトル→T ’ 次元ベクトル と変換することができる. (入力時に語順を逆さにする) [** どういう系譜?先行研究との ...


自動微分
· ☕ 1 min read
https://gyazo.com/3e268654e8e64ed6859f39e3c9b3d951 w1, w2 を出発点として, w5までを連鎖律を用いて計算するのが「自動微分」(ボトムアップ) 数式微分・数値微分とも異なる 自動微分には「ボトムアップ」と「トップダウン」がある 具体的に求めてみるとこんな感じ もしフルスクラッチで実装するなら, 初等関数を表現するクラスで導関数を定義すればOK? 下の図はボトムアップの自動微分を図式化し ...


Redux
· ☕ 1 min read
iOS ...

Reformer
· ☕ 1 min read
Attentionの計算量をO(NlogN)に 従来のTransformerだと内積計算がネック 類似度を計算しさえすれば良い ベクトルを回転させてバケツにブチこむ バケツごとに処理 バケツ内は互いに近いベクトルのはず https://gyazo.com/9a2bf1939cfd7fd3bea5864b9664eed2 Reversible Residual layers Transformerを多層化するとそれだけの途中の状態を保存する必用がありますが、Reformerでし ...


SwinTransformer
· ☕ 2 min read
認識する対象は画像中で様々な大きさを取る → パッチは対象物体をぶつ切りにする可能性があるのでまずい 画像の解像度が高くなると計算量が膨大になる SwinTransformerの解決策 pooling-likeに, 画像の縦横を小さくしていく 局所的なattentionを取る Swin Transformer Block ほとんどTransformerと同じ 違うのはShif ...


MetaFormer・PoolFormer
· ☕ 1 min read
MetaFormer is Actually What You Need for Vision MetaFormerはモデルを抽象化したもの 重要なのはToken mixing であるという主張 AttentionやMLP-mixerはtokenをごちゃまぜにしてる 例えばMLP なら, 全結合によってごちゃごちゃになる Attentionではなく, Poolingでもいいんじゃね? → PoolFormer https://twitter.com/sei_shinagawa/status/1472115254171947009 @sei_shinagawa MetaFormerの論文でも表6 ...

MLP-Mixer
· ☕ 1 min read
パッチとチャンネルの次元を入れ替えてMLPを行う ViTっぽく画像を分割して入力 Attentionも畳み込みもない 画像をP×Pのパッチに分割し、それぞれベクトルにEmbeddingする。 1.で取得したベクトル達を複数回Mixer Layer(token-mixing + cnannel-mixing)で処理する。 MixerLayerで処理されたベクトルをクラス ...


What Does BERT Learn about the Structure of Language?
· ☕ 1 min read
BERT の各層はそれぞれ異なる言語学的情報を捉えている 中間層の表現は転移学習に用いるには有用 後半に行くにつれてより高次元の意味的な情報を捉えている Sentence BERT → SBERT-WK https://aclanthology.org/P19-1356/ ...