行李の底に収めたり[YuWd]

ViT

📅 2022/2/19 · ☕ 1 min read

モデルは「ViT-(1)/(2)」という名前で表され(1)にはモデルサイズB/L/Hが入ります。(2)にはパッチの大きさの16や14などが入ります。ViT-L/16であればViT-Largeで入力画像のパッチの1つの大きさが16であるモデルのことです。 https://qiita.com/omiita/items/0049ade809c4817670d7 ...

#post

SAM : Sharpness-Aware Minimization

📅 2022/2/19 · ☕ 1 min read

Optimizerの一つ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新 SAMは損失が最小かつその周りも平坦となっているパラメータを探す

min_{w} L_{S}^{SAM} (w) + λ | w |_{2}^{2}

L_{S}^{SAM} (w)

は以下のように定義.

L_{S}

は通常の損失関数. 何でもOK

L_{S}^{SAM} (w) ≜ max_{| ϵ |_{p} \leq ρ} L_{S} (w + ϵ)

↑ 要はwの近傍まで考慮して最適化するので, 上図のように最小かつ周囲が平坦になる最大化するεは ...

#post

Sequence to sequence learning with neural networks(2014)

📅 2022/2/19 · ☕ 2 min read

#Computer #機械学習 [*** — 概要 — ] [** どんなもの？] 多層LSTMでML task(Machine-Translation-Task)を解く. LSTMを2回通す(encoder/decoder)ことで, T次元ベクトル→固定長の意味ベクトル→T ’ 次元ベクトルと変換することができる. (入力時に語順を逆さにする) [** どういう系譜？先行研究との ...

Sequence to sequence learning with neural networks(2014)

機械翻訳の評価指標

📅 2022/2/19 · ☕ 1 min read

https://www.k-intl.co.jp/blog/B_220202A ...

#post

https://gyazo.com/3e268654e8e64ed6859f39e3c9b3d951 w1, w2 を出発点として, w5までを連鎖律を用いて計算するのが「自動微分」(ボトムアップ) 数式微分・数値微分とも異なる自動微分には「ボトムアップ」と「トップダウン」がある具体的に求めてみるとこんな感じもしフルスクラッチで実装するなら, 初等関数を表現するクラスで導関数を定義すればOK？下の図はボトムアップの自動微分を図式化し ...

#post

ReactorKit

📅 2022/2/19 · ☕ 1 min read

iOS ...

#post

Redux

📅 2022/2/19 · ☕ 1 min read

iOS ...

#post

Reformer

📅 2022/2/17 · ☕ 1 min read

Attentionの計算量をO(NlogN)に従来のTransformerだと内積計算がネック類似度を計算しさえすれば良いベクトルを回転させてバケツにブチこむバケツごとに処理バケツ内は互いに近いベクトルのはず https://gyazo.com/9a2bf1939cfd7fd3bea5864b9664eed2 Reversible Residual layers Transformerを多層化するとそれだけの途中の状態を保存する必用がありますが、Reformerでし ...

#post

SwinTransformer

📅 2022/2/14 · ☕ 2 min read

認識する対象は画像中で様々な大きさを取る → パッチは対象物体をぶつ切りにする可能性があるのでまずい画像の解像度が高くなると計算量が膨大になる SwinTransformerの解決策 pooling-likeに, 画像の縦横を小さくしていく局所的なattentionを取る Swin Transformer Block ほとんどTransformerと同じ違うのはShif ...

#post

論文について

📅 2022/2/14 · ☕ 1 min read

https://iis-lab.org/misc/paperreading/ ...

#post

MetaFormer・PoolFormer

📅 2022/2/14 · ☕ 1 min read

MetaFormer is Actually What You Need for Vision MetaFormerはモデルを抽象化したもの重要なのはToken mixing であるという主張 AttentionやMLP-mixerはtokenをごちゃまぜにしてる例えばMLP なら, 全結合によってごちゃごちゃになる Attentionではなく, Poolingでもいいんじゃね？ → PoolFormer https://twitter.com/sei_shinagawa/status/1472115254171947009 @sei_shinagawa MetaFormerの論文でも表6 ...

#post