論文 – 行李の底に収めたり[YuWd]

Pyramid Vision Transformer PVT v2では Positional Encodingが存在しない https://twitter.com/yu4u/status/1522360958228000769 FFNにzero padding付きのdepthwise convを入れることで位置情報をencodeさせて, Positional Encodingを置換 zero paddingに重要性がある → How Much Position Information Do Convolutional Neural Networks Encode? ...

#論文

【論文メモ】AdaViT

📅 2022/5/9 · ☕ 1 min read

残差構造・selection構造を組み込んだViT Patch Selection : パッチを選定 Head Selection : ヘッドを選定 Block Selection : MHA・FFNを使うかどうか選定 https://arxiv.org/abs/2111.15668 ...

#論文

【論文メモ】Attention on Attention

📅 2022/5/9 · ☕ 1 min read

https://arxiv.org/abs/1908.06954 ...

#論文

【論文メモ】How Much Position Information Do Convolutional Neural Networks Encode?

📅 2022/5/6 · ☕ 1 min read

仮説 : CNNは絶対的な位置情報を獲得している PoSENet : 位置情報のmapを予測するモデルを構築して仮説を検証 $f_{enc}$が位置情報がエンコードするなら, $f_{enc}$の中間層の出力から, 位置情報を復元できるはず f1よりもf5のほうが位置mapの精度が高いより深い層のほうがより強く位置情報を保持している仮説「位置情報は ...

#論文

【論文メモ】How Much Position Information Do Convolutional Neural Networks Encode?

【論文メモ】CMO

📅 2022/4/27 · ☕ 1 min read

不均衡データに有効なaugmentation手法であるCMOを提案 Influenced-Balanced Loss と同じ著者 ...

#論文

【論文メモ】cosFormer

📅 2022/4/24 · ☕ 1 min read

ICLR 2022 普通のTransformer $$Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}$$ expが括り出せれば, iとjとで分離できる → Linear Attention: Transformers are RNNs Attentionにおけるsoftmaxの重要な特性 Attention Matrix $A$が非負であること ReLUの場合を考えてみると, 負の値を0とすることで, 不要な値・誤った情報を掻き消すことができる非線形な重み付け ReLUよりもsoftmaxのほ ...