-
MetaFormer is Actually What You Need for Vision
-
MetaFormerはモデルを抽象化したもの
-
重要なのはToken mixing であるという主張
-
Attentionではなく, Poolingでもいいんじゃね?
- → PoolFormer
-
https://twitter.com/sei_shinagawa/status/1472115254171947009
-
@sei_shinagawa MetaFormerの論文でも表6のAblation studyで後半はattentionが強いと示されてるので、「前半はCNN的な構造が良くて後半はAttentionが良い」の焼き直しかと。全部poolingしたら仰る通りもうただのCNNですね
- 結局は前半CNN後半Attentionの焼き直しとも捉えられるっぽい?
-
@sei_shinagawa 画像認識だと、よく訓練されたViTは前半の層で局所特徴も学習するように学習が進んでるので、それなら最初からCNNにした方がサンプル効率が良いという話が多いです。ただ、早期から大域的にみることを否定するものではないです。大規模なモデルだと、ViTが敵対的攻撃に頑健という話があったりします
-
-
Patches Are All You Need? という論文もあるらしい
This page looks best with JavaScript enabled
MetaFormer・PoolFormer
· ☕ 1 min read