This page looks best with JavaScript enabled

MetaFormer・PoolFormer

 ·  ☕ 1 min read
  • MetaFormer is Actually What You Need for Vision

  • MetaFormerはモデルを抽象化したもの

  • 重要なのはToken mixing であるという主張

    • AttentionMLP-mixerはtokenをごちゃまぜにしてる
      • 例えばMLP なら, 全結合によってごちゃごちゃになる
  • Attentionではなく, Poolingでもいいんじゃね?

    • → PoolFormer
  • https://twitter.com/sei_shinagawa/status/1472115254171947009

    • @sei_shinagawa MetaFormerの論文でも表6のAblation studyで後半はattentionが強いと示されてるので、「前半はCNN的な構造が良くて後半はAttentionが良い」の焼き直しかと。全部poolingしたら仰る通りもうただのCNNですね

      • 結局は前半CNN後半Attentionの焼き直しとも捉えられるっぽい?
    • @sei_shinagawa 画像認識だと、よく訓練されたViTは前半の層で局所特徴も学習するように学習が進んでるので、それなら最初からCNNにした方がサンプル効率が良いという話が多いです。ただ、早期から大域的にみることを否定するものではないです。大規模なモデルだと、ViTが敵対的攻撃に頑健という話があったりします

  • Patches Are All You Need? という論文もあるらしい

Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web