- パッチとチャンネルの次元を入れ替えてMLPを行う
- ViTっぽく画像を分割して入力
- Attentionも畳み込みもない
- 画像をP×Pのパッチに分割し、それぞれベクトルにEmbeddingする。
- 1.で取得したベクトル達を複数回Mixer Layer(token-mixing + cnannel-mixing)で処理する。
- MixerLayerで処理されたベクトルをクラス分類処理する。
- Mixer Layer
- 空間方向にmix → チャネル方向にmix → … って感じでごちゃまぜにする
- ごちゃまぜ=全結合
- VisionTransformerの2/3のパラメータで同程度の精度が出る
- 学習時間・スループットに優位性がある
- 空間方向にmix → チャネル方向にmix → … って感じでごちゃまぜにする
- 新たな帰納バイアスの可能性