JavaScriptを有効にしてください

MLP-Mixer

 ·  ☕ 1 min read



  • パッチとチャンネルの次元を入れ替えてMLPを行う
  • ViTっぽく画像を分割して入力
  • Attentionも畳み込みもない
  1. 画像をP×Pのパッチに分割し、それぞれベクトルにEmbeddingする。
  2. 1.で取得したベクトル達を複数回Mixer Layer(token-mixing + cnannel-mixing)で処理する。
  3. MixerLayerで処理されたベクトルをクラス分類処理する。
  • Mixer Layer
    • 空間方向にmix → チャネル方向にmix → … って感じでごちゃまぜにする
      • ごちゃまぜ=全結合
    • VisionTransformerの2/3のパラメータで同程度の精度が出る
    • 学習時間・スループットに優位性がある
  • 新たな帰納バイアスの可能性

https://qiita.com/kanataken/items/0b48b7af0187b7538385
機械学習

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web