JavaScriptを有効にしてください

【論文メモ】ViLBERT

 ·  ☕ 1 min read
  • BERT同様, 転移学習モデル

    • なので, IMGトークンやCLSトークンを導入する
  • 画像の埋め込みはどういう実装…?

    • 例えばViTだと, 普通に行列 $E$を掛け合わせている or ResNetを用いる (これをハイブリット方式と呼ぶ)
      • 各パッチをEで埋め込み、CLSトークンを連結したのち、位置エンコーディングEposを加算しています。ちなみに EEの代わりにResNetで各パッチを埋め込んでも良さそうです。この場合、パッチはFlattenさせずにResNetへと入力し、その出力に対してFlattenを行います。論文中ではパッチの最初の埋め込みにResNetを用いる手法のことをハイブリッドと呼んでいます。

      • https://qiita.com/omiita/items/0049ade809c4817670d7


  • Co-Attention Transformerにより, 画像と文章をfusionさせる



共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web