【論文メモ】ViLBERT 📅 2022/3/30 · ☕ 1 min read BERT同様, 転移学習モデル なので, IMGトークンやCLSトークンを導入する 画像の埋め込みはどういう実装…? 例えばViTだと, 普通に行列 $E$を掛け合わせている or ResNetを用いる (これをハイブリット方式と呼ぶ) 各パッチをEで埋め込み、CLSトークンを連結したのち、位置エンコーディングEposを加算して ... #BERT #論文