【論文メモ】Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding – 行李の底に収めたり[YuWd]

【論文メモ】Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

📅 2022/7/25 · ☕ 1 min read

通常のV&Lモデルでは, 画像のバックボーンネットワークは言語特徴量を使用しない
- そのようなモデルでは, 「画像にりんごはいくつあるか？」などといったVQAタスクすら解けない(可能性が高い)
そこで, SwinTransformerを拡張し, 各ステージで言語特徴量をspatial / channel方向にmixしながら推論していくモデルを提案
タスクは物体検出なので, regトークンを付けて回帰問題を解く
データセットにReferItGameとFlickr30Kを使用

共有

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

関連記事