JavaScriptを有効にしてください

【論文メモ】MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

 ·  ☕ 1 min read


  • CVPR22
  • タスク: KB-VQA
    • 質問画像に含まれていない知識を要する質問に回答するタスク
    • 例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない


  • 新規性

    • 知識グラフの構築は行わない
    • scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用いて学習
  • triplet (entity, relation, entity)

    • Head Entity

      • Faster-RCNNで抽出した領域画像と質問文をLXMERTにブチこみ, 画像特徴量を得る
      • この画像特徴量と質問文のrelevence affinity matrix(スコア行列)を計算し, 親和性の高い領域画像の画像特徴量をHead Entityとする
    • Tail Entity

      • 学習時は学習可能パラメタとしてQAのキャプションから学習
      • 推論時は知識グラフ (知識DB)からの補完問題として解く
      • Tail Entity自体がVQAのanswerとなる
    • relation

      • LXMERTCLSトークンをそのままrelationとして用いる
      • これにより, Head Entity(領域画像)とTail Entity(言語)の関係を表現
  • 定性的結果


共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web