JavaScriptを有効にしてください

【論文メモ】Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation

 ·  ☕ 1 min read


  • VLN-DUET 概要

    • localな情報とグラフを用いたglobalな情報の両方を統合してactionを決定する
    • actionが決定されたら, Graphを動的に構築して, 移動先までの最短経路をワーシャルフロイドで探索
    • 各ノードには, viewから得られた特徴量を埋め込み表現として保持する
    • 行動 $a^\pi$は各ノードへの尤度によって表現され, ノード0はstop-actionを指す.
  • Vision-and-Language

    • ベースはLXMERTを使用する
  • Training

    • 学習時は全体のグラフがわかってしまっているので, 工夫する必要あり
    • DAgger algorithmと同様の要領で, 適宜サンプリングしながら行動 $a^\pi$を学習
  • Fine-tuning

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web