-
VLN-DUET 概要
- localな情報とグラフを用いたglobalな情報の両方を統合してactionを決定する
- actionが決定されたら, Graphを動的に構築して, 移動先までの最短経路をワーシャルフロイドで探索
- 各ノードには, viewから得られた特徴量を埋め込み表現として保持する
- 行動 $a^\pi$は各ノードへの尤度によって表現され, ノード0はstop-actionを指す.
-
- ベースはLXMERTを使用する
-
Training
- 学習時は全体のグラフがわかってしまっているので, 工夫する必要あり
- ⇒ DAgger algorithmと同様の要領で, 適宜サンプリングしながら行動 $a^\pi$を学習
-
Fine-tuning
- 方策エントロピーを損失に加えることで, できるだけ探索空間を広く取りたいというモチベーションがある
JavaScriptを有効にしてください
【論文メモ】Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation
· ☕ 1 min read