【論文メモ】Energy-Based Learning for Scene Graph Generation

📅 2022/9/19 · ☕ 3 min read

$L_{e} = - f_{θ} (G_{I}^{+}, G_{S G}^{+}) + max_{G_{S G} \in S G} f_{θ} (G_{I}, G_{S G}) .$

となり, このlossの最適化(loss↓)は $f_{θ} (G_{I}^{+}, G_{S G}^{+})$ を最大化(↑)して, サンプリングしてきた $f_{θ} (G_{I}, G_{S G})$ を最小化するので, trainの値を引き上げ, sampleの値を引き下げることになる
第二項の計算はサンプリングが必要なので, Stochastic Gradient Langevin Dynamicsによってサンプリング
$O^{τ + 1} = O^{τ} - \frac{λ}{2} \nabla_{O} E_{θ} (G_{I}, G_{S G}^{τ}) + ϵ^{τ}$
$R^{τ + 1} = R^{τ} - \frac{λ}{2} \nabla_{R} E_{θ} (G_{I}, G_{S G}^{τ}) + ϵ^{τ}$

$L_{r}$ について
- $L_{e}$ だけだと解が爆発してしまったので(そらそうだろ), 正則化項としてのloss $L_{r}$ を追加
$L_{r} = E_{θ} (G_{I}^{+}, G_{S G}^{+})^{2} + E_{θ} (G_{I}, G_{S G})^{2} .$
エネルギー関数について
- 以下のように定義
  $E_{θ} (G_{I}, G_{S G}) = MLP [f (EGNN (G_{S G})); g (GNN (G_{I}))]$
- GNNはGated Graph Neural Networks (GG-NNs)を使用
- EGNNは新たに提案された手法
EGNN (Edge Graph Neural Network) について
- ノードにおけるmessage $m_{i}^{t}$ を以下のように定義
  $m_{i}^{t} = α \underset{node to node message}{\underset{⏟}{W_{n n} (\sum_{j \in N_{i}} n_{j}^{t - 1})}} + (1 - α) \underset{edge to node message}{\underset{⏟}{W_{e n} (\sum_{j \in N_{i}} e_{j \to i}^{t - 1})}}$
- エッジにおけるmessage $d_{i \to j}^{t}$ を以下のように定義
  $d_{i \to j}^{t} = W_{e e} [n_{i}^{t - 1} ‖ n_{j}^{t - 1}]$
- それぞれがMessage-Passing方式でGRUに通される
  - GRU (ゲート付き回帰ユニット)
定量的結果 (VGTree + Energey-Based Loss)
- 一番上の左の結果
  - <cat, near, door> → <cat, in front of, door>
  - <dog, near, cat> → <cat, looking at, dog>
  - となっており, よりinteractiveなrelationが張られている

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

関連記事