JavaScriptを有効にしてください

【論文メモ】Energy-Based Learning for Scene Graph Generation

 ·  ☕ 3 min read

はじめに


  • Energy Based Modelを用いて画像からscene graphを生成する手法(フレームワーク)を提案
    • 既存手法は次のようにクロスエントロピーでscene graphを生成する
      logp(SG|I)=iOlogp(oi|I)+jRlogp(rj|I).
    • このとき, object Oとrelation Rが互いに独立に計算されている
      • ここが問題で, 本来なら互いに弱い依存性があるはず
      • したがって, データがある確率分布 pθ(GI,GSG)からサンプリングされていると仮定し, Energy Based Modelに基づいてエネルギー関数 Eθ(GI,GSG)を定義し, lossを設計

  • スライド

Energy-Based Learning for Scene Graph Generation

前提知識

解説

  • 流れ

    • Faster-RCNNで物体検出
    • 各領域をノードとして, Image Graphを GI,Scene Graph を GSGとする
    • エネルギー関数 Eθ(GI,GSG)は以下のようにGNNとEGNN(後述)を通した後に, pooling→concatしてMLPに通したものとする
      Eθ(GI,GSG)=MLP[f(EGNN(GSG));g(GNN(GI))]
    • エネルギー関数 Eθ(GI,GSG)について, 以下のようにlossを定義
      Ltotal=λeLe+λrLr+λtLt,
  • lossについて

    • Leについて, GTのグラフを G+として以下のように定義
      Le=Eθ(GI+,GSG+)minGSGSGEθ(GI,GSG).

    • この式の意味するところは次の通り

      • 元の確率分布 pθ(GI,GSG)
        pθ(GI,GSG)=exp(Eθ(GI,GSG))Zθ=exp(fθ(GI,GSG))Zθ
      • とすると,

Le=fθ(GI+,GSG+)+maxGSGSGfθ(GI,GSG).

  • となり, このlossの最適化(loss↓)は fθ(GI+,GSG+)を最大化(↑)して, サンプリングしてきた fθ(GI,GSG)を最小化するので, trainの値を引き上げ, sampleの値を引き下げることになる
  • 第二項の計算はサンプリングが必要なので, Stochastic Gradient Langevin Dynamicsによってサンプリング
    Oτ+1=Oτλ2OEθ(GI,GSGτ)+ϵτ
    Rτ+1=Rτλ2REθ(GI,GSGτ)+ϵτ


引用: https://deepgenerativemodels.github.io/assets/slides/cs236_lecture11.pdf

  • Lrについて
    - Leだけだと解が爆発してしまったので(そらそうだろ), 正則化項としてのloss Lrを追加
    Lr=Eθ(GI+,GSG+)2+Eθ(GI,GSG)2.

  • エネルギー関数について

    • 以下のように定義
      Eθ(GI,GSG)=MLP[f(EGNN(GSG));g(GNN(GI))]
    • GNNはGated Graph Neural Networks (GG-NNs)を使用
    • EGNNは新たに提案された手法
  • EGNN (Edge Graph Neural Network) について

    • ノードにおけるmessage mitを以下のように定義
      mit=αWnn(jNinjt1)node to node message+(1α)Wen(jNiejit1)edge to node message

    • エッジにおけるmessage dijtを以下のように定義
      dijt=Wee[nit1njt1]

    • それぞれがMessage-Passing方式でGRUに通される

  • 定量的結果 (VGTree + Energey-Based Loss)


    • 一番上の左の結果
      • <cat, near, door> → <cat, in front of, door>
      • <dog, near, cat> → <cat, looking at, dog>
      • となっており, よりinteractiveなrelationが張られている


共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web