This page looks best with JavaScript enabled

【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation

 ·  ☕ 1 min read


  • 評価指標SPICEの論文 (ECCV 2016)

    • BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えない
    • そこで, scene graphを用いた評価指標SPICEを提案
    • 実際, 画像キャプショニングモデルではよく見かける指標となってきた
  • 流れ

    • ① 複数キャプションからscene graphを生成

      • scene graphの生成にはStanford Scene Graph Parserを使用
        • なのでSPICE自体もjavaで機能する
      • ただし, 複数名詞の処理において, ノードの複製はしない
        • (two people はpeopleを2つ増やすのではなくtwo→peopleとするだけ)
    • ② 生成文からもscene graphを生成

    • ③ 以下に示す $T(G(c))$について
      $$T(G(c)) \triangleq O(c) \cup E(c) \cup K(c)$$

    • Precision, Recallを定義して, F値をSPICEとする
      $$P(c, S) = \frac{|T(G(c)) \otimes T(G(S))|}{|T(G(c))|} $$
      $$R(c, S) = \frac{|T(G(c)) \otimes T(G(S))|}{|T(G(S))|}$$
      $$SPICE(c, S) = F_{1}(c, S) = \frac{2 \cdot P(c, S) \cdot R(c, S)}{P(c, S) + R(c,S)}$$

  • $T(G(c))$の例
    $T(G(c)) = { (girl), (court), (girl, young), (girl, standing)\(court, tennis), (girl, on-top-of, court) }$


  • 一番上はUniversal Dependencies

Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web