-
評価指標SPICEの論文 (ECCV 2016)
- BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えない
- そこで, scene graphを用いた評価指標SPICEを提案
- 実際, 画像キャプショニングモデルではよく見かける指標となってきた
-
流れ
-
① 複数キャプションからscene graphを生成
- scene graphの生成にはStanford Scene Graph Parserを使用
- なのでSPICE自体もjavaで機能する
- ただし, 複数名詞の処理において, ノードの複製はしない
- (two people はpeopleを2つ増やすのではなくtwo→peopleとするだけ)
- scene graphの生成にはStanford Scene Graph Parserを使用
-
② 生成文からもscene graphを生成
-
③ 以下に示す $T(G(c))$について
$$T(G(c)) \triangleq O(c) \cup E(c) \cup K(c)$$ -
Precision, Recallを定義して, F値をSPICEとする
$$P(c, S) = \frac{|T(G(c)) \otimes T(G(S))|}{|T(G(c))|} $$
$$R(c, S) = \frac{|T(G(c)) \otimes T(G(S))|}{|T(G(S))|}$$
$$SPICE(c, S) = F_{1}(c, S) = \frac{2 \cdot P(c, S) \cdot R(c, S)}{P(c, S) + R(c,S)}$$
-
-
$T(G(c))$の例
$T(G(c)) = { (girl), (court), (girl, young), (girl, standing)\(court, tennis), (girl, on-top-of, court) }$
This page looks best with JavaScript enabled
【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation
· ☕ 1 min read