JaSPICE: 日本語における述語項構造に基づく
画像キャプション生成モデルの自動評価尺度

Yuiga Wada , Kanta Kaneda , Komei Sugiura
Keio University

CoNLL 2023

ja / en

Abstract
画像キャプション生成タスクでは,生成文の品質が適切に評価されることが重要である. しかし,BLEUやMETEORのようなn-gramに基づく自動評価尺度は人間による評価との相関が高くないことが報告されている. そのため英語においては,人間による評価との相関が高いSPICE等が提案されてきたが,日本語においてはそのような自動評価尺度が存在しない. そこで本論文では,日本語のキャプションに対してシーングラフに基づく評価を行う自動評価尺度JaSPICEを提案する. 実験の結果,提案尺度はベースライン尺度,ならびに機械翻訳による英訳文から算出されたSPICEと比較して,人間による評価との相関係数が高いことを確認した.
Overview
提案手法はJapanese Scene Graph Parser (JaSGP) と Graph Analyzer (GA) の二つのモジュールから構成されます. (i) JaSGPでは述語項構造と係り受け構造からシーングラフを生成し,(ii)GAでは同義語によるグラフ拡張を行ったのち,binary matchingによりF1値を計算します. JaSPICEはシーングラフに基づいてキャプションの品質を評価することができ,[0,1]の範囲で値を出力するため解釈性に長けています.

図1. 画像と対応するシーングラフの一例

「人通りの少なくなった道路で,青いズボンを着た男の子がオレンジ色のヘルメットを被り,スケートボードに乗っている.」

Results Overview

表1. 各自動評価尺度と人間による評価との相関係数

Metric Pearson Spearman Kendall
BLEU 0.296 0.343 0.260
ROUGE 0.366 0.340 0.258
METEOR 0.345 0.366 0.279
CIDER 0.312 0.355 0.269
JaSPICE 0.501 0.529 0.413

表2. Ablation study の結果

Condition Parser グラフ拡張 Pearson Spearman Kendall M
(i) UD 0.398 0.390 0.309 1465
(ii) UD 0.399 0.390 0.309 1430
(iii) JaSGP 0.493 0.524 0.410 1417
(iv)提案尺度 JaSGP 0.501 0.529 0.413 1346
BibTex
@inproceedings{wada2023,
   title     = {{JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models}},
   author    = {Wada, Yuiga  and Kaneda, Kanta  and Sugiura, Komei},
   year      = 2023,
   booktitle = {Proceedings of the 27th Conference on Computational Natural Language Learning (CoNLL)}
}
Usage

1. Download and build docker image.

git clone [email protected]:keio-smilab23/JaSPICE.git
cd JaSPICE
pip install -e .
docker build -t jaspice .
docker run -d -p 2115:2115 jaspice

2. Add the following code. (like pycocoevalcap.)

from jaspice.api import JaSPICE

batch_size = 16
jaspice = JaSPICE(batch_size,server_mode=True)
_, score = jaspice.compute_score(references, candidates)