マルチモーダル情報に基づく画像説明文の教師あり自動評価

Authors

齋藤大地, 和田唯我, 兼田寛大, 杉浦孔明

Conference

人工知能学会 インタラクティブ 情報アクセスと可視化マイニング研究会(第31回)

Abstract

画像キャプション生成では,モデルが出力した生成文の品質を適切に評価することが重要である.しかし,n-gramに基づく自動評価尺度は人間による評価との相関が低いことが報告されている.日本語の画像キャプション生成ではJaSPICEがそれらに代わる自動評価尺度として提案されているものの,表層表現の不一致に対して適切に評価を行うことができない.また,COMETをはじめとする学習可能な自動評価尺度は,機械翻訳における自動評価タスクに最適化されており画像を考慮しないため,画像キャプション生成には適していない.そこで本論文では,画像キャプション生成に対する自動評価尺度SuiSeiを提案する.SuiSeiは,画像特徴量と言語特徴量を扱うマルチモーダル特徴抽出機構およびidfを考慮した文埋め込み機構を用いて人間による評価を回帰する.実験の結果,SuiSeiはベースライン尺度と比較して人間による評価との相関係数が高いことを示した.

Paper

BibTeX

@inproceedings{Saito-2023-saito23, jtitle = "マルチモーダル情報に基づく画像説明文の教師あり自動評価", title = "マルチモーダル情報に基づく画像説明文の教師あり自動評価", jauthor = "齋藤, 大地 and 和田, 唯我 and 兼田, 寛大 and 杉浦, 孔明", author = "Saito, Daichi and Wada, Yuiga and Kaneda, Kanta and Sugiura, Komei", jbooktitle = "人工知能学会 インタラクティブ 情報アクセスと可視化マイニング研究会(第31回)", booktitle = "", year = "2023", pages = "", }