Polos: 画像キャプション生成における教師あり自動評価尺度

Authors

和田唯我, 兼田寛大, 齋藤大地, 杉浦孔明

Conference

言語処理学会 第30回年次大会 (NLP2024)

Abstract

画像キャプション生成タスクでは,生成文の品質が適切に評価されることが重要である.しかし,近年のデータ駆動型自動評価尺度は,多様な画像および言語に対する汎化性能が低いという問題が指摘されている.この問題は,これらの尺度が画像キャプション生成とは無関係なタスクで学習された埋め込み表現を用いており,また古典的手法によって類似度を計算しているだけに過ぎないためであると考えられる.そこで,本研究では,画像キャプション生成タスクにおける教師あり自動評価尺度Polosを提案する.Polosは画像と言語を入力とし,大規模対照学習によって学習された埋め込みを用いた並列クロスモーダル特徴抽出機構により評価値を計算する.また,本研究では人間のフィードバックに基づき自動評価尺度を学習するフレームワークM2LHFを提案する.さらに,Polosを学習するため,550人の被験者から13万サンプルの人間による評価を収集した最大規模のデータセットPolarisを構築した.実験の結果,PolosはComposite,Flickr8K-Expert,Flickr8K-CF,PASCAL-50S,FOIL,Polarisにおいて,既存手法を上回る結果を得た.

Paper

BibTeX

@inproceedings{Wada-2024-polos, jtitle = "Polos: 画像キャプション生成における教師あり自動評価尺度", title = "Polos: 画像キャプション生成における教師あり自動評価尺度", jauthor = "和田, 唯我 and 兼田, 寛大 and 齋藤, 大地 and 杉浦, 孔明", author = "Wada, Yuiga and Kaneda, Kanta and Saito, Daichi and Sugiura, Komei", jbooktitle = "言語処理学会 第30回年次大会 (NLP2024)", booktitle = "NLP 2024", year = "2024", pages = "2817-2822", }