【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

📅 2022/7/25 · ☕ 1 min read

1. Captioning and Filtering (CapFilt):
CLIPの使用するデータセットはnoisy
- なので, キャプションの取捨選択を自動で行う機構を導入
- 流れ
- 1. ノイズを含む元のデータセットでMEDを学習
- 1. 事前学習されたMEDを用いてCapFiltを実行
- 1. CapFiitによって得られたデータセットを用いて再度MEDを学習
MED
- Image-TextContrastiveLoss(ITC)
  - 画像特徴量と言語特徴量が近づくように学習
- Image-TextMatchingLoss(ITM)
  - 画像とテキスト本当にペアであるかを二値分類
- LanguageModelingLoss(LM)
  - 入力画像に対する真のキャプションと, 生成されたキャプションとのクロスエントロピー
CapFilt
- 上に太文字書いたITMを使って画像とテキストが本当にペアであるかを二値分類
- ペアでないと判定されたものはデータセットから排除することでデータセットをクリーニング

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

関連記事