JavaScriptを有効にしてください

【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

 ·  ☕ 1 min read
  • 提案手法は主に2つの機構で構成される
      1. Multimodal mixture of Encoder-Decoder (MED)


    1. Captioning and Filtering (CapFilt):

  • CLIPの使用するデータセットはnoisy

    • なので, キャプションの取捨選択を自動で行う機構を導入
    • 流れ
      1. ノイズを含む元のデータセットでMEDを学習
      1. 事前学習されたMEDを用いてCapFiltを実行
      1. CapFiitによって得られたデータセットを用いて再度MEDを学習
  • MED

    • Image-TextContrastiveLoss(ITC)
      • 画像特徴量と言語特徴量が近づくように学習
    • Image-TextMatchingLoss(ITM)
      • 画像とテキスト本当にペアであるかを二値分類
    • LanguageModelingLoss(LM)
      • 入力画像に対する真のキャプションと, 生成されたキャプションとのクロスエントロピー
  • CapFilt

    • 上に太文字書いたITMを使って画像とテキストが本当にペアであるかを二値分類
    • ペアでないと判定されたものはデータセットから排除することでデータセットをクリーニング


共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web