JavaScriptを有効にしてください

【論文メモ】RegionCLIP: Region-based Language-Image Pretraining

 ·  ☕ 1 min read



  • 流れ

    • [RPN](Resion Proposal Network)を用いて候補領域を探す
      • RPNはBBOXのみ(ラベルなし)のアノテーションがなされたデータセットで事前学習されたものを使用
      • なのでRPNの学習はlossには組み込まれていない
    • 指示文から名詞だけを取り出してPrompt Engineeringを行い, それらの集合と検出領域の特徴量の類似度をCLIP同様に計算して学習する
  • Pretrain

    • 検出領域と言語の特徴量ペア (v,l)について,
      Lcntrst=1Nilog(p(vi,lm))

    • 対照学習としてのlossとする. ただし,
      p(vi,lm)=exp(S(vi,lm)/τ)exp(S(vi,lm)/τ)+kNriexp(S(vi,lk)/τ)

    • また, ネットから収集されたデータでnoisyなので, KL divergenceを用いて知識蒸留を行う
      Ldist=1NiLKL(qit,qi),

    • Lcntrstを画像全体に拡張したバージョンを Lcntrstimgとする

    • 最終的なlossは以下の通り
      L=Lcntrst+Ldist+Lcntrstimg.

  • 結果

    • めっちゃいい感じ


共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web