JavaScriptを有効にしてください

【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

 ·  ☕ 1 min read


  • モチベーション

  • loss

    • InfoNCEを拡張して
      Lv=1Ni=1Nj=1N[αIij+(1α)Mijv]logpv(ziv,zjt;τ)
    • とする
    • イメージは下のような感じ
    • Mをどうするか?→最適輸送問題に落とし込む


  • 最適輸送問題
    • 以下の式を解く (ただし最適輸送問題の双対問題となっている)
      Mv=\argmaxMMM,SvF+λH(M).

    • Svはテキストと画像の類似度

    • Sv=γvZ~vZ~v+γtZ~tZ~t+Z~vZ~tηIN.と定義する

    • 画像の類似度 + テキストの類似度 + テキスト-画像間の類似度 - 単位行列

    • ηは十分に大きい正の数で, この第四項により対角成分を0にできる

    • どうやって解くの?

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web