
-
モチベーション
- CLIPは単位行列を教師として学習する
- → バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね
- → 最適輸送問題を解いたものを教師として活用しよう
- OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案
- Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ
-
loss

- 最適輸送問題
-
以下の式を解く (ただし最適輸送問題の双対問題となっている)
-
はテキストと画像の類似度 -
と定義する -
画像の類似度 + テキストの類似度 + テキスト-画像間の類似度 - 単位行列
-
は十分に大きい正の数で, この第四項により対角成分を0にできる -
どうやって解くの?
- Sinkhorn-Knoppアルゴリズムを使えばOK
- 解は次のようになることが知られている
-