JavaScriptを有効にしてください

【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

 ·  ☕ 1 min read


  • モチベーション

  • loss

    • InfoNCEを拡張して
      $$\mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)$$
    • とする
    • イメージは下のような感じ
    • $M$をどうするか?→最適輸送問題に落とし込む


  • 最適輸送問題
    • 以下の式を解く (ただし最適輸送問題の双対問題となっている)
      $$\mathbf{M}^{v*} = \argmax_{\mathbf{M}\in\mathcal{M}} \langle \mathbf{M}, \mathbf{S}^v\rangle_{F} + \lambda H(\mathbf{M}).$$

    • $\mathbf{S}^v$はテキストと画像の類似度

    • $\mathbf{S}^v = \gamma_{v} \mathbf{\tilde{Z}}^{v\top} \mathbf{\tilde{Z}}^v + \gamma_t \mathbf{\tilde{Z}}^{t\top} \mathbf{\tilde{Z}}^t + \mathbf{\tilde{Z}}^{v\top} \mathbf{\tilde{Z}}^t - \eta \mathbf{I}_N.$と定義する

    • 画像の類似度 + テキストの類似度 + テキスト-画像間の類似度 - 単位行列

    • $\eta$は十分に大きい正の数で, この第四項により対角成分を0にできる

    • どうやって解くの?

      • Sinkhorn-Knoppアルゴリズムを使えばOK
      • 解は次のようになることが知られている
        $$\mathbf{M}^{v*} = \text{Diag}(\mathbf{r})\exp(\mathbf{S}^v / \lambda) \text{Diag}(\mathbf{c})$$
共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web