This page looks best with JavaScript enabled

Linear Attention: Transformers are RNNs

 ·  ☕ 1 min read
  • RNNの計算量はO(nd^2) / Transformerの計算量はO(n^2d)
    $$Attention(Q, K, V) = sortmax(\frac{QK^T}{\sqrt{d_{key}}})V$$

$$Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}$$

  • O(n^2)の部分をどうにかしたい

    • O(n)に落としたい → Linear Attention
    • とにかく類似度の計算ができれば良いので, 別の類似度計算に置き換えたい
      • simでまとめると
        $$sim(q, k)=exp(\frac{q^Tk}{\sqrt{d_{key}}})$$
        $$Attention(Q, K, V)_i = \frac{\sum_{j=1}^nsim(q_i, k_j)\cdot v_j}{\sum_{j=1}^nsim(q_i, k_j)}$$
      • q_iとk_jに依存しているので, 乗法に分離できると嬉しい
  • cosFormer というのもある

    • 結構速度・精度ともに良いらしい
Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web