JavaScriptを有効にしてください

Linear Attention: Transformers are RNNs

 ·  ☕ 1 min read
  • RNNの計算量はO(nd^2) / Transformerの計算量はO(n^2d)
    Attention(Q,K,V)=sortmax(QKTdkey)V

Attention(Q,K,V)i=j=1nexp(qiTkj)vjj=1nexp(qiTkj)

  • O(n^2)の部分をどうにかしたい

    • O(n)に落としたい → Linear Attention
    • とにかく類似度の計算ができれば良いので, 別の類似度計算に置き換えたい
      • simでまとめると
        sim(q,k)=exp(qTkdkey)
        Attention(Q,K,V)i=j=1nsim(qi,kj)vjj=1nsim(qi,kj)
      • q_iとk_jに依存しているので, 乗法に分離できると嬉しい
  • cosFormer というのもある

    • 結構速度・精度ともに良いらしい
共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web