Linear Attention: Transformers are RNNs – 行李の底に収めたり[YuWd]

Linear Attention: Transformers are RNNs

📅 2022/2/26 · ☕ 1 min read

#post

RNNの計算量はO(nd^2) / Transformerの計算量はO(n^2d)
$A t t e n t i o n (Q, K, V) = s o r t m a x (\frac{Q K^{T}}{\sqrt{d_{k e y}}}) V$

$A t t e n t i o n (Q, K, V)_{i} = \frac{\sum_{j = 1}^{n} \exp (q_{i}^{T} k_{j}) \cdot v_{j}}{\sum_{j = 1}^{n} \exp (q_{i}^{T} k_{j})}$

O(n^2)の部分をどうにかしたい
- O(n)に落としたい → Linear Attention
- とにかく類似度の計算ができれば良いので, 別の類似度計算に置き換えたい
  - simでまとめると
    $s i m (q, k) = e x p (\frac{q^{T} k}{\sqrt{d_{k e y}}})$
    $A t t e n t i o n (Q, K, V)_{i} = \frac{\sum_{j = 1}^{n} s i m (q_{i}, k_{j}) \cdot v_{j}}{\sum_{j = 1}^{n} s i m (q_{i}, k_{j})}$
  - q_iとk_jに依存しているので, 乗法に分離できると嬉しい
    - → カーネルトリック
    - 前処理O(n)でO(nd)に
    - $ϕ (x)$ に $e l u (x) + 1$ を採用 (ELU)
cosFormer というのもある
- 結構速度・精度ともに良いらしい

共有

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

関連記事