【論文メモ】cosFormer

📅 2022/4/24 · ☕ 1 min read

ICLR 2022
普通のTransformer
$A t t e n t i o n (Q, K, V)_{i} = \frac{\sum_{j = 1}^{n} \exp (q_{i}^{T} k_{j}) \cdot v_{j}}{\sum_{j = 1}^{n} \exp (q_{i}^{T} k_{j})}$
expが括り出せれば, iとjとで分離できる
- → Linear Attention: Transformers are RNNs
Attentionにおけるsoftmaxの重要な特性
- 1. Attention Matrix $A$ が非負であること
  - ReLUの場合を考えてみると, 負の値を0とすることで, 不要な値・誤った情報を掻き消すことができる
- 1. 非線形な重み付け
  - ReLUよりもsoftmaxのほうが関数近似の速度が速いので, softmaxのほうが良いらしい
上記の議論より, $ϕ (\cdot)$ に $R e L U$ を採用 (上のやつの場合はELU)
cos-Baesd Re-weighting Mecnism
- softmaxはattentionの分散を抑え (=attentionを集中させ), 局所性を高めると言われている
- なので, 局所性を高めるような重み付けがあると良い
  - つまり, 距離に対して単調に減少するような重み付けを掛けてあげればよい
  - ⇒ $c o s (\frac{π}{2} \times \frac{d i s t}{M}) = c o s (\frac{π}{2} \times \frac{i - j}{M})$ を重みにする

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

関連記事