-
ICLR 2022
-
普通のTransformer
$$Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}$$ -
expが括り出せれば, iとjとで分離できる
-
Attentionにおけるsoftmaxの重要な特性
-
- Attention Matrix $A$が非負であること
- ReLUの場合を考えてみると, 負の値を0とすることで, 不要な値・誤った情報を掻き消すことができる
-
- 非線形な重み付け
- ReLUよりもsoftmaxのほうが関数近似の速度が速いので, softmaxのほうが良いらしい
-
-
上記の議論より, $\phi(\cdot) $ に $ReLU$を採用 (上のやつの場合はELU)
-
cos-Baesd Re-weighting Mecnism
- softmaxはattentionの分散を抑え (=attentionを集中させ), 局所性を高めると言われている
- なので, 局所性を高めるような重み付けがあると良い
- つまり, 距離に対して単調に減少するような重み付けを掛けてあげればよい
- ⇒ $cos (\frac{\pi}{2} \times \frac{dist}{M}) = cos (\frac{\pi}{2} \times \frac{i-j}{M})$ を重みにする
This page looks best with JavaScript enabled
【論文メモ】cosFormer
· ☕ 1 min read