This page looks best with JavaScript enabled

Informer

 ·  ☕ 1 min read
  • $P(key|query)$が高いqueryを上位X分だけ取り出してself-attentionを計算
    - LogSparse Transformerのようなヒューリスティックな手法から脱却
  • Self-attention Distilling
    • self-attentionの各層をpoolingでダウンサンプリングして蒸留


Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web