JavaScriptを有効にしてください

Informer

 ·  ☕ 1 min read
  • $P(key|query)$が高いqueryを上位X分だけ取り出してself-attentionを計算
    - LogSparse Transformerのようなヒューリスティックな手法から脱却
  • Self-attention Distilling
    • self-attentionの各層をpoolingでダウンサンプリングして蒸留


共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web