JavaScriptを有効にしてください

Layer normalization

 ·  ☕ 1 min read
  • Post-LN

    • 通常のTransformerだとこっち
    • 性能が高い
    • 不安定
  • Pre-LN

    • (相対的に)性能は低い
    • 安定
  • DeepNet

    • DeepNetでは, DeepNormという手法を用いることで性能・安定性ともに向上させる
    • これによって, 層数をバカでか数にしても, 安定して学習させることができる
共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web