JavaScriptを有効にしてください

【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training

 ·  ☕ 2 min read

はじめに


Surrogate Gap Minimization Improves Sharpness-Aware Training

論文メモ

  • 問題提起
    • SAMの計算式では, 本当にフラットな損失点を見つけているとは言えない
      LSSAM(w)max|ϵ|pρLS(w+ϵ)

    • 例えば下の図では, 近傍 fpについて最適化すると, SAMの場合, 青に収束してしまう危険がある


    • 本当に見るべきは以下に定義するsurrogate gap h(x)
      h(x):=fp(x)f(x)

    • surrogate gap h(x)については, Hessianの最大固有値との間で以下の関係が成り立つことが証明できる
      σmax2h(w)ρ2

    • なので, surrogate gapがフラットな損失点へと収束することが理論的に証明されている


  • 最適化の注意点
    • 最適化したいのは, f(x),fp(x),h(x)の三つ
    • ただし, minwfp(x)+λh(x)を最適化するのは少し注意が必要
      • 例えば, h=fpfffpとで内積が負の値になることがある
      • すなわち, 最適化のConflictが起きる可能性がある (下図参照)
        • conflict = 片方を最適化すると片方が最適解から遠ざかる可能性がある
    • なので, 実際のアルゴリズムは, hの直交成分を使って, 下図赤線の方向に解を更新する


  • SAMとの比較 (toy-setting)

    • (GIFアニメなので自動でループ再生されてます)

  • 結果


共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web