【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training – 行李の底に収めたり[YuWd]

【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training

📅 2022/8/1 · ☕ 2 min read

はじめに

SAMの改良 (SAM : Sharpness-Aware Minimization)

Surrogate Gap Minimization Improves Sharpness-Aware Training

論文メモ

問題提起
- SAMの計算式では, 本当にフラットな損失点を見つけているとは言えない
  $L_{S}^{SAM} (w) ≜ max_{| ϵ |_{p} \leq ρ} L_{S} (w + ϵ)$
- 例えば下の図では, 近傍 $f_{p}$ について最適化すると, SAMの場合, 青に収束してしまう危険がある
- 本当に見るべきは以下に定義するsurrogate gap $h (x)$
  $h (x) := f_{p} (x) - f (x)$
- surrogate gap $h (x)$ については, Hessianの最大固有値との間で以下の関係が成り立つことが証明できる
  $σ_{\max} \approx \frac{2 h (w_{*})}{ρ^{2}}$
  - しかも, $O (ρ^{3})$ 程度の誤差らしい
  - Hessianの固有値とフラットさ
- なので, surrogate gapがフラットな損失点へと収束することが理論的に証明されている

最適化の注意点
- 最適化したいのは, $f (x), f_{p} (x), h (x)$ の三つ
- ただし, $m i n_{w} f_{p} (x) + λ h (x)$ を最適化するのは少し注意が必要
  - 例えば, $\nabla h = \nabla f_{p} - \nabla f$ は $\nabla f$ と $\nabla f_{p}$ とで内積が負の値になることがある
  - すなわち, 最適化のConflictが起きる可能性がある (下図参照)
    - conflict = 片方を最適化すると片方が最適解から遠ざかる可能性がある
- なので, 実際のアルゴリズムは, $\nabla h$ の直交成分を使って, 下図赤線の方向に解を更新する

SAMとの比較 (toy-setting)
- (GIFアニメなので自動でループ再生されてます)
結果

帰納バイアスの少ないMLP-Mixerとかだと性能の向上が顕著

共有

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

関連記事