Energy Based Model

📅 2022/8/27 · ☕ 3 min read

Energy Based Model
- 生成モデルによく用いられる
  - 拡散モデルとも関係が深い
  - 分類回帰問題についてはYour classifier is secretly an energy based model and you should treat it like oneを参照
- GANやVAE同様, データ $x$ は何らかの高次元確率分布 $p (x)$ からサンプリングされたものと仮定する
EBMでは以下のように確率分布 $p (x)$ を仮定し, $E_{θ} (x)$ をエネルギー関数, $Z_{θ}$ を分配関数と呼ぶ
$p_{θ} (x) = \frac{exp (- E_{θ} (x))}{Z_{θ}}$
$Z_{θ}$ はただの正規化係数で以下の通り.
$Z_{θ} = \int_{x} exp (- E_{θ} (x)) d x$
EBMのお気持ち
- $Z_{θ}$ さえ度外視してしまえば, 正規化という確率分布の大原則から逃れられるため, $E_{θ} (x)$ をNNでどのようにでも近似してよいことになり嬉しい
- でも $Z_{θ}$ 無視できないよね
- → $Z_{θ}$ を直接計算するのは困難なのでサンプリングしましょう
  - 方法1. MCMC
    - 制限ボルツマンマシン時代はGibbs SamplingのようなMCMCが主流であった
    - 高次元空間でのMCMCは非常に品質が悪く, 速度も遅いため, NNにより高次元なベクトルを扱う今日では単純なMCMCは扱われない
  - 方法2. Stochastic Gradient Langevin Dynamics
    - したがって近年ではMCMCにLangevin Dynamicsを組み込んだSGLDを使うことが多い
- また, EBMでの最適化は単なる対数尤度最大化
  - 負の対数尤度 $- l o g p_{θ} (x)$ の勾配を計算していくと

$\begin{aligned} - \nabla_{θ} l o g \frac{exp (- E_{θ} (x))}{Z_{θ}} & = \nabla_{θ} E_{θ} (x_{t r a i n}) + \nabla_{θ} log Z_{θ} \\ = \nabla_{θ} E_{θ} (x_{t r a i n}) + \frac{1}{Z_{θ}} \int \nabla_{θ} exp (- E_{θ} (x)) d x \\ = \nabla_{θ} E_{θ} (x_{t r a i n}) - \int \frac{exp (- E_{θ} (x))}{Z_{θ}} \nabla_{θ} E_{θ} (x) d x \\ = \nabla_{θ} E_{θ} (x_{t r a i n}) - E_{s a m p l e} [\nabla_{θ} E_{θ} (x_{s a m p l e})] \end{aligned}$

上のようになり, trainの勾配とsampleの勾配の差の方向に解を更新していけば良い
後は勾配さえ計算できればよく, 第二項のサンプリングにMCMCの一種であるStochastic Gradient Langevin Dynamicsを使うだけ
EBMにおける最適化のイメージ
- $p_{θ} (x) = \frac{exp (f_{θ} (x_{t r a i n}))}{Z_{θ}}$ を最大化したい
- ということは, $f_{θ} (x_{t r a i n})$ を無限にでかくすれば良い
- だが, 周辺化された $Z_{θ}$ は小さくなる方向に働くので, サンプル点 $x_{t r a i n}$ 以外の点の値は小さくなる
- つまり, trainデータの値が押し上げられ, sampleの値を押し下げられることになる (下図)

引用: https://deepgenerativemodels.github.io/assets/slides/cs236_lecture11.pdf

VAEとの違い
- VAEは確率分布を直接最適化しているわけではなく, ELBOを最適化している
  - イェンセンの不等式で出てくる例のアレ
  - cf. Prototypical Contrastive Learning of Unsupervised Representations
    - スライド

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

Energy Based Model

関連記事