【論文メモ】Hungry Hungry Hippos: Towards Language Modeling with State Space Models

📅 2023/3/7 · ☕ 6 min read

この度，SONY様のnnablaチャンネルにH3の解説動画を寄稿しました．
本記事ではなく動画の視聴の方を推奨します．

概要

ICLR23
状態空間モデル(state-space model; SSM)は様々なモダリティにおいて有用性が検証されてきたが，未だ言語系においては確認できていない．
また，SSMは $O (L)$ であるにも拘らず， $O (L^{2})$ であるTransformerよりも遅い
実験によって，SSMが①前方にあるトークンの記憶と②トークン間の比較が苦手なことを発見し，この二つの難点を乗り越える新たなSSMとしてH3 (Hungry Hungry Hippos)を提案する．
Transformerに替わるモデルとも言われている(要出典)

SSMにおける二つの問題点

問題点①②を検証するために，二つのタスクInduction HeadとAssociative Recallを実施
- Induction Head : 特殊なトークン|- で囲まれた部分文字列の先頭の文字を出力させるタスク
  - 前方のトークンを如何に覚えているかを測ることができる
- Associative Recall : key-valueでセットになってるアルファベットと数字の組に対して，与えられたkeyに対応するvalueを出力させるタスク
  - この場合 a 2 c 4 b 3 d 1に対して入力がaなので2が答え (間違ってたら教えてくれ)
  - トークン間の関係を覚えているかどうかを測ることができる

結果は以下の通り
- Attentionは100%成功しているが，従来手法はほとんどできていない
- 提案手法であるH3はほぼ100%成功
- Attentionは $Q K^{⊤}$ によりトークン間の関係を記憶可能であり(②)， $softmax (Q K^{⊤}) V$ によりトークン自体を直接記憶可能(①)

先行研究について

具体的な手法に入る前にH3の系譜について述べる必要がある．
- H3は以下のような経緯で提案された
- HiPPO論文→LSSL→S4→H3
次章より，まずはHiPPOについて，それからLSSL / S4について軽く紹介する．

HiPPO (higher-order polynomial projection operators)

HiPPO: Recurrent Memory with Optimal Polynomial Projections (Gu+., NeurIPS20)
HiPPOは複数の直交多項式によって入力信号を近似する手法
(1)入力信号に対して，(2)で直交多項式(基底) $g$ と測度(重み) $μ$ へと分解する
- この処理を ${proj}_{t}$ とする
- 入力信号 $f$ に対して，近似誤差 $| | f - g^{(t)} | |_{L_{2} (μ^{(t)})}$ を最小化するような直交多項式 $g^{(t)} \in G$ へと $f$ を写像する．
- $G$ は直交多項式の $N$ 次元部分空間
(3)で，ある測度に対する基底 $g^{(t)}$ を係数 $c (t) \in R^{N}$ へと写像する
- この処理を ${coef}_{t}$ とする
このとき， ${coef}_{t} \circ {proj}_{t}$ を $hippo$ 関数と呼ぶ
- つまり， $f : R \to R$ を $c : R \to R^{N}$ へと変換する関数
- $hippo$ は関数を関数に写像しているので注意
この時，係数 $c (t)$ は以下のODE(常微分方程式)を満たす．
$\frac{d}{d t} c (t) = A (t) c (t) + B (t) f (t)$
ただし， $A (t) \in R^{N \times N}, B (t) \in R^{N \times 1}$
実験では，測度 $μ$ は一様分布の場合が最も性能が良かったため，以降一様分布であると仮定．
このとき，連続空間では以下が成り立ち，

$\frac{d}{d t} c (t) = - \frac{1}{t} A (t) c (t) + \frac{1}{t} B (t) f (t)$

離散空間では以下が成り立つ．

$c_{k + 1} = (1 - \frac{A}{k}) c_{k} + \frac{1}{k} B f_{k}$

ただし， $A, B$ は以下の通り．

$A_{n k} = {\begin{cases} (2 n + 1)^{1 / 2} (2 k + 1)^{1 / 2} & if; n > k n + 1 & if; n = k 0 & if; n < k \end{cases}$

$B_{n k} = (2 n + 1)^{1 / 2}$

このとき， $A$ をHiPPO行列と呼ぶ．

${hippo}_{t}$ はRNNに容易に組み込むことが可能
hippoを組み込むだけで，劇的に精度が向上する

LSSL

Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers (Gu+., NeurIPS21)
状態空間モデルにHiPPOを導入し，recurrent + conv. の両方で処理できる手法LSSLを提案
- RNNs: 系列データの学習に向いているが，勾配消失などの問題より長距離系列の学習に限界あり
- CNNs: 高速かつ並列可能だが，系列データの学習に向いていない
- NDEs: 連続時間かつ長距離依存を扱うことができるが，効率が悪い
これら3つのパラダイムを状態空間モデルによって統合的に扱うことを目標とする．
状態空間モデル
$\dot{x} (t) = A x (t) + B u (t)$
$y (t) = C x (t) + D u (t)$
GBTにより離散化 (GBT; generalized bilinear transform)
$x (t + Δ t) = (I - α Δ t \cdot A)^{- 1} (I + (1 - α) Δ t \cdot A) x (t) + Δ t (I - α Δ t \cdot A)^{- 1} B \cdot u (t)$

$x_{i} = \bar{A} x_{i - 1} + \bar{B} u_{i}$
$y_{i} = C x_{i} + D u_{i}$
$\bar{A} := (I - α Δ t \cdot A)^{- 1} (I + (1 - α) Δ t \cdot A)$
$\bar{B} := Δ t (I - α Δ t \cdot A)^{- 1} B$

$A, B, C, D, Δ t$ はいずれも学習可能パラメタ
$α = 0$ でオイラー法， $α = 1$ でbackwardオイラー法， $α = 1 / 2$ で双一次変換
以降， $α = 1 / 2$ とする．(双一次変換)
また，LSSLは畳み込みで記述することもできる
- $y_{k} = C {(\overset{―}{A})}^{k} \overset{―}{B} u_{0} + C {(\overset{―}{A})}^{k - 1} \overset{―}{B} u_{1} + \dots + C \overset{―}{A} \overset{―}{B} u_{k - 1} + \overset{―}{B} u_{k} + D u_{k}$ より

$y = K_{L} (\overset{―}{A}, \overset{―}{B}, C) * u + D u$
$K_{L} (A, B, C) = {(C A^{i} B)}_{i \in [L]} \in R^{L} = (C B, C A B, \dots, C A^{L - 1} B)$

ここで， $A$ をHiPPO行列で固定するだけで，長距離依存を扱うことができるようになり，精度が劇的に向上することを確認 (LSSL-fixed)

S4

SSMの改善

SSM
- $x_{i}, u_{i}, y_{i}$ をそれぞれ状態信号，入力信号, 出力信号とすると，
  $x_{i} = A x_{i - 1} + B u_{i}$
  $y_{i} = C x_{i} + D u_{i}$
①前方トークンの記憶
- shift演算(e.g., $(a, b, c) \to (0, a, b)$ )を使うことで記憶
- 例えば，常に $A$ がshift演算として機能するなら， $B = e_{1}$ の時，連鎖的に $m$ ステップ前までの $u_{i}$ が $x_{i}$ に格納される．→ $x_{i} = [u_{i}, \dots, u_{i - m + 1}]$
②トークン間の比較
- Attentionと同様， $Q K^{⊤} V$ のように乗算することで記憶
- $K^{⊤} V$ 部分はHiPPOの対角行列versionによって初期化された対角行列によるSSMが通される
- 対角行列の初期化はこちらを参照．
- HiPPOについては以下を参照
  - https://www.slideshare.net/DeepLearningJP2016/dlefficiently-modeling-long-sequences-with-structured-state-spaces
  - https://openreview.net/pdf?id=uYLFoz1vlAC
最終的には以下のように設計
- 計算量の観点からEfficient Transformer系列に倣って，以下のように設計
  $Q ⊙ {SSM}_{diag} ({SSM}_{shift} (K) ⊙ V)$
- すなわち， $K^{⊤} V$ を先に計算しておく

The shift SSM can detect when a particular event occurs, and the diagonal SSM can remember a token afterwards for the rest of the sequence

H3の流れ
- 入力 $u$ に対して $Q = u W_{Q}, K = u W_{K}, V = u W_{v}$ を得る．
- $K$ を ${SSM}_{shift}$ に通して $\bar{K}$ を得る．
- $Q, K, V$ をmulti-head化 (すなわちdim方向で分割)
- 各headごとに $K V := {SSM}_{diag} (\bar{K} V^{⊤})$ を計算．
- $Q_{i} \in R^{d} | i = 1, \dots, N$ ごとに $Q_{i} (K V)_{i}$ を計算してconcat→ $Q ⊙ {SSM}_{diag} ({SSM}_{shift} (K) ⊙ V)$ を得る．
- headをconcatして最終的な値を得る．

参考

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web