数学
Distance CorrelationとPartial Distance Correlation について
· ☕ 4 min read
概要 pearsonの相関係数は線形な関係しか捉えることが出来ない. そこで, 点同士の距離を用いたDistance Correlationという相関係数が提案された. さらに, Distance Correlationを拡張し, 内積の期待値が共分散の二乗となるようなヒルベルト空間を定義したPartial Distance Correlationが提案されている. ...


【論文メモ】Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers
· ☕ 8 min read
はじめに ICLR22 [paper] 深層学習において, 残差接続は不可欠な存在となりつつある 残差接続により, より深い層数のNNを実現できるようになった 残差接続に対する解釈の矛盾 昨今の研究により残差接続は比較的浅い層をアンサンブルするような効果があるとの見方が強まっている しかし, 「深層」学習という名が体を表す通り, 一般には「層を増やす」ことがモデ ...


【相関係数】Pearson・Spearman・Kendallの使い分け
· ☕ 1 min read
ピアソン $$ r_{xy} = \frac{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x}) (y_i - \overline{y})}}{\sqrt{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x})^2}} \sqrt{{\displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2}}} = \frac{s_{xy}}{s_xs_y} $$ データ(X,Y)が連続で正規分布に従っていることが前提 なので外れ値に弱い スピアマン $$ \rho_{xy} = \frac{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})(R(y_i) - \overline{R(y)})} {\sqrt{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})^{2}\cdot\sum_{i=1}^{n}(R(y_i)-\overline{R(y)})^{2}}} = 1 - \frac{6\sum_{i=1}^{n}(R(x_i) - R(y_i))^{2}}{n(n^{2} - 1)} $$ $R(x)$は $x$の順位 順位をそのままピアソンの式に当てはめるイメージ 正規分布・連続という仮定がない分使い勝手が良い ケンドール $$ \tau_{xy} ...

Stochastic Gradient Langevin Dynamicsを理解する
· ☕ 4 min read
はじめに MCMCの一種 目標: ある分布 $\pi(x)$からのサンプリングを行いたい Metropolis-Hastingsアルゴリズム (MH) Hamiltonian Monte Carlo (HMC) Langevin Dynamics (Metropolis-adjusted Langevin Algorithm) Stochastic Gradient Langevin Dynamics (SGLD) の順に見ていくと理解しやすい Metropolis-Hastings Metropolis-Hastingsについては既知のもとする 提案分布 $q(z)$を元に判定関数を用いて受容・棄却を行うMCMC cf. ...

ハミルトニアン
· ☕ 1 min read
解析力学において, ハミルトニアンとは「系のエネルギーを座標と運動量で表したもの」 系のエネルギー自体を表すため, 時間変化せず時間 $t$に依存しない $\mathcal{K}$を運動エネルギー、 $\mathcal{U}$をポテンシャルエネルギーとして $$H := H(q,p;t) =\mathcal{K}(p)+\mathcal{U}(q)$$ ハミルトニアンの正準方程式 運動ベクトル $p_r$と座標ベクトル $q_ ...

Energy Based Model
· ☕ 3 min read
Energy Based Model 生成モデルによく用いられる 拡散モデルとも関係が深い 分類回帰問題についてはYour classifier is secretly an energy based model and you should treat it like oneを参照 GANやVAE同様, データ $x$は何らかの高次元確率分布 $p(x)$からサンプリングされたものと仮定する EBMでは以下のように確率分布 $p(x)$を仮定し, $E_{\theta}(\boldsym ...


Monkey saddle
· ☕ 1 min read
$z=x^3-3xy^2$をMonkey saddleと呼ぶらしい https://en.wikipedia.org/wiki/Monkey_saddle Monkey saddleは退化臨界点である (cf. Morse関数) ...


Morse関数
· ☕ 1 min read
M を n 次元可微分多様体とする. M 上の $C^∞$ 関数 $f : M → R$の臨界点 $p$が非退化であるとは, $f$ の $p$における Hessian $H_p(f)$ が正則行列となることである.すべての臨界点が非退化であるような関数を Morse 関数とよぶ. https://www.ms.u-tokyo.ac.jp/~kohno/lectures/g1-7.pdf ...

WL test
· ☕ 1 min read
引用: https://davidbieber.com/post/2019-05-10-weisfeiler-lehman-isomorphism-test/ 正式名称: The Weisfeiler-Lehman Isomorphism Test グラフが同型であるかチェックするアルゴリズム 各ノード $i$に適当なラベル $C_i = 1$を割り当てる 隣接するノードの多重集合 $L_i$をノードに記録する 多重集合 $L_i$をハッシュに通して新たな $C_i$を得る ( $C_i \leftarrow hash(L_i)$) 以上を繰り返して, ノードの分割 ${C_i}$が収束したら停止 2つのグラフが[* 同じ $ ...


NTK
· ☕ 1 min read
Neural Tangent Kernel 以下に示すようなカーネル $$k_{\mathrm{NTK}}(x_i, x_j) = E_{\theta \sim \N} \left\langle \frac{\partial f(x_i; \theta)}{\partial \theta}, \frac{\partial f(x_j; \theta)}{\partial \theta} \right\rangle$$ 特に, 入力をhypersphereに限定すると, MLPのNTKは $h_{\mathrm{NTK}}(\mathbf x_i^\top \mathbf x_j)$と内積の形で書ける 幅が無限にデカイ全結合層を考えると, 重みはほとんど初期値の近くしか動かず, このモデルはNTKによるカーネル回帰と同じ挙動をする(らしい) なので, NNの解析がかな ...

ヒルベルト空間
· ☕ 1 min read
ベクトル空間 $\supset$ 内積空間 $\supset$ ヒルベルト空間 まず「ベクトル空間」について ベクトル空間の公理 (群論を想起すれば自然と思い出せる) 加法について閉じており, 零元, 逆元が存在 / 結合則・交換則が成立 スカラー積について閉じており, 零元, 逆元が存在 / 結合則が成立 スカラー積と加法の間で分配法則が成立 $$\lambda (a+b)=\lambda a + \lambda b$$ こいつらが成り立てばまずはベク ...

リプシッツ連続
· ☕ 1 min read
関数 $f(x)$ がリプシッツ連続である $\Leftrightarrow \exist k, \forall x_1, x_2 , |f(x_1)-f(x_2)|\leq k|x_1-x_2|$ 機械学習において, 摂動 $e$を与えた場合の解析に良く用いられるword (ホントか?) すなわち, リプシッツ連続であれば, $|f(x+e)-f(x)|\leq k|e|$ が成り立つので, 摂動に強い分類器であると言える. ...

Hessianの固有値とフラットさ
· ☕ 1 min read
Hessianの固有値は等高線の密度を表現する どの方向に勾配が, どの程度早く移動するか なので, 最大固有値が小さいと損失平面はフラットになる (等高線の密度がどの方向にも低い) ...