数学 – 行李の底に収めたり[YuWd]

Distance CorrelationとPartial Distance Correlation について

📅 2022/12/11 · ☕ 4 min read

概要 pearsonの相関係数は線形な関係しか捉えることが出来ない. そこで, 点同士の距離を用いたDistance Correlationという相関係数が提案された. さらに, Distance Correlationを拡張し, 内積の期待値が共分散の二乗となるようなヒルベルト空間を定義したPartial Distance Correlationが提案されている. ...

Distance CorrelationとPartial Distance Correlation について

【論文メモ】Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers

📅 2022/11/2 · ☕ 8 min read

はじめに ICLR22 [paper] 深層学習において, 残差接続は不可欠な存在となりつつある残差接続により, より深い層数のNNを実現できるようになった残差接続に対する解釈の矛盾昨今の研究により残差接続は比較的浅い層をアンサンブルするような効果があるとの見方が強まっているしかし, 「深層」学習という名が体を表す通り, 一般には「層を増やす」ことがモデ ...

【論文メモ】Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers

【相関係数】Pearson・Spearman・Kendallの使い分け

📅 2022/9/24 · ☕ 1 min read

ピアソン $$ r_{xy} = \frac{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x}) (y_i - \overline{y})}}{\sqrt{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x})^2}} \sqrt{{\displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2}}} = \frac{s_{xy}}{s_xs_y} $$ データ(X,Y)が連続で正規分布に従っていることが前提なので外れ値に弱いスピアマン $$ \rho_{xy} = \frac{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})(R(y_i) - \overline{R(y)})} {\sqrt{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})^{2}\cdot\sum_{i=1}^{n}(R(y_i)-\overline{R(y)})^{2}}} = 1 - \frac{6\sum_{i=1}^{n}(R(x_i) - R(y_i))^{2}}{n(n^{2} - 1)} $$ $R(x)$は $x$の順位順位をそのままピアソンの式に当てはめるイメージ正規分布・連続という仮定がない分使い勝手が良いケンドール $$ \tau_{xy} ...

Stochastic Gradient Langevin Dynamicsを理解する

📅 2022/9/5 · ☕ 4 min read

はじめに MCMCの一種目標: ある分布 $\pi(x)$からのサンプリングを行いたい Metropolis-Hastingsアルゴリズム (MH) Hamiltonian Monte Carlo (HMC) Langevin Dynamics (Metropolis-adjusted Langevin Algorithm) Stochastic Gradient Langevin Dynamics (SGLD) の順に見ていくと理解しやすい Metropolis-Hastings Metropolis-Hastingsについては既知のもとする提案分布 $q(z)$を元に判定関数を用いて受容・棄却を行うMCMC cf. ...

ハミルトニアン

📅 2022/9/5 · ☕ 1 min read

解析力学において, ハミルトニアンとは「系のエネルギーを座標と運動量で表したもの」系のエネルギー自体を表すため, 時間変化せず時間 $t$に依存しない $\mathcal{K}$を運動エネルギー、 $\mathcal{U}$をポテンシャルエネルギーとして $$H := H(q,p;t) =\mathcal{K}(p)+\mathcal{U}(q)$$ ハミルトニアンの正準方程式運動ベクトル $p_r$と座標ベクトル $q_ ...

Energy Based Model

📅 2022/8/27 · ☕ 3 min read

Energy Based Model 生成モデルによく用いられる拡散モデルとも関係が深い分類回帰問題についてはYour classifier is secretly an energy based model and you should treat it like oneを参照 GANやVAE同様, データ $x$は何らかの高次元確率分布 $p(x)$からサンプリングされたものと仮定する EBMでは以下のように確率分布 $p(x)$を仮定し, $E_{\theta}(\boldsym ...

Monkey saddle

📅 2022/8/2 · ☕ 1 min read

$z=x^3-3xy^2$をMonkey saddleと呼ぶらしい https://en.wikipedia.org/wiki/Monkey_saddle Monkey saddleは退化臨界点である (cf. Morse関数) ...

Morse関数

📅 2022/8/2 · ☕ 1 min read

M を n 次元可微分多様体とする． M 上の $C^∞$ 関数 $f : M → R$の臨界点 $p$が非退化であるとは， $f$ の $p$における Hessian $H_p(f)$ が正則行列となることである．すべての臨界点が非退化であるような関数を Morse 関数とよぶ． https://www.ms.u-tokyo.ac.jp/~kohno/lectures/g1-7.pdf ...

WL test

📅 2022/7/28 · ☕ 1 min read

引用: https://davidbieber.com/post/2019-05-10-weisfeiler-lehman-isomorphism-test/ 正式名称: The Weisfeiler-Lehman Isomorphism Test グラフが同型であるかチェックするアルゴリズム各ノード $i$に適当なラベル $C_i = 1$を割り当てる隣接するノードの多重集合 $L_i$をノードに記録する多重集合 $L_i$をハッシュに通して新たな $C_i$を得る ( $C_i \leftarrow hash(L_i)$) 以上を繰り返して, ノードの分割 ${C_i}$が収束したら停止２つのグラフが[* 同じ $ ...

NTK

📅 2022/7/17 · ☕ 1 min read

Neural Tangent Kernel 以下に示すようなカーネル $$k_{\mathrm{NTK}}(x_i, x_j) = E_{\theta \sim \N} \left\langle \frac{\partial f(x_i; \theta)}{\partial \theta}, \frac{\partial f(x_j; \theta)}{\partial \theta} \right\rangle$$ 特に, 入力をhypersphereに限定すると, MLPのNTKは $h_{\mathrm{NTK}}(\mathbf x_i^\top \mathbf x_j)$と内積の形で書ける幅が無限にデカイ全結合層を考えると, 重みはほとんど初期値の近くしか動かず, このモデルはNTKによるカーネル回帰と同じ挙動をする(らしい) なので, NNの解析がかな ...

ヒルベルト空間

📅 2022/7/12 · ☕ 1 min read

ベクトル空間 $\supset$ 内積空間 $\supset$ ヒルベルト空間まず「ベクトル空間」についてベクトル空間の公理 (群論を想起すれば自然と思い出せる) 加法について閉じており, 零元, 逆元が存在 / 結合則・交換則が成立スカラー積について閉じており, 零元, 逆元が存在 / 結合則が成立スカラー積と加法の間で分配法則が成立 $$\lambda (a+b)=\lambda a + \lambda b$$ こいつらが成り立てばまずはベク ...

リプシッツ連続

📅 2022/7/4 · ☕ 1 min read

Hessianの固有値とフラットさ

📅 2022/6/30 · ☕ 1 min read

Hessianの固有値は等高線の密度を表現するどの方向に勾配が, どの程度早く移動するかなので, 最大固有値が小さいと損失平面はフラットになる (等高線の密度がどの方向にも低い) ...