【相関係数】Pearson・Spearman・Kendallの使い分け

JavaScriptを有効にしてください

【相関係数】Pearson・Spearman・Kendallの使い分け

📅 2022/9/24 · ☕ 1 min read

ピアソン

$$ r_{xy} = \frac{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x})
(y_i - \overline{y})}}{\sqrt{{\displaystyle \sum_{i = 1}^n
(x_i - \overline{x})^2}} \sqrt{{\displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2}}} = \frac{s_{xy}}{s_xs_y} $$

データ(X,Y)が連続で正規分布に従っていることが前提
なので外れ値に弱い

スピアマン

$$ \rho_{xy} = \frac{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})(R(y_i) - \overline{R(y)})} {\sqrt{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})^{2}\cdot\sum_{i=1}^{n}(R(y_i)-\overline{R(y)})^{2}}} = 1 - \frac{6\sum_{i=1}^{n}(R(x_i) - R(y_i))^{2}}{n(n^{2} - 1)} $$

$R(x)$は $x$の順位
順位をそのままピアソンの式に当てはめるイメージ
正規分布・連続という仮定がない分使い勝手が良い

ケンドール

$$ \tau_{xy} = \frac{n_c - n_d}{n_c + n_d} = \frac{n_c - n_d}{n(n-1)/2} $$

データ $(x_i,y_i)$について
- $n_c$ : $x_i > x_j \land y_i > y_j$or $x_i < x_j \land y_i < y_j$なモノの数 (どちらも不等号同じものの数)
- $n_d$: $x_i > x_j \land y_i < y_j$or $x_i < x_j \land y_i > y_j$なモノの数 (互いに不等号が異なるものの数)
一般に, ケンドールの方がスピアマンよりもロバスト
- 外れ値が多かったりサンプル数が少なかったりすると, ケンドールの方が強い
「ケンドールが大きい」⇔「 $n_c $と $n_d$の差が大きい」⇔「Xが大きいほど Y が大きい傾向にある」

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web