ピアソン
$$ r_{xy} = \frac{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x})
(y_i - \overline{y})}}{\sqrt{{\displaystyle \sum_{i = 1}^n
(x_i - \overline{x})^2}} \sqrt{{\displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2}}} = \frac{s_{xy}}{s_xs_y} $$
- データ(X,Y)が連続で正規分布に従っていることが前提
- なので外れ値に弱い
スピアマン
$$ \rho_{xy} = \frac{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})(R(y_i) - \overline{R(y)})} {\sqrt{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})^{2}\cdot\sum_{i=1}^{n}(R(y_i)-\overline{R(y)})^{2}}} = 1 - \frac{6\sum_{i=1}^{n}(R(x_i) - R(y_i))^{2}}{n(n^{2} - 1)} $$
- $R(x)$は $x$の順位
- 順位をそのままピアソンの式に当てはめるイメージ
- 正規分布・連続という仮定がない分使い勝手が良い
ケンドール
$$ \tau_{xy} = \frac{n_c - n_d}{n_c + n_d} = \frac{n_c - n_d}{n(n-1)/2} $$
-
データ $(x_i,y_i)$について
- $n_c$ : $x_i > x_j \land y_i > y_j$or $x_i < x_j \land y_i < y_j$なモノの数 (どちらも不等号同じものの数)
- $n_d$: $x_i > x_j \land y_i < y_j$or $x_i < x_j \land y_i > y_j$なモノの数 (互いに不等号が異なるものの数)
-
一般に, ケンドールの方がスピアマンよりもロバスト
- 外れ値が多かったりサンプル数が少なかったりすると, ケンドールの方が強い
-
「ケンドールが大きい」⇔「 $n_c $と $n_d$の差が大きい」⇔「Xが大きいほど Y が大きい傾向にある」