【相関係数】Pearson・Spearman・Kendallの使い分け

📅 2022/9/24 · ☕ 1 min read

ピアソン

$r_{x y} = \frac{\sum_{i = 1}^{n} (x_{i} - \overset{―}{x}) (y_{i} - \overset{―}{y})}{\sqrt{\sum_{i = 1}^{n} (x_{i} - \overset{―}{x})^{2}} \sqrt{\sum_{i = 1}^{n} (y_{i} - \overset{―}{y})^{2}}} = \frac{s_{x y}}{s_{x} s_{y}}$

データ(X,Y)が連続で正規分布に従っていることが前提
なので外れ値に弱い

スピアマン

$ρ_{x y} = \frac{\sum_{i = 1}^{n} (R (x_{i}) - \overset{―}{R (x)}) (R (y_{i}) - \overset{―}{R (y)})}{\sqrt{\sum_{i = 1}^{n} (R (x_{i}) - \overset{―}{R (x)})^{2} \cdot \sum_{i = 1}^{n} (R (y_{i}) - \overset{―}{R (y)})^{2}}} = 1 - \frac{6 \sum_{i = 1}^{n} (R (x_{i}) - R (y_{i}))^{2}}{n (n^{2} - 1)}$

$R (x)$ は $x$ の順位
順位をそのままピアソンの式に当てはめるイメージ
正規分布・連続という仮定がない分使い勝手が良い

ケンドール

$τ_{x y} = \frac{n_{c} - n_{d}}{n_{c} + n_{d}} = \frac{n_{c} - n_{d}}{n (n - 1) / 2}$

データ $(x_{i}, y_{i})$ について
- $n_{c}$ : $x_{i} > x_{j} \land y_{i} > y_{j}$ or $x_{i} < x_{j} \land y_{i} < y_{j}$ なモノの数 (どちらも不等号同じものの数)
- $n_{d}$ : $x_{i} > x_{j} \land y_{i} < y_{j}$ or $x_{i} < x_{j} \land y_{i} > y_{j}$ なモノの数 (互いに不等号が異なるものの数)
一般に, ケンドールの方がスピアマンよりもロバスト
- 外れ値が多かったりサンプル数が少なかったりすると, ケンドールの方が強い
「ケンドールが大きい」⇔「 $n_{c}$ と $n_{d}$ の差が大きい」⇔「Xが大きいほど Y が大きい傾向にある」

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web