This page looks best with JavaScript enabled

【相関係数】Pearson・Spearman・Kendallの使い分け

 ·  ☕ 1 min read

ピアソン

$$ r_{xy} = \frac{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x})
(y_i - \overline{y})}}{\sqrt{{\displaystyle \sum_{i = 1}^n
(x_i - \overline{x})^2}} \sqrt{{\displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2}}} = \frac{s_{xy}}{s_xs_y} $$

  • データ(X,Y)が連続で正規分布に従っていることが前提
  • なので外れ値に弱い

スピアマン

$$ \rho_{xy} = \frac{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})(R(y_i) - \overline{R(y)})} {\sqrt{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})^{2}\cdot\sum_{i=1}^{n}(R(y_i)-\overline{R(y)})^{2}}} = 1 - \frac{6\sum_{i=1}^{n}(R(x_i) - R(y_i))^{2}}{n(n^{2} - 1)} $$

  • $R(x)$は $x$の順位
  • 順位をそのままピアソンの式に当てはめるイメージ
  • 正規分布・連続という仮定がない分使い勝手が良い

ケンドール

$$ \tau_{xy} = \frac{n_c - n_d}{n_c + n_d} = \frac{n_c - n_d}{n(n-1)/2} $$

  • データ $(x_i,y_i)$について

    • $n_c$ : $x_i > x_j \land y_i > y_j$or $x_i < x_j \land y_i < y_j$なモノの数 (どちらも不等号同じものの数)
    • $n_d$: $x_i > x_j \land y_i < y_j$or $x_i < x_j \land y_i > y_j$なモノの数 (互いに不等号が異なるものの数)
  • 一般に, ケンドールの方がスピアマンよりもロバスト

    • 外れ値が多かったりサンプル数が少なかったりすると, ケンドールの方が強い
  • 「ケンドールが大きい」⇔「 $n_c $と $n_d$の差が大きい」⇔「Xが大きいほど Y が大きい傾向にある」

Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web