JavaScriptを有効にしてください

【相関係数】Pearson・Spearman・Kendallの使い分け

 ·  ☕ 1 min read

ピアソン

$$ r_{xy} = \frac{\sum(x_{i}-\overline{x}) \sum(y_{i}-\overline{y})}{\sqrt{\sum(x_{i}-\overline{x})^{2}}\sqrt{\sum(y_{i}-\overline{y})^{2}}} $$

  • データ(X,Y)が連続で正規分布に従っていることが前提
  • なので外れ値に弱い

スピアマン

$$ \rho_{xy} = \frac{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})(R(y_i) - \overline{R(y)})} {\sqrt{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})^{2}\cdot\sum_{i=1}^{n}(R(y_i)-\overline{R(y)})^{2}}} = 1 - \frac{6\sum_{i=1}^{n}(R(x_i) - R(y_i))^{2}}{n(n^{2} - 1)} $$

  • $R(x)$は $x$の順位
  • 順位をそのままピアソンの式に当てはめるイメージ
  • 正規分布・連続という仮定がない分使い勝手が良い

ケンドール

$$ \tau_{xy} = \frac{n_c - n_d}{n_c + n_d} = \frac{n_c - n_d}{n(n-1)/2} $$

  • データ $(x_i,y_i)$について

    • $n_c$ : $x_i > x_j \land y_i > y_j$or $x_i < x_j \land y_i < y_j$なモノの数 (どちらも不等号同じものの数)
    • $n_d$: $x_i > x_j \land y_i < y_j$or $x_i < x_j \land y_i > y_j$なモノの数 (互いに不等号が異なるものの数)
  • 一般に, ケンドールの方がスピアマンよりもロバスト

    • 外れ値が多かったりサンプル数が少なかったりすると, ケンドールの方が強い
  • 「ケンドールが大きい」⇔「 $n_c $と $n_d$の差が大きい」⇔「Xが大きいほど Y が大きい傾向にある」

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web