JavaScriptを有効にしてください

【相関係数】Pearson・Spearman・Kendallの使い分け

 ·  ☕ 1 min read

ピアソン

rxy=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2=sxysxsy

  • データ(X,Y)が連続で正規分布に従っていることが前提
  • なので外れ値に弱い

スピアマン

ρxy=i=1n(R(xi)R(x))(R(yi)R(y))i=1n(R(xi)R(x))2i=1n(R(yi)R(y))2=16i=1n(R(xi)R(yi))2n(n21)

  • R(x)xの順位
  • 順位をそのままピアソンの式に当てはめるイメージ
  • 正規分布・連続という仮定がない分使い勝手が良い

ケンドール

τxy=ncndnc+nd=ncndn(n1)/2

  • データ (xi,yi)について

    • nc : xi>xjyi>yjor xi<xjyi<yjなモノの数 (どちらも不等号同じものの数)
    • nd: xi>xjyi<yjor xi<xjyi>yjなモノの数 (互いに不等号が異なるものの数)
  • 一般に, ケンドールの方がスピアマンよりもロバスト

    • 外れ値が多かったりサンプル数が少なかったりすると, ケンドールの方が強い
  • 「ケンドールが大きい」⇔「 ncndの差が大きい」⇔「Xが大きいほど Y が大きい傾向にある」

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web