読者です 読者をやめる 読者になる 読者になる

ピアソン相関係数のp値

ピアソン相関係数と言えば、その名の通り、相関関係を示す評価尺度ですが、p値という単語を目にしました。

p値?それって、ph値と何か関係あったりする?(もちろん関係ないです)
なので、調べてみたらこんな感じの説明でした。

説明を見つけたのはここ↓
http://soudan1.biglobe.ne.jp/qa1360722.html

                                                                    • -

まず、相関係数とは、ある2つの事象が相互にどの程度の相関関係を持っているかを示す値だということ、そして、これは-1<α<1の間の値で算出されることは知っていますね。

で、通常、この値が1(または-1)に近いほど、2つの事象には「相関関係がある」と言うわけですが、実はこれだけではデータとしてはダメなのです。ここにp値が出てきます。

p値は「仮に2つの事象が本当はぜーんぜん無関係だとした場合でも、このような相関係数が得られる【確率】はどのくらいあるか」という認定をする数字です。
つまり、2つの事象が、本当は無関係なんだけど、何らかの偶然で高い相関係数が出てしまう場合だってあり得ますよね。それを考慮して下さい、ということです。

例えば、AとBという2つの事象について積率相関係数を求めました。0.85だったとしましょう。
「おおお、両者には強い相関関係があるんだ!」とやってしまいますよね。でも「ちょっと待ったぁ! p値はいくつだい?」と尋ねられます。

p値=0.17だったとしましょう。
そうすると、「AとBの2つが本当は無関係なんだけど、何らかの偶然(とか、データの偏りなど)によって、0.85という相関係数が出てしまう確率が0.17(17%)ありますよ」ということになるのです。

通常p値が0.05(95%以下の有意性)を超えた場合にはそのデータは採用しません。つまりあまりにも偶然が介在する余地が多すぎるからです。さっきの例で言えば、AとBの2つの事象が無関係でも、相関係数が0.85と出てしまう確率が17%もあるとしたら、そんなデータで何かものを言うのはおっかないですよね。

初心者が混乱するのは、p値が大きくなる=データの有意性が小さくなる、という関係であるにもかかわらず、「有意確率」という表現が使われるためです。
まぁ、「文献に出てきた相関係数の怪しさの度合い」を示していると思っていれば、とりあえず文献を読む程度なら良いでしょう。だからp値は小さいほど良いデータなのです。

                                                                    • -

なので、相関係数を出す時にはできる限りp値もだしませう。ということでした。