これだけは知ってほしいデータ分析の基本「相関係数」のビジュアル解説 / Credit:川勝康弘
ナゾロジーの記事でもこれまで「勉強時間と成績」「健康と運動」「知能と収入」など多くの「関連性」を扱った科学ニュースをお届けしてきました。
新たに発表される関連性の中には、経験的に「そうじゃないかなぁ」と疑っていたことを実証してくれたり、思いもよらない意外な繋がりを教えてくれたりなど、非常に興味深いものが含まれています。
中には「なぜそんな関係を調べたのか?」と笑ってしまうものもあったでしょう。
こうした統計研究では、しばしば「関連性が強い」という表現を見かけますが、データ同士の関係性とはどのように理解すればいいのでしょうか?
おそらくデータ分析の研究に対して、「本当に関係があるの?」と疑う人もいるでしょう。
そこで今回は「相関関係」にフォーカスして、身近な物事から社会全体にかかわる現象まで、さまざまな関連性の強さをどのように理解したらいいのかを解説していきます。
目次
相関係数をビジュアルで実感しよう!相関係数0.1~0.9の視覚的理解相関係数が高くても因果関係があるわけではない
相関係数をビジュアルで実感しよう!
(※グラフの視覚的理解を優先するために、各ポイントは正規分布からランダムに生成されたものを使用しています。つまり中央がもっともありふれた状態(密度が高い)となっています) / Credit:川勝康弘
相関関係とは2つのデータの間にある関連性を指す言葉です。
そしてその相関関係の強さを表すのが、相関係数です。
そんなさまざまな現象の相関係数について語る前に、まずは相関係数というものを視覚的に確認してみましょう。
上の図は相関係数を、おおよそ0.1刻みで表示したものとなっており、相関係数が「-1(完全に逆相関)」から「1(完全に相関)」までが並べられています。
相関係数0の場合
相関係数0の場合 / Credit:川勝康弘
グラフをみれば、相関係数0のグラフは中央に団子状に固まっており、横軸や縦軸の数値変化に対して、特定の「傾き」を見せることはありません。
たとえるならば、今日の朝ごはんのメニューの種類数とここ100年の間で観察された超新星爆発の頻度との関連性などが当てはまるでしょう。
自分の朝ごはんが超新星爆発に関連している人がいないかぎり、ポイントの集団に傾きがうまれることはありません。
相関係数1の場合
相関係数1の場合 / Credit:川勝康弘
一方、相関係数が1のグラフは全てのポイントが直線状に整列しており、「横軸の値が○○ならば縦軸の値は絶対に✕✕になる」という完璧な比例が成立していることがわかります。
ただ現実問題として、2つの現象が完璧に相関することはなく、現実世界で相関係数が「1」に達する事例はほぼ存在しないと考えられます。
(※相関係数が1の場合、例外が全く存在しないことを示しているからです)
特にさまざまな要因が関係する社会学や心理学の分野において、相関係数が0.9以上になることは極めて稀となっています。
「絶対は存在しない」という言葉も、現実世界で相関係数1の現象がないことから言われているのでしょう。
ここまでは、誰もが納得する内容だと思います。
ビジュアル的にも団子と直線という明確な差が見て取れるからです。
では弱い相関に該当する、相関係数「0.1」や「0.2」はどうでしょうか?
(広告の後にも続きます)
相関係数0.1~0.9の視覚的理解
相関係数0.1~0.9の視覚的理解 / Credit:川勝康弘
相関係数0.1~0.3の場合「弱い相関」
相関係数0.1~0.3の場合「弱い相関」 / Credit:川勝康弘
上の図は左から相関係数0.1、0.2、0.3のグラフの様子を視覚的に表示しています。
相関係数0のグラフと比べて、ポイント全体の分布に少し変化が現れているのがわかります。
しかしこの程度の変化は、ほとんど0の場合と見分けがつかないと言っていいでしょう。
そのため関係性を調べる統計研究においては一般に、相関係数が0.1~0.3の場合には、ほとんど相関関係がないか弱い相関と判断されます。
実際、全く無関係の現象の相関係数を調べた場合でも、誤差によって「0」以外の結果が得られることがほとんどです。
(※相関係数が低くても絶対に無関係というわけではありません)
そのため、低い相関係数でも関連性を主張したい場合には別途、誤差ではないことを示す別の証拠が必要となります。
相関係数0.4~0.6の場合「中程度の相関」
相関係数0.4~0.6の場合「中程度の相関」 / Credit:川勝康弘
上の図の左から相関係数0.4、0.5、0.6となるグラフを示しています。
このあたりになると、多少なりともポイントたちの偏りが見て取れるでしょう。
実際、一般的には0.4を挟んで「弱い相関」から「中程度の相関」へと評価が変化します。
(※分野によって評価基準が異なることがあります)
ただ中程度の相関といっても、かなりのバラつきがあることに注意が必要です。
相関係数0.4でも、かなりのバラつきがある / Credit:川勝康弘
たとえば0.4のグラフの場合。
X軸の値が0のときには、Y軸の値は-2から+2へかけて、つまりグラフで表示されているY軸範囲の過半に分布していることがわかります。
この結果はX軸に設定した、最もありふれた数値(中央値や平均値付近)でも、Y軸の数値の予測がかなり困難で、あまり参考にならないことを示しています。
0.4が弱い相関と中程度の相関の境目とされている理由は、このあたりにあると言えるでしょう。
相関係数0.5や0.6はより左下から右上という傾向が強くなっていますが、それでもバラつきは大きくなっています。
統計的には何らかの相関がみられても「個々のケースでの判断基準にするのは少し怖い」というのが中程度の相関に対する「感想」と言えるでしょう。
現実世界において、この範囲が該当する相関係数は非常に多く、例としては、自己肯定感と学業成績(0.4~0.6)、職場の満足度と生産性(0.4~0.6)、テレビ視聴時間と肥満度(0.4~0.6)、親の教育水準と子供の学業成績(0.4~0.6)、ストレスレベルと身体的健康(0.4~0.6)など多岐に及びます。
(※相関係数は研究によって異なる結果が得られますので上記の数値は一般的に言われる値になっています)
多くの人々にとってもテレビ視聴時間と肥満度などは「無関係ではないけど、例外も多いよなぁ」という印象があるでしょう。
相関係数0.7~0.9の場合「強い相関」
相関係数0.7~0.9の場合「強い相関」 / Credit:川勝康弘
上の図では左から相関係数0.7、0.8、0.9を示しています。
この段階に至ると、ビジュアル的にも明白な傾向が現れ、偶然とはとても言えない段階に到達します。
また一般的な評価も0.7を境に「中程度の相関」から「強い相関」へと変化します。
実際、このレベルの相関係数になると、現実世界でも重要な決定に用いられることがあります。
たとえば「テストの点数」と「成績」では相関係数が0.7以上になることが報告されています。
そのため1~2回しか行われない入試テストの点数を、受験生の成績全体を現わす指標として合否判定を行う正当性が出てくるのです。
一方で、相関係数0.8の段階でもまだ、若干のバラツキが存在していることがわかります。
「テストでは能力が計れない」とする意見があるのも、相関係数0.8に至ってまだ回収しきれていないケースが多数、存在することが関連しているのでしょう。
一般に高い相関と言われているものには、気温とアイスクリームの売り上げ(0.8以上)、肥満と2型糖尿病リスク(0.7以上)、遺伝的類似性と身体的特徴(0.7以上)、気温とエアコンの使用量(0.7以上)などが知られています。
私たちが経験的に「当然だろう」と思うものの多くが相関係数0.7以上という数値と言えるでしょう。
統計研究などでは、これまで知られていなかったものに相関係数0.7以上の強い相関があることがわかると、しばしば大発見と見なされることがあります。
逆相関の場合
逆相関の場合 / Credit:川勝康弘
これまでは、横軸が増えたら縦軸がどれくらい増えるかといった、プラス方向の相関関係をみてきました。
しかし「タバコを吸う本数と寿命」のように、一方が増えると他方が減っていく関係も存在しています。
プラス方向の相関係数は「0から+1」の間で示されましたが、マイナスの関係にある場合の相関係数は「0~-1」の値で示されます。
また負の相関係数の場合にも同じように、弱い(-0.1~-0.3)、中程度(-0.4~-0.6)、強い(-0.7~0.9)が存在しており、-1となると完全な逆比例となります。