共分散と相関係数の考え方｜2変数データのばらつきと関係性をやさしく解説

共分散と相関係数（2変数データ）

１．はじめに

当連載コラムの第4回「母集団と標本の違いをわかりやすく解説」では、変数が一つだけ（例えば製品の重量）のケースについて、データのばらつきの大きさを「母分散」と「不偏分散」という統計量で説明しました。
では、もし変数が二つ以上（例えば製品の重量、強度、・・・）の場合はデータのばらつきをどう扱えばよいでしょうか？

以下では高校で習った「母分散」の式（第4回で説明したように分母がn-1でなくn）に統一して話を進めます。
まず考えられるのは、製品の重量データだけについて分散を計算し、さらに強度データだけについても分散を計算するという方法です。そうすると、もちろん重量と強度のそれぞれについてデータのばらつきを評価できますが、重量データと強度データとの間の関係についても知りたくなってきますよね。
それを知るためには2変数（重量と強度）を同時に扱う必要があります。

２． 1変数の場合の偏差平方和と母分散

第4回で説明した、1変数の場合の分散のおさらいから始めます。
1変数Xについて「母分散」（population variance）は以下の式で定義されます。

母分散

ここで、σ²、n、X_i、は母分散、データ数、各データの値、データの平均値を表します。
さらに式の内訳を理解しやすくするために、上式の分子を分解して以下のように書き換えることができます。

　（式1）
　（式2）

S_xxは「偏差平方和」(deviation sum of squares）と呼ばれ、V_xxはσ²と同じで母分散になります。下付きの添え字（ _xx）が付いているのは2変数を扱う場合への拡張のためです。
同様にして、変数Yについては以下の式となります。

　（式3）
　（式4）

３． 2変数以上の場合に登場する共分散

ここで共分散を登場させます。
2変数の場合に、(式1)および(式3)の偏差平方和に対応するのが偏差相乗和S_xy、(式2)および(式4)の分散に対応するのが共分散V_xyとなります。
変数XおよびYについての偏差相乗和と共分散は以下の式となります。

　（式5）
　（式6）

(式1)、(式3)と(式5)を見比べてみると、1つの変数の差の二乗が二つの変数の差の積に置き換わっています。
1変数の分散は、一つの変数についてデータのばらつきの大きさを示す指標です。偏差の二乗和をもとにしているため、常にゼロ以上の値になります。一方、共分散の(式5)はプラス、ゼロあるいはマイナスの値を取ります。個別のデータごとに偏差（平均値からの差）の積の形になっていますので、両方の偏差がともにプラスの場合あるいはともにマイナスの場合に積はプラスになります。偏差がプラスとマイナスの組み合わせの場合はマイナスになります。個々の項における偏差、偏差の積、変化の方向を以下に示します。

2変数以上の場合に登場する共分散

(式5)の各項の偏差の積はプラスとマイナスが入り混じったケースになることもありますが、その合計であるS_xyあるいはV_xyは二つの変数間の平均的な増減関係を示しています。このような二つの変数間の増減の関係を「相関関係」（correlation）と言います。そしてその相関関係の強さを表すのが「相関係数」（correlation coefficient）です。

４. 相関係数とデータ間の関係の有無

相関係数R_xyは、(式2)と(式4)の分散および(式6)の共分散を使って、以下の式で定義されます。

　（式7）

第1回のコラム「多変量解析の基本「回帰分析」を初心者向けに解説！」では、定義式を示さずに相関係数の説明をしました。
今回のように2変数（XとYだけ）の場合は同じ相関係数になります。ただし3変数以上（目的変数を説明するための説明変数の数が2つ以上）の「重相関係数」（multiple correlation coefficient）は(式7)から計算される相関係数とは異なります。その理由は説明が複雑になりますので別の機会に説明します。

相関係数の絶対値が大きい（つまり1に近い）とき、XとYの間には強い線形関係があると考えられますが、相関係数の絶対値が小さいからといって、XとYの間に何の関係もないとは限らないので、注意しましょう。

例えば、データXとYのペアを散布図で描いたとき、以下の図のようになるケースを考えてみましょう。

【図1　データXとデータYの散布図】

このケースでは、YはXの2次関数になっていますので、Xの値が決まるとYの値も自動的に決まります。
その意味では、XとYのデータには強い関係があると言えますが、(式7)にしたがって相関係数を計算すると-0.039という小さな値になります。絶対値で見ても0.039です。
相関係数は、2つの変数の間にある直線的な関係の強さと向きを表す指標です。そのため、データ間に明確な関係があっても、それが線形、つまり直線的な関係でない場合には、相関係数が小さくなることがあります。