共分散と相関係数の考え方|2変数データのばらつきと関係性をやさしく解説

Pocket

共分散と相関係数(2変数データ)

1.はじめに

当連載コラムの第4回「母集団と標本の違いをわかりやすく解説」では、変数が一つだけ(例えば製品の重量)のケースについて、データのばらつきの大きさを「母分散」と「不偏分散」という統計量で説明しました。
では、もし変数が二つ以上(例えば製品の重量、強度、・・・)の場合はデータのばらつきをどう扱えばよいでしょうか?

以下では高校で習った「母分散」の式(第4回で説明したように分母がn-1でなくn)に統一して話を進めます。
まず考えられるのは、製品の重量データだけについて分散を計算し、さらに強度データだけについても分散を計算するという方法です。そうすると、もちろん重量と強度のそれぞれについてデータのばらつきを評価できますが、重量データと強度データとの間の関係についても知りたくなってきますよね。
それを知るためには2変数(重量と強度)を同時に扱う必要があります。

 

2. 1変数の場合の偏差平方和と母分散

第4回で説明した、1変数の場合の分散のおさらいから始めます。
1変数Xについて「母分散」(population variance)は以下の式で定義されます。

母分散

 

ここで、σ²、n、Xixは母分散、データ数、各データの値、データの平均値を表します。
さらに式の内訳を理解しやすくするために、上式の分子を分解して以下のように書き換えることができます。

Sxx (式1)
Vxx (式2)

Sxxは「偏差平方和」(deviation sum of squares)と呼ばれ、Vxxはσ²と同じで母分散になります。下付きの添え字( xx)が付いているのは2変数を扱う場合への拡張のためです。
同様にして、変数Yについては以下の式となります。

Syy (式3)
Vyy (式4)

 

3. 2変数以上の場合に登場する共分散

ここで共分散を登場させます。
2変数の場合に、(式1)および(式3)の偏差平方和に対応するのが偏差相乗和Sxy、(式2)および(式4)の分散に対応するのが共分散Vxyとなります。
変数XおよびYについての偏差相乗和と共分散は以下の式となります。

Sxy (式5)
Vxy (式6)

(式1)、(式3)と(式5)を見比べてみると、1つの変数の差の二乗が二つの変数の差の積に置き換わっています。
1変数の分散は、一つの変数についてデータのばらつきの大きさを示す指標です。偏差の二乗和をもとにしているため、常にゼロ以上の値になります。一方、共分散の(式5)はプラス、ゼロあるいはマイナスの値を取ります。個別のデータごとに偏差(平均値からの差)の積の形になっていますので、両方の偏差がともにプラスの場合あるいはともにマイナスの場合に積はプラスになります。偏差がプラスとマイナスの組み合わせの場合はマイナスになります。個々の項における偏差、偏差の積、変化の方向を以下に示します。

 

2変数以上の場合に登場する共分散

 

(式5)の各項の偏差の積はプラスとマイナスが入り混じったケースになることもありますが、その合計であるSxyあるいはVxyは二つの変数間の平均的な増減関係を示しています。このような二つの変数間の増減の関係を「相関関係」(correlation)と言います。そしてその相関関係の強さを表すのが「相関係数」(correlation coefficient)です。

 

4. 相関係数とデータ間の関係の有無

相関係数Rxyは、(式2)と(式4)の分散および(式6)の共分散を使って、以下の式で定義されます。

相関係数(correlation coefficient) (式7)

第1回のコラム「多変量解析の基本「回帰分析」を初心者向けに解説!」では、定義式を示さずに相関係数の説明をしました。
今回のように2変数(XとYだけ)の場合は同じ相関係数になります。ただし3変数以上(目的変数を説明するための説明変数の数が2つ以上)の「重相関係数」(multiple correlation coefficient)は(式7)から計算される相関係数とは異なります。その理由は説明が複雑になりますので別の機会に説明します。

相関係数の絶対値が大きい(つまり1に近い)とき、XとYの間には強い線形関係があると考えられますが、相関係数の絶対値が小さいからといって、XとYの間に何の関係もないとは限らないので、注意しましょう。

例えば、データXとYのペアを散布図で描いたとき、以下の図のようになるケースを考えてみましょう。

 

データXとデータYの散布図
【図1 データXとデータYの散布図】

 

このケースでは、YはXの2次関数になっていますので、Xの値が決まるとYの値も自動的に決まります。
その意味では、XとYのデータには強い関係があると言えますが、(式7)にしたがって相関係数を計算すると-0.039という小さな値になります。絶対値で見ても0.039です。
相関係数は、2つの変数の間にある直線的な関係の強さと向きを表す指標です。そのため、データ間に明確な関係があっても、それが線形、つまり直線的な関係でない場合には、相関係数が小さくなることがあります。

 

5. まとめ

以上見てきたように、最終結果として得られる相関係数だけを見て変数間の関係を評価するのは危険です。
実際の問題を解析する場合には相関係数の値だけを見るのではなく、散布図も描いて、データの分布を確認することが重要です。

次回のコラムでは3変数以上のケースへ拡張する方法を考えます。

 

(アイアール技術者教育研究所 A・T)

 

 

Pocket

関連するセミナー

製造業eラーニングTech e-L講座リスト

製造業向けeラーニングライブラリ

アイアール技術者教育研究所の講師紹介

製造業の新入社員教育サービス

技術者育成プログラム策定の無料相談受付中

スモールステップ・スパイラル型の技術者教育

注目のセミナー

コーポレートR&Dとイノベーション

企業価値を高めるコーポレート研究開発部門の戦略的再構築(セミナー)

開催日時 【Live配信受講】2026/6/3(水)14:30~17:00, 【アーカイブ配信】6/5~6/19

AI・機械学習の産業設備への応用

AI・機械学習の産業設備への応用実践ノウハウ(セミナー)

開催日時 【LIVE配信受講】2026/5/26(火)10:00~16:00,【アーカイブ配信】5/28~6/11

バリアフィルム

バリアフィルム作製の基礎とガス透過性メカニズム・評価技術および最新技術動向(セミナー)

開催日時 【会場受講】【LIVE配信】2026/4/23(木)13:15~16:45, 【アーカイブ配信】4/27~5/11

粒子分散技術

微粒子・ナノ粒子の作製・表面修飾・分散技術と応用展開(セミナー)

開催日時 【LIVE配信受講】2026/6/15(月)10:30~16:30, 【アーカイブ配信】2026/6/17~7/1

環境保護

どんどん必要になる「グリーン調達」《環境に配慮したモノづくり》(セミナー)

開催日時 【Live配信受講】 2026/5/28(木)10:00~16:00, 【アーカイブ配信】6/1~6/15(何度でも受講可能)

LTspiceで学ぶ電子部品の基本特性セミナー

LTspiceで学ぶ電子部品の基本特性とSPICEの使いこなし(セミナー)

開催日時 2026/6/4(木)10:00~17:00

機械設計図面

《初心者向け》やさしい図面の書き方 最新JIS製図と図解力完成(セミナー)

開催日時 2026/05/25 (月) 10:00~17:00

化学物質管理・法規制(セミナー・研修)

はじめての化学物質法規制・基礎講座(セミナー)

開催日時 【LIVE配信】2026/5/21(木)13:00~16:30,【アーカイブ配信】5/25~6/8

技術の超キホン

機械設計マスターへの道

生産技術のツボ

早わかり電気回路・電子回路

早わかり電気回路・電子回路

品質保証塾

機械製図道場

スぺシャルコンテンツ
Special Contents

導入・活用事例

テキスト/教材の制作・販売