多変量解析で扱うデータの種類を解説!数値以外のデータはどう扱う?
当連載の第1回目のコラム「多変量解析の基本『回帰分析』を初心者向けに解説!Excelでの分析手順例も紹介」では、簡単な回帰分析の例を取り上げました。生産プロセスを対象とした例を用いましたが、分析対象のデータは投入量(原因となる説明変数)と生成量(その結果生じる目的変数)であり、ともに数量データでした。ところで企業で分析したいデータの種類は、マーケティング情報(例えば顧客の性別・職業等)のように数量データでないケースもあります。
多変量解析では数量データしか扱えないと思っている方もいらっしゃるかもしれませんので、今回はまずデータの種類、特徴およびその取扱い方を考えてみましょう。
1.多変量解析で扱う4種類のデータ
解析対象と考えられるデータは以下の表のように4種類に分類され、それぞれ「尺度」という名前が付けられています。「尺度」という言葉はデータを評価するための基準を意味しています。
【表1 4種類のデータの特徴】
データの種類 | 尺度 | 具体例 | 特徴 |
質的データ | 名義尺度 | 血液型、職業 | 文字データ扱いで順序付けも不明 |
質的データ | 順序尺度 | 役職、学歴 | 文字データ扱いで順序付けのみ可能 |
量的データ | 間隔尺度 | 温度、試験の点数 | データ間の差に意味はあるがデータの比率に意味がない |
量的データ | 比例尺度 | 重量、長さ | データ間の差および比率の両方に意味がある |
質的データと量的データ
2種類の量的データは「数値データ(あるいは数量データ)」と呼ばれるのに対し、2種類の質的データは「カテゴリーデータ」とも呼ばれています。
質的データは、たとえ数値であってもその数値の四則演算に意味が無く、そういう意味で文字データと同等に扱われます。「名義尺度」と「順序尺度」の違いは、主観に頼らない順序付けが可能かどうかです。
「名義尺度」の例として職業名のデータを挙げると、データを扱う人が自分の主観に基づいて、自営業、会社員、公務員という順序付けを決めることは可能ですが、元々自然な順序ではありません。
一方、「順序尺度」の例として役職を挙げると、部長、課長、係長(その逆順でも可)のように自然な順序付けが可能です。
量的データの取り扱い
2種類の量的データは数値データとして扱われます。
「間隔尺度」は温度を例に挙げると、10℃と30℃のデータがある場合にそれらの温度差である20度は解析に使用する意味がありますが、それらの比率1:3(あるいは3倍)は意味がありません。そういうわけですので、摂氏あるいは華氏温度の値の比率を使用するのは避けるべきです。ただし絶対温度を用いるならば、温度の値はエネルギー量に対応しますので、比率にも意味を持たせることができます。
一方、「比例尺度」はデータ間の差にも比率にも両方意味を持たせることができます。例えば人の体重を例にあげると、50kg、80kgのデータがある場合にそれらの差である30kgと比率の5:8(あるいは1.6倍)は両方とも意味があります。
質的データの取り扱い
さて「間隔尺度」と「比例尺度」は数値データを扱うので、第1回のコラムでご紹介した回帰分析をそのまま利用できることは容易にご理解いただけると思います。しかし、数値データでない「名義尺度」と「順序尺度」はどのようにして多変量解析に応用できるのだろうか、と疑問に思われるかもしれません。
最後に、質的データを取り扱う場合の例を考えてみましょう。
ここでは簡単な例として、2つの機能のいずれかを選択することができる玩具とその売上高の関係を回帰分析することを検討します。
売上高は数値データですが、2つの機能はいずれも「あり」あるいは「なし」の名義尺度(質的データ)です。この場合には名義尺度である機能ごとに1変数割り当てて、「あり」と「なし」にはそれぞれ数値の「1」と「0」を代入します。この操作により質的データを量的データに変換することができます。
【表2 質的データの例】
製品 | 機能の有無 | 売上高(万円) | |
電動機能 | サウンド機能 | ||
X1 | X2 | Y | |
P1 | 0 | 1 | 54 |
P2 | 1 | 0 | 25 |
P3 | 0 | 1 | 45 |
P4 | 1 | 0 | 30 |
P5 | 0 | 0 | 5 |
表2は、5個の製品(P1からP5)につき2つの機能の有無および売上高をまとめたものです。
例えばP1の製品は電動機能(X1)が無いので「0」、サウンド機能(X2)が付いているので「1」で、売上高(Y)は54万円となっています。売上高(Y)が電動機能の変数(X1)とサウンド機能(X2)の線形和で表現できると仮定すると、その関係を表す数式は以下のようになります。
Y(i) = aX1 (i) + bX2(i) + c
ここでiは製品番号、a、b、cは回帰係数となります。機能の有無が同じでも売上高が異なる製品がありますが、これらの違いは誤差と考えて通常の最小二乗法の考え方で回帰係数を決めることができます。
cは両方の機能が付いていない場合の売上高の予想値、aおよびbは電動機能およびサウンド機能のそれぞれの売上高への寄与を表す係数になります。
この例では機能が2つだけでしたが、もっと多い場合もそれぞれの機能ごとに変数を追加し、「1」か「0」を割り当てれば通常の重回帰分析の手法が適用できます。
2.量的データと質的データの取り扱い方の注意点
今回のまとめとしましては、解析対象とするデータの種類をまず見極め、間隔尺度の場合はデータの比率を利用しないように注意すること、またデータが名義尺度あるいは順序尺度である場合には、量的データへの変換操作をした後で通常の回帰分析の手法を用いる必要があります。
(アイアール技術者教育研究所 A・T)