戻る     次へ     目次へ

7章 多次元データを要約する.
前章までの統計的方法は,ある特性(変量)を持つデータを数量的に把握するための要約の方法でした. 1変量のデータでは平均値などによる中心化の傾向と標準偏差などによるバラツキによって,データの分布の性質などを母集団との関連において把握することを知りました.また,
2変量のデータでは変量ごとの中心化の傾向とバラツキの他に2変量間の有意性の検定や相関性について調べる方法を知りました.
3変量,4変量,・・・・・,と変量が増えてくると変量ごとに,あるいは変量間ごとにデータの性質を記述したり検定を行うことは非常に効率が悪いだけでなく,本質的な問題の把握を不可能にしてしまう危険があります.
そこで,互いに関連のある3変量以上のデータについては変量間に共通する性質を少数の統計量で表現する必要が生じます.
その方法を多変量解析と云います.

表48 は医学の分野で良く用いる多変量解析の使用とその分析方法です.

表48 多変量解析の方法と使用目的
使用目的 分析 独立変量 従属変量 基準
予測式をみつける重回帰分析2個以上1個なし
標本を分類する判別分析2個以上2つのグループあり
標本を分類するクラスター分析2個以上2つ以上のグループなし
変量を整理する主成分分析2個以上なしなし

本章では「重回帰分析」と「判別分析」の手法を主として説明します.「クラスター分析」と「主成分分析」については、その分析の考え方にとどめます。

7.1. 予測のための解析の仕方.(重回帰分析)
6章では一方の変量(x)を知って,他方の変量(y)の値を予測する直線回帰を中心に説明しました.
直線回帰では,独立変量(x)が1つの場合に適用されましたが複数の要因によって影響される現象の変化を1つの変量だけでは説明できない場合が数多くあります.そこで,
複数の変量が独立変量であるような現象の解析には重回帰分析が良く用いられます.すなわち,
重回帰分析は線形関係(1次式)に要約する手法と云えるでしょう.

[一般形式]
標本従属変量(y)独立変量(x)
y1X11 , X12 , ・・ , X1j , X1m
y2X21 , X22 , ・・ , X2j , X2m
yiXi1 , Xi2 , ・・ , Xij , Xim
ynXn1 , Xn2 , ・・ , Xnj , Xnm
平均mean_ymeanX1 , meanX2 , ・・ , meanXn , meanXm

重回帰分析では1つの従属変量(y)に対して,独立変量(x)が2つ以上のものを対象とします.そして,
個々の標本は1次式で説明できる線形関係があるものとします.

[重回帰式の計算]
  次式で示される重回帰式において,

y=a1X1+a2X2+・・+ajXj+・・+amXm+a0 

その編回帰係数(a1,a2,・・,aj,・・am)と定数(a0)は,次の手順により求めます.

実際の方法は「例題」で体験して下さい。

(1) xとyの偏差行列(X,Y)

(2)Xの偏差平方和・積和行列
ST=X' X  (X' はXの転置行列)

(3)XとYの偏差積和行列(d)
d=X'Y

(4) 偏回帰係数ベクトル
a=S^-1・d(S^-1は Sの逆行列)
定数(a0)は,
a0=y−狽)・xj

で求められます.

(5)重相関係数(R)
実測値と重回帰式から求めた予測値との隔たりを相関係数と考えれば良いでしょう.
R=SQRT( (Yi−mean_Y)/(yi−mean_y))

ここで,Yiとmean_Yは重回帰式からの予測値とその平均を,yiとmean_yは実測値とその平均を表します.
すなわち、
従属変量(y)の偏差平方和(全変動)をSyy=Y'Y , 回帰による変動を SR=a'd とするとき,
R=SQRT(SR/Syy)

となります.

検定の手順]
(1) 検定の問題を明らかにする.
「重回帰式は有用であるか?」

(2)仮説の設定を行う.
  帰無仮設(H0):重回帰式は有用でない.
対立仮設(H1):重回帰式は有用である.

(3)危険率(100α%)を設定する.
片側検定の有意水準:α (両側仮説と同等)

(4)検定統計量(Fr)を計算する.
検定統計量(Fr)は表49 の分散分析表から計算します.

   表49 検定統計量を求める分散分析表
要 因平方和(S)自由度(DF)分散(V)F比
回帰による変動(Sr)Sr=a'dDFr=m Vr=Sr/DFr.....
回帰からの変動(Se)Se=Syy−Sr DFe=n-m-1 Ve=Se/DFe Fr=Vr/Ve
全変動(Syy)Syy=Y'Y DFyy=n-1 ..........

m=変数の数、n=データの数

(5) 統計的判定を行う.
  Fr<F(DFr,DFe,α)ならば,「危険率100α%で重回帰式は有用でない」
  Fr≧F(DFr,DFe,α)ならば,「危険率100α%で重回帰式は有用である」

なお,F(DFr,DFe,α)は表計算ソフト「エクセル」から求めると良いでしょう.

ここで,行列などの計算は「例題」を参考にして下さい.

[例題35]
 表49(エクセル・ファイル)は3月〜4月にかけて観測されたスギ花粉飛散数(1p2)と気温(℃),湿度(%),天候(1=晴, 2=曇り, 3=雨)のデータです.
このデータをもとに重回帰分析を行い,スギ花粉の飛散と気象条件の関連性を調べてみます.
なお,従属変量(y)を花粉数,独立変量(x1,x2,x3)をそれぞれ気温 ,湿度 ,天気とします.

「表49 スギ花粉飛散数と気象条件(花粉数,気温,湿度,天気)」は下記のエクセル・ファイルを見て下さい。
エクセル・ファイル Sheet[例題35]

重回帰式の計算過程も上記のエクセル・ファイルを見て下さい. 

重回帰式は次式で示されます.
y=1.6722x1−0.4874x2−0.76704x3+50.3985

ここで,実測値と重回帰式からの予測値との当てはめの良さを表す重相関係数(R)は,
R=SQRT(SR /Syy) =0.9251

となります。
重回帰式の有効性は重相関係数が高いからと云って有効とは限りませんので,表50 の分散分析によって判断します(上記のエクセル・ファイル Sheet[ANOVA])。

「例題35」における分散分析表の結果
Fr=31.65>F(3,16,0.05)=3.239 (片側検定 ,危険率 5%)

から,重回帰式(y)はスギ花粉空中飛散数の予測に役立つと云えます.

例えば,気温(10℃),湿度(60%),天気(曇り)のときのスギ花粉飛散数は,
y=1.6722×10-0.4874×60-7.6704×2+50.3985=22.5

から,22.5 個/p2と予測されます.

戻る     次へ      目次へ     TOPへ