7.2. データを2群にわける(判別分析).
予め何らかの基準によって, 標本が2群(A群 ,B群)に分類されている様なデータをもとに,2群を最も良く判別するような1次式(線形判別関数)を求めておきます.
そして,いずれの群に属するか定かでない未知のデータが与えられたとき,判別関数によってA群に分類すべきか,あるいは,B群に分類すべきかを最小の誤判別率で判別する手法を判別分析と云います.
[一般形式]
標本(A) | A1 | A2 | Aj | Am |
1 | A11 | A12 | A1j | A1m |
2 | A21 | A22 | A2j | A2m |
.. | .. | .. | .. | .. |
i | Ai1 | Ai2 | Aij | Aim |
.. | .. | .. | .. | .. |
n | An1 | An2 | Anj | Anm |
平均 | meanA1 | meanA2 | meanAj | meanAm |
標本(B) | B1 | AB2 | Bj | Bm |
1 | B11 | B12 | AB1j | B1m |
2 | B21 | B22 | B2j | B2m |
.. | .. | .. | .. | .. |
i | Bi1 | Bi2 | Bij | Bim |
.. | .. | .. | .. | .. |
n | Bn1 | Bn2 | Bnj | ABnm |
平均 | meanB1 | meanB2 | meanBj | meanBm |
[判別関数の算出]
Z=a1x1+a2x2+・・・+amxm で示される判別1次式(線形判別関数)において,
係数(a1,a2,・・・,am) は, 次の行列式の演算により求めることができます.
(1)A群とB群の偏差行列.(A,B)
(2)AとBの偏差平方和・積和行列.(Sa,Sb)
Sa=A'A , Sb=B'B
ここで,A',B' はA ,Bの転置行列を表します.
(3)SaとSbの共通の分散・共分散行列.
V=(SA+SB)/(na+nb−2)
ただし,naはA群の,nbはB群のデータの個数とします.
(4)平均値の差のベクトル
d=mean_A−mean_B
(5)係数ベクトル
a=V^-1*d
ここで,V^-1 はVの逆行列を表します.
(6)マハラノビスの平方距離.
D^2p=a*d
これは,判別の良さを示す一つの尺度と考えれば良いでしょう.
(7)判別限界値
(ZA+ZB)/2
ただし,
Za=a1A1+a2A2+・・+amAm
Zb=a1B1+a2B2+・・+amBm
とする.
(8)誤判別率
Pr={ Z>SQRT(D^2p/2) }
確率(Pr)は正規分布における上側確率を示します.
なお,行列の演算は「例題」を参考にして下さい.
[例題36]
スギ花粉飛散数は気象条件によって,表51のように2群のデータに分けることができました.
このデータをもとに判別分析をおこない2群を最も良く判別する判別関数式を求めてみましょう.
表51 スギ花粉測定時における2群の気象条件
.................Aグループ........................Bグループ
気温(A) | 湿度(A) | 天気(A) | 気温(B) | 湿度(B) | 天気(B) |
8.2 | 68 | 3 | 16.8 | 59 | 1 |
4.2 | 66 | 3 | 25.6 | 43 | 1 |
4.3 | 70 | 3 | 7.1 | 58 | 1 |
7.5 | 54 | 2 | 10.6 | 63 | 2 |
3.6 | 62 | 2 | 16.4 | 43 | 2 |
4.1 | 77 | 3 | 6.8 | 58 | 2 |
5.1 | 74 | 3 | 10.7 | 61 | 2 |
3.7 | 72 | 3 | 14.2 | 58 | 2 |
4.6 | 61 | 2 | 24.0 | 54 | 1 |
6.2 | 76 | 3 | 14.9 | 56 | 2 |
2群の判別分析の手順と結果は,次のエクセル・ファイルを見て下さい.
エクセル・ファイル Sheet[例題36]
行列とベクトルの計算から,次の判別関数1次式を得ます.
Z=−0.2915x1+0.0433x2+3.1047x3
判別の良さを示すマハラノビスの平方距離(Dp)と判別限界値(Zg)は次の通りです.
Dp=6.752,Za=9.83,Zb=3.07
Zg=6.45
となります.したがって,
Z>Zg ならば,Aグループに属し,スギ花粉飛散数は少ないと判断される.
Z<Zg ならば,Bグループに属し,スギ花粉飛散数は多 いと判断される.
ここで,
Aグループ(またはBグループ)に属すべきものを,Bグループ(またはAグループ)と誤って判断する確率は,
SQRT(D^2p)/2=1.299
であるので,
Pr=Z>1.299=0.09697
となります.したがって,誤判別率は 9.7 % となります.
Pr はエクセル関数「NORMSDIST(1.299)」から求めると良いでしょう。
図51 内部実行結果の2群の分布と判別限界
エクセル・ファイル Sheet[内部実行結果]
戻る 次へ 目次へ TOPへ