- 棄却検定は正規分布または正規分布に変換したデータについて行う.
- 2つ以上の飛び離れたデータがあるときは「有意」,すなわち「棄却」できにくくなる.
- 検定で「有意(棄却)」の結果を得たとき,その原因を探求せずにデータを除去すべきでない.
- 「1.96」,「1.64」の限界点は標準正規分布のパーセント点であり,これは表計算ソフト「エクセル」から求める. 求め方などは5章以降を参照されたい.
3.2. 両側検定と片側検定について.
検定において「有意」とは帰無仮説(H0)を棄却し,対立仮説(H1)を採用することでした.
H1の採用は単に「有意な差」だけを検定での問題にしているのでしょうか.
あるいは,いずれか一方の平均値(X-)と比較したとき,他方の平均値(Y-)に比べてX->Y-なのか,
あるいはX-<Y-なのかを検定の問題にしているのか考えなければなりません.
先の血圧の例(3.1.1.)では1000名の母平均( μ )と20名の標本の平均(X-)との間に有意な差があるかどうかが問題でした.
したがって,検定の仮説はX-=μ の帰無仮説(H0)に対して,X-≠ μ を対立仮説(H1)としたのです.
もし,20名の平均値(X-)が1000名の母平均( μ )よりも 明らかに大きいか,
あるいは小さいと予想されるならば, 対立仮説(H1)はX-> μ ,またはX-< μ とすべきでしょう.
もしX-= μ について検定をおこなうなら,
それは図23 のようにN(1,σ2)の分布の両側に有意水準( α )の 1/2の限界点を設けたことになります.
これを両側危険域と云いその検定を両側検定と云います.
これに対しX-> μ ,X-< μ について検定をおこなうなら,
N(1,σ2)の分布の片側に有意水準( α )の限界点を設けたことになり,これを片側危険域と云いその検定を片側検定と云います.
図23 のように両側と片側では同じ危険率でもその有意水準の異なることに注意しなければなりません.
図23 両側危険域と片側危険域における有意水準
先の血圧の例では次のようになります.
有意水準を α =0.05(危険率5%)としたとき,
両側検定(H1:X-≠ μ ) では,
Z0=0.65 <Z( α =0.05/2)=1.96
から,危険率5%で有意な差はないと云えます.
なお、1.96は表計算ソフト「エクセル」から求めた α =0.025 に対応するパーセント点である. 注釈表示
パーセント点は,関数式[=NORMSINV(0.025)] より求められる.
片側検定(H1:X-> μ または X-< μ )では,
Z0=0.65 <Z( α =0.05 )=1.64
から,危険率5%でH0を採択できます. すなわち,X-> μ または X-< μ ではないと云えます .
なお、1.64 は表計算ソフト「エクセル」から求めた α =0.05 に対応する パーセント点 である.
パーセント点は,関数式[=NORMSINV(0.05)] より求められる.
この様に危険率が同じであっても片側検定は両側検定よりも有意になるので,両側か片側か,
その選択を迷うときには,対立仮説(H1)をX-≠μとすると良いでしょう.
そしてH1が採用されれば,それはX-> μ かあるいは ,X- μ のどちらかです.
3.3. 推定の問題について.
N( μ , σ 2 )の正規母集団からとられた標本の平均値(X-)の分布が,
しだいにN(μ , σ /SQRT(n))の分布になることはすでに説明したとおりです.
また,標本の平均値(X-)は母平均 μ を中心に X- ± 1.96 σ /SQRT( X )の範囲に 95% ,X-±2.58 σ /SQRT( n ) の範囲に 99% の確率で入り ,
この範囲外に出る確率は 5 %と 1 % に過ぎないことが分かります.
したがって,この範囲内に母平均( μ )が含まれる割合は 95% と 99%です.これを信頼限界と云いその範囲を信頼区間と云います.
例えば、次の血圧値「データの個数 n=20 ,平均値(X-)= 133.8 mmHg」を例にとると,
[ 118,148,128,141,139,120,125,123,134,144,138,134,126,138,116,130,154,161,132,126 ]mmHg
母平均 μ の 95% 信頼限界の推定値は,
X-±1.96 σ /SQRT( n )=133.8 ± 1.96×19.2/SQRT(20)= 125.4 〜 142.2 mmHg
99%信頼限界は,
X-±2.58 σ /SQRT( n )=133.8 ± 2.58×19.2/SQRT(20)= 122.7 〜 144.9 mmHg
となります.
母集団(1000 名)の母平均値( μ )は ,131 mmHg ですので,この値は信頼率 95%の信頼区間に入っており, 先の検定結果と一致します.
ここでの血圧値の例では,母集団での標準偏差が既知( 19.2 mmHg )でした. 実際には ,σ が未知のことが多く,標本での標準偏差(s)を用いて推定することになります.
標本での標準偏差(s)を用いるときは t分布のパーセント点を使用します. その計算方法などは4章以降で説明します.
ここでの「検定の問題」と「推定の問題」では,1標本のときについて説明したが,この考え方は2標本の時でも同じです.
2標本での検定や推定においては,2つの平均値をX-,Y-とするとき, その平均値の差「d=X-−Y-」を標準化した値が,特定の値であるかどうかをN(0,12)の分布について考えれば良いのです.
3.4. 異常値の棄却.
正規分布またはデータ変換後の正規分布近似において,その分布から1つだけ極端にはなれたデータがあるとき,
これを勝手に除外せず,「棄却検定」を行ってから判断しなければなりません.
ここでは一般的な「グラブス・スミルノフの棄却検定」について説明します.
[一般形式]
検定は次の手順で行います.
[検定の手順]
1) 検定の問題を明らかにする.
「飛び離れたデータ(値)は棄却できるか?」
2) 仮設の設定を行う.
帰無仮説(H0):棄却できない.
対立仮説(H1):棄却できる.
3)危険率を設定する.
検定の問題によって異なるが,通常 , α= 0.01(危険率1%)または , α= 0.05(危険率5%)である.
4)検定統計量(T0)を計算する.
T0=(X0−X-)/s
ここで,X0=飛び離れた値,X-=平均値,s=標準偏差 である.
5)統計的判定を行う.
T0<Tn( α )ならば,「 危険率100α % で棄却できない」.
T0≧Tn( α )ならば,「 危険率100α %で 棄却できる 」.
なお,Tn( α )は次式より求める.
|
|
但し,n=データの個数である.なお、t( n-2 , α/n ) は t分布表( 表計算ソフト「エクセル」)から求めることができる.
[例題8]
成人健常者 50 名の血中免疫グロブリン(IgM; 単位 mg/dl)のデータを表 12 に示します.このうち,500 mg/dl を異常値として棄却できるでしょうか検定してみましょう.
IgMのヒストグラムは図 24-1(変換前)のように,右すそ型の分布を示すので , X^(1/3)変換(X^(1/2) 変換 ,ルート変換でも良い)を行い正規分布に近づけてから棄却検定を行います. 注釈表示
表12 免疫グロブリン(IgM)の血中濃度
「変換前のデータ(mg/dl)」
表13 免疫グロブリン(IgM)の血中濃度
「変換後のデータ(X^(1/3)の値)」
図24-1 IgM値の変換前のヒストグラム
図24-2 変換後(X^(1/3))のヒストグラム
棄却検定の計算は次の通りです.
棄却対象のデータ(X0)=7.94 ,全データの平均値(X-)=5.068 ,全データの標準偏差(s)=0.762 ですので,
その検定統計量(T0)は,
T0=(7.94−5.068)/ 0.762= 3.769
となります.
なお,t50(α)はt(α/n,n-2)=t(0.0002,48)=4.027 ですので,T50(0.01)=3.482 となります.
表計算ソフト「エクセル」では,「=TINV(0.0002,48)」で求めることができます.
したがって,
T0=3.769 >T50(0.01)=3.482 から,「危険率1%でこのデータは棄却できる」 と判断されます.
戻る 次へ 目次へ TOPへ