戻る     次へ     目次へ

4章 百分率を比較する.

ここでは離散量データが比率(%)で与えられていたり,あるいは分割表に整理されているような場合,例えば, 検診スクリーニングでの疾病者発見の比率や,いくつかの組に分けられたデータの特性間の比率の「検定と推定の問題」に適用します.

手法は 「3章 比較の考え方を知る」を基礎に, 「一般形式」と「例題」を参考にして選択すると良いでしょう.

4.1. 1標本での検定と推定の仕方.
1組のデータが百分率(%)で与えられているとき,その標本の比率(p0)から, 母集団での比率(P)を推定したり,母集団での比率(P)が,ある特定の比率(p0)に等しいかどうかを検定します.

[一般形式]

標本データの個数出現度数出現率(%)
0=f/n

ここでの検定は,2項分布に従う比率を対象としています.

[検定の手順]
1. 検定の問題を明かにする.
「ある比率(母比率)との間に差があるか?」

2. 仮設の設定を行なう.
帰無仮設(H0):P=p0
対立仮設(両側検定のとき,H1):P≠p0 

対立仮設(片側検定のとき,H1):P>p0またはP<p0

3. 危険率(100α%)を設定する. 
両側検定のときの有意水準:α/2
片側検定のときの有意水準:α

4. 検定統計量(Z0)を計算する. 注釈表示
0
ABS(p0-P)-(1/2n)
SQRT(P(1-P)/n)

なお,n=データの個数,p0=標本の出現率(%),P=母出現率(%)です.

5. 統計的判定を行なう.
[両側検定のとき]
0<Z(α/2)ならば,「危険率100α%で有意な差がない」.
0≧Z(α/2)ならば,「危険率100α%で有意な差がある」.

[片側検定のとき]
0≧Z(α)ならば,「危険率100α%で大きい(小さい)」.

なお,Z(α/2)またはZ(α)は正規分布表(表計算ソフト「エクセル」)から求めます.
求め方は「例題」を参考にして下さい.

[推定の手順]
100(1−α)%信頼区間は次式により求めます.

上限値と下限値
p0±
Z(α/2) × SQRT(p0(1-p0))
n

[例題9]
某年度の子宮癌検診における要精検者中の癌患者発見の割合を表14 に示します.

表14 要精検者からの発見率
標本要精検者数癌患者数発見率
精検者190 名 60 名31.58%

これは,19某年〜19某年間の平均癌患者発見率 27.2 %に比べて,有意な差があると云えるでしょうか.

癌患者発見率(p0)は,0.3158 ですので,検定統計量(Z0)は,次の通りです.

0
ABS(0.3158−0.272)−0.0026
SQRT(0.272 × (1−0.272)/190)
=1.275

これは,
0=1.275<Z(0.05/2)=1.96 (両側検定,危険率 5%).
0=1.275<Z(0.05 )=1.645 (片側検定,危険率 5%).

Z(0.05/2)及びZ(0.05)は,表計算ソフト「エクセル」から,
[=NORMSINV(0.025)]及び[=NORMSINV(0.05)]より求めます

ですので,

某年の要精検者中の子宮癌患者の発見率 31.58 %と,19某年〜19某年間の平均 27.2 %とは,
「危険率5%で有意な差があるとは云えない」と判断されます.

もし,検定の問題が「発見率の大小」を問う片側検定であれば,
某年の癌発見率は「危険率 5 %で大きくないと云える」となります.

0の値を知ってp値で表現するときは,
表計算ソフト「エクセル」から,
[=NORMSDIST(-1.275)]より「p=0.1012」を求め表現すれば良いでしょう.

以下、同様に表現すれば良いと思います.

なお,子宮癌発見率の 95%信頼限界は,
0.3158±
1.96 × SQRT(0.3158(1-0.3158))
60
=0.3158±0.118=0.1978〜0.4338

から,19.8%〜43.4%であり,この範囲から外れる確率は 5% になります.

4.2. 2標本での検定と推定の仕方.
2組の標本が百分率(%)で与えられているとき,一方の群の比率(pA)と他方の群の比率(pB)に差があるかどうかを検定します.

[一般形式]

標本データの個数出現度数 出現率(%)
A群AAA=fA/nA
B群BBB=fB/nB

ここでの検定は,2項分布に従う比率を対象にしています.

[検定の手順]
1.検定の問題を明かにする.
「A群とB群の比率に差があるか?」

2.仮設の設定を行なう.
帰無仮設(H0):pA=pB
対立仮設(H1):pA≠pB(両側検定のとき)

対立仮設(H1):pA>pBまたはpA<pB(片側検定のとき)

3.危険率(100 α%)を設定する. 
両側検定:α/2
片側検定:α

4.検定統計量(Z0)を計算する. 注釈表示
0
ABS(pA−pB)−(1/nA+1/nB)/2
SQRT(P(1−P) × (1/nA+1/nB))

なお,
nA・nB=データの個数 , P=全体の比率 , pA・pB=標本の比率

5.統計的判定を行なう.

[両側検定のとき]
0<Z(α/2)ならば,「危険率100α%で有意な差がない 」.
0≧Z(α/2)ならば,「危険率100α%で有意な差がある 」.

[片側検定のとき]
0≧Z(α)ならば,「危険率100α%で大きい(小さい)」.

なお,Z(α/2)またはZ(α)は正規分布表(表計算ソフト「エクセル」)から求めます.
求め方は「例題」を参考にして下さい.

[推定の手順]
100(1−α)%の信頼区間を次式により求めます.

上限値と下限値
(pA−pB)±Z(α/2)×
pA(1−pA) × nB+pB(1−pB) × nA
nA × nB

[例題 10 ]
2つの医療機関での子宮癌検診における細胞診検査でクラスV型以上に分類された割合を表15 に示します.

表15 施設間の分類率
標本検査総数V型分類数分類率
A施設105864260.68%
B施設21811251.38%
合計127675459.09%

施設間のクラスV型以上の分類に差があると云えるかどうかを検定します.

表計算ソフト「エクセル」による方法を示します。

関数式による方法

2つの施設と全体の割合は,
A施設の割合:pA= 642/1058 = 0.6068  
B施設の割合:pB= 112/ 218 = 0.5138
全体 の割合:P = 754/1276 = 0.5909

ですので,検定統計量(Z0)は次の通りです.

Z0= 2.4665

これは,
0=2.4665>Z(0.05/2)= 1.9600 (両側検定,危険率 5%)
0=2.4665>Z(0.05 )= 1.6449 (片側検定,危険率 5%)

ですので,

施設間のクラスV型以上の分類には,
「危険率 5 %で有為な差がある」と判断されます.

もし,検定の問題が分類率の大小を問う片側検定であれば,
A施設の方が危険率 5 %で大きいと云えるでしょう.

なお,施設間の差の 95 %信頼限界は,

から,2.05 %〜16.56 % であり,この範囲外に出る確率は 5 %です.

しかし,ここでA施設とB施設での検査数に相当の差がある点に注意しなければなりません. この差が同等程度になったとき有意な差がなくなるかもしれません.

4.3. 分割表による検定の仕方.
2組のデータが出現度数として,2つの特性ごとに分割表にまとめられているとき,あるいは, まとめられる様なデータはここでの検定を適用します.

分割表では,それぞれの特性間の比率に差があるかどうかを検定するものです.
これを一般に独立性の検定と云い,2つの特性間に何らかの関係があるか,あるいは無関係であるかを問うものです.

検定はデータの特性によって,色々な分割表に整理されます.

以下の「一般形式」と「例題」を参考に,適切な手法を選択すると良いでしょう.

4.3.1. 2×2分割表のとき.
2つの特性を持つ2組のデータの出現度数は2×2分割表に整理し,2つの特性値が互いに独立で関連性がないかどうかを調べます.
ここでは,比較する2組の一方の群(A)と他方の群(B)の特性間の比率の差を「χ2検定」あるいは, 「フイッシャーの直接確率計算法」によって検定を行います.

なお,χ2 検定の仕方については,3章(3.1.2.)で詳しく述べましたので, ここでは「フイッシャーの直接確率計算法」の仕方について説明しましょう.これは出現度数に5以下の小さい度数があるときに適用されます.

[一般形式]

要因/特性 特性あり(B1) 特性なし(B2)小計
要因(A1)f11f12fl.
要因(A2)f21f22f2.
小計f.1 f.2
 
ij(ij=1,2)はそれぞれの要因での出現度数,f.j およびfi. は各小計,T は総計です.

[検定の手順]
検定の問題を明らかにする.
「A群とB群の特性に差があるか?」

2.仮設の設定を行う.
帰無仮説(H0):PA=PB
対立仮説(H1):PA≠PB(両側検定のとき)
対立仮説(H1):PA>PBまたはPA<PB(片側検定のとき)

3.危険率(100α%)を設定する. 注釈表示
両側検定のときの有意水準:α(2×Prに対して)
片側検定のときの有意水準:α( Prに対して)

4.検定統計量(Pr)を計算する.
フィシャーの直接確率値は次式により求める
Pr=
f.1! × f.2! × f1.! × f2.!
T × f11! × f12! × f21! × f22!

なお,T=総度数 ,fij=出現度数 ,f.jおよびfi.=小計 です.

5.統計的判定を行う.
Pr≧α ならば「危険率100α%(片側検定)で関連がない」.
Pr<α ならば「危険率100α%(片側検定)で関連がある」.

ここで,「関連がない」は「独立である」・「有意差がない」であり, また「関連がある」は「独立でない」・「有意差がある」と云う意味です.

[ 少数例題の場合 ]
2種類の薬剤投与による臨床症状の改善非改善の割合を表16 に示します.改善性に有意な差があるかどうか検定してみましょう.

表16 薬剤投与による効果の割合
改  善改善せず
薬剤(A)4例3例
薬剤(B)5例1例

出現度数に5以下の小さな度数があるので,フィシャーの直接確率計算法を用います.

表計算ソフト「エクセル」による方法を示します。

関数式による方法

上記の「関数式による方法(Sheet名:計算)」を用いると漸化式で計算できます。

階乗(!)の筆算は計算し易いように,分子と分母を次の様にまとめると良いでしょう.
9!
13!
×
4!
4!
×
6!
3!
×
7!
5!

Pr1= 1/ 17160×1×120×42=0.2937

階乗の筆算において桁数が非常に大きくなるときは,Log変換してから計算しても良いでしょう.

次に,周辺和(小計:f1.,f2.,f.1,f.2)を変えないで,1の度数が0になる組合せを作りその確率を求めます. 注釈表示

Pr2=7!6!9!4!/13!3!4!6!0!
Pr2=1/17160×120×1×7=0.0490

から,2×2分割表における確率Prは,
Pr=Pr1+Pr2=0.2937+0.04895=0.34265

となります.

これは,偶然にもこの様な組合せが起こる確率が 34.26%であることを示しています.

したがって,

Pr = 0.3427 > α = 0.05 (片側検定 ,危険率 5%)

ですので,2種類の薬剤間の改善性は独立,すなわち関連性がないと判断されますので,有意な差がないと云えるでしょう.

「注釈」
  1. 検定統計量(Z0)での1/2nをイエーツの修正項と云い,小数データの修正に用いる.
  2. χ2検定では両側検定での仮説を考えたものである.正規分布のパーセント点Z(α/2)と,χ2分布のパーセント点χ2(1,α)とは,Z(α/2)=χ2(1,α)の関係となる.
    したがって,χ2検定での片側検定は2αに対して行う.
  3. フィッシャーの直接確率計算法では,片側検定での仮説を考えたものである.したがって,両側検定では 2×Pr に対して行う.
  4. 実際の計算では出現度数の最小のものが「0」になるまで出現度数を減らしてゆき,それぞれのPrを求める.

戻る     次へ     目次へ     TOPへ