３章（比較の考え方を知る）

３章　比較の考え方を知る．

医学では測定によって得られたデータの性質を統計的に記述したり，加工をほどこして，何らかの研究目的に合った客観的な判断材料を提供しようとします．とくに，医学と医学に関連した研究の多くは比較における判断であり，我々は比較のためにデータをとっていると云っても過言ではないでしょう．
最近のパソコンによる統計ソフトの普及によって，我々はデータの吟味をおろそかにしていないでしょうか．ここでは，医学での統計で最も大切な検定と推定の問題を具体的に説明しましょう．
それは母集団に関する仮設の検証と推測の問題になります．

3.1. 検定の問題について．
正規母集団からとられたｎ個の標本の各平均値をＸ₁^-,Ｘ₂^-，・・・,Ｘ_n^-とするとき，その個数ｎを大きくして行くとその平均値（Ｘ⁼）は母平均（μ）に，その標準偏差はσ／SQRT(ｎ)に近づきます．
これは離散量の分布でも同様です．これを中心極限定理と云い図１８のように示すことが出来ます．このことを例を挙げて説明しよう．

図１８　中心極限定理を表す平均値（Ｘ⁼）の分布

正規母集団から繰り返しとられた
データの平均値はＸ⁼の分布に近づく。

２項分布やポアソン分布においても
繰り返しとれれたデータの平均値は
Ｘ⁼の分布に近づく。

3.1.1. 正規分布にかかわるとき．
４０才～４９才の成人男性1000名の収縮期血圧を調べたとき，その分布が図19に示すようなヒストグラムであったとします．

図１９　母集団を想定した収縮期血圧

仮にこれを平均値がμ＝131 mmHg ，標準偏差がσ＝19.2mmHgである母集団とします．そして，
この母集団から繰り返しとった２０個の標本（各標本のデータの個数は２０）の各平均値（Ｘ₁^-～Ｘ₂₀^- ）が次の通りであったとします．
( 1)133.8,( 2)134.4, (3)125.5, (4)134.8,( 5)126.0( 6)131.1, (7)129.4,( 8)135.6 ( 9)133.6,(10)138.0
(11)132.4,(12)135.9,(13)126.6,(14)123.9,(15)134.8(16)128.8,(17)137.0,(18)129.8,(19)140.5,(20)128.9

この２０個の標本の平均値（Ｘ^-）はＸ^-＝132.04mmHg，標準偏差（ｓ_x）はｓ_x＝4.55mmHgです．
ここでの平均値（Ｘ^-）は1000 名の平均値（母平均値）μ＝131 mmHgに極めて近いことがわかります．また，
その標準偏差はｓ_x＝4.55mmHgであり，この値は1000 名の標準偏差（母標準偏差）のσ／SQRT(ｎ)，すなわち19.2／SQRT(ｎ)＝4.29 mmHg に極めて近いことが分かります．
図２０をみて理解して下さい．

図２０　収縮期血圧を母集団と想定したときの標本平均（Ｘ⁼）の分布注釈表示

標本での標準偏差（ｓ）はデータ個々のバラツキを，標準誤差（SE）は標本平均（Ｘ^-）のバラツキを表すものです．１つの標本平均から母集団の性質を記述するのであれば，標準偏差ではなく標準誤差を用います．

同一母集団からとられた標本平均（Ｘ⁼）は、
この様な分布に近づく．

このようにに平均をμ，標準偏差をσとする正規母集団から無作意にとられたｎ個の標本の平均値は，母平均をμ，母標準偏差をσ／SQTRT(ｎ)とする母集団に近づくことになるのです．
これは統計的検定や推定を行う上で大切な知識として憶えておいて下さい．そして，
これは正規分布と正規分布から導かれる統計量の分布，すなわちｔ分布，Ｆ分布，χ^2分布などの基本となります．

統計をとる目的の１つは，母集団について推察することでした．すなわち，
① 収集したデータが母集団からのデータであると仮定して検定を行うこと．
② 収集したデータの母集団における統計量を推定すること．
これが統計的現象の把握と，統計的特性の分析に求められる手法と云えます．

我々が医学研究の過程において実際に手にするデータは，その時点においてただ１つの標本です．
たとえ同じ実験を繰り返し行ったとしても，その時点あるいは最終的には，ただ１つの平均値でしかないのです．したがって，
ｎ個の標本の平均値（Ｘ⁼）は，ただ１つの平均値（Ｘ^-）を期待する値であるので，これをＥ［Ｘ^-］と書き期待値（Expectation ）を表します．
同様に，平均値（Ｘ^-）の標準偏差（ｓ_x^-）も，ただ１つの平均値に対する標準誤差であり，これをＤ［Ｘ^-］と書き期待値（Dispersion ）を表します．
両者はＥ［Ｘ^-］＝μ ，Ｄ［Ｘ^-］＝σ／SQRT(ｎ)の関係が成立します．注釈表示

標準偏差を計算する段階で我々は偏差平方和（Ｓ）をｎ－1 で割り，分散（Ｖ）をＶ＝Ｓ／(ｎ－1)から求めました（２章）．
もしここでＶ＝Ｓ／ｎとしていると，分散の期待値Ｅ［Ｖ］＝(ｎ－1)σ^2／ｎ＜σ^2となり，ｎが小さければ真の母分散（σ）よりも過小になります．

普通，ｎ個のデータは平均値（Ｘ^-）と標準偏差（ｓ）に要約されます．これに対し，母集団での母平均（μ），母分散（σ^2），母標準偏差（σ）を母数（θ）と云います．．

ここで，再び母集団を仮定した 1000 名の血圧値のデータを用いて，20個の標本の平均値が確かに母集団に近づくことになるか，どうかを検定してみましょう．まず，１つの標本の平均（Ｘ^-）と母平均（μ）の偏差（Ｘ^-－μ）を標準偏差を単位とする値に変換します．
すなわち，標本（１）の平均値（Ｘ₁^-）を対象にするならば，
Ｚ0＝（Ｘ₁^-－μ）／（σ／SQRT(ｎ)）＝（133.8-131）／（19.2/sqrt(20)）＝0.65

から，Ｚ0値は極めて0値に近いことが分かります．これは母集団の平均値とあまり差の無いことを示しています．したがって，
この標本は母集団（1000名の血圧値）のデータからとったものと云えるでしょう．その他の標本の各平均値についても同様のことが云えます．
この様に，「検定の問題」は母集団に関しての知識ないし予想の真偽を問うのに対し，「推定の問題」は標本の統計量から母集団に関する知識を得ようとするものです．
なお「推定の問題」は「3.3.」で説明します．実際の検定では，次の手順にしたがって，検定の問題を考えます．

①検定の問題を明らかにする．
例えば「20 人の血圧の平均は1000名の平均と差はないか？」と問う．

②仮説の設定を行う．
帰無仮説（Ｈ0）：Ｘ^-＝μ；標本と母集団の平均は等しい．
対立仮説（Ｈ1）：Ｘ^-≠μ；標本と母集団の平均は等しくない．

帰無仮説（Ｈ0）は，この仮説が真であるか偽であるかを問うものであり，これが「無」に帰することを予想するところからつけられた名称と云われています．ここでは，先の標本（1）の平均値（Ｘ₁^-）について検定してみましょう．
すなわち，
「20人の血圧の平均は1000名の平均と差がない」
ことを疑問として検定を行います．

対立仮説（Ｈ1）は，帰無仮説が受け入れられなかったときに採用する仮説であり，ここでは，
「20人の血圧値の平均は1000名の平均と異なる」
とします．

③危険率を設定する．
有意水準(α)＝0.01，危険率（α×100）＝１％
有意水準(α)＝0.05，危険率（α×100）＝５％

帰無仮説（Ｈ0）を採用するか，しないかの判断は予めその境目となる水準をきめておきます．
この水準になるものが（α）であり，これを有意水準と云います．そして，α×100 ％を危険率と云います．
通常，危険率は１％と５％がよく用いられますが，あくまでも検定の問題によって決めるようにして下さい．
このことは，下の図21のＮ（0,1）の分布において，ある標本の平均（Ｘ^-）がＸ^-±2.58×σ／SQR(ｎ)または，Ｘ^-±1.96×σ／SQRT(ｎ)の範囲内にあれば，その範囲内のデータの割合は，分布の全面積の 99％と95％に相当します．
したがって，その範囲外に出る危険率は１％，と５％となります．仮説の採択は，次の検定統計量（Ｚ0）により行います．

④検定統計量（Ｈ0）を計算する．
検定の問題によって，計算が異なりますので４章以降を参考にして下さい．
ここでは，標本(１)の血圧の平均値（Ｘ₁^-）の分布が母平均（μ），標準偏差（σ／SQRT(ｎ)）の正規分布に近づくことを利用して，Ｘ₁^-を平均が０，標準偏差が１になるように標準化するとＺ0＝0.65（検定統計量）となります．
図21はこの様な検定の手順を模式図の分布で示したものです．

図21　検定における分布の考え方

⑤統計的判定をおこなう．
図２１において検定統計量Ｚ0＝0.65 は，標準化した分布Ｎ(0,1)からの偏差値となります．
これを正規分布表（表計算ソフト「エクセル」から求める）のＺ(α)の値と対応づけ，統計的判定をおこないます．

判定は帰無仮説（Ｈ0）に対して，
Ｚ0≧Ｚ(α)ならば，危険率100×α％でＨ0を棄却する．
Ｚ0＜Ｚ(α)ならば，危険率100×α％でＨ0を採用する．

ここでは，
Ｚ0＝0.65＜Ｚ(0.01／2)＝2.576 であるので，危険率１％で帰無仮説（Ｈ0）を棄却できません．すなわち，
「20名の平均値は1000名の平均値と差がないと云える」

表計算ソフト「エクセル」からの求め方．
関数式による方法
＝NORMSINV(0.005)

関数式の結果は-2.5758を得る．ここでの有意水準（α）はα＝0.01/2＝0.005を代入する．

これは正規分布での両側確率（α／２）です。
これについては「3.2.　両側検定と片側検定について」で説明する．

ここで注意すべきことは，有意水準（α＝0.01，危険率１％）を検定統計量（Ｚ0）をみてから，決めてはいけません．
よく「ｐ＜0.01」の表現を見かけますが，これは結果を知ってから有意な差の度合を示す指標として用いるものなのです．しかし，医学や医療の現場では探索的統計分析の手法をとることが多く,「ｐ＜0.01」の様なｐ値による表現を多用しているようです．

今までの説明は，正規分布に従う標本での検定でした．この様に正規分布の仮定のもとでの検定を「パラメトリック検定」と云います．この検定では母集団に対する知識と，母集団が正規分布であると云う仮定が求められます．
しかし，現実には母集団に対する知識や正規分布の仮定が極めて困難なときも，また標本が定性的あるいは質的データのときもあります．この様なとき，検出力の少々の低下があっても，母集団での分布にかかわらず検定する方法が「ノンパラメトリック検定」です．
いずれにおいても検定統計量がある特定の値であるか，どうかを統計量分布から判断し，検定を行なうことに変わりありません．

「注釈」

標本での標準偏差（ｓ）はデータ個々のバラツキを，標準誤差（SE）は標本平均（Ｘ^-）のバラツキを表すものです．１つの標本平均から母集団の性質を記述するのであれば，標準偏差ではなく標準誤差を用います．
標準偏差を計算する段階で我々は偏差平方和（Ｓ）をｎ－1 で割り，分散（Ｖ）をＶ＝Ｓ／(ｎ－1)から求めました（２章）．もしここでＶ＝Ｓ／ｎとしていると，分散の期待値Ｅ［Ｖ］＝(ｎ－1)σ^2／ｎ＜σ^2となり，ｎが小さければ真の母分散（σ）よりも過小になります．
普通，ｎ個のデータは平均値（Ｘ^-）と標準偏差（ｓ）に要約されます．これに対し，母集団での母平均（μ），母分散（σ^2），母標準偏差（σ）を母数（θ）と云います．
そして，標本からの統計量が母数（θ）に一致する場合には，その統計量を不偏統計量と云い，とくに母数（θ）を推定るものであれ，それを不偏推定量と云っています．

戻る　　　　　次へ　　　　　目次へ　　　　　TOPへ