戻る     次へ     目次へ

6.3. 相関と回帰について.
2次元正規分布の母集団からとられた標本は直線回帰によって,その相関性を記述することができます.相関係数とそれに関する検定や推定の問題は,
2つの標本間の関連性の測度と,その信頼性を保証するものです.例えば,
例題30 のデータ(成人50名の血圧値)を連続量として表計算ソフト「エクセル」で求めて見ましょう「エクセル→分析→ツール→回帰分析」。
分析結果は図41 の通りであり,最高・最低血圧の間にはr=0.824 で相関性のあることが分かると共に,最高血圧(x)と最低血圧(y)の間には,
y=0.6044x−0.9235 の1次式で示されるような1次線形回帰,すなわち,直線回帰へのあてはめが認められます.
これを最高血圧(x)に対する最低血圧(y)の回帰式と云い,一方の変量(x:独立変量)が与えられた条件のもとで,他方の変量(y:従属変量)の値を予測することが出来るものです.
例えば,最高血圧が 180 mmHg であれば,最低血圧は,
y=0.6044x−0.9235=0.6044*180−0.9235=107.87 mmHg

近い値をとると予想されます.
逆にyの値を与えて,回帰直線と交わる点に対応するxの値を求めるときもあります.例えば,医学での実験などでは,標準物質の濃度(x)を変えて,その濃度に対する吸光度(y)を求め検量線とするものがそうです.
検量線では,ある未知の物質の吸光度を検量線にあてはめて,その濃度を求めます.これは回帰直線を利用した逆推定と云えるでしょう.医学や医療の現場では,日常的に,この様な相関と回帰の計算が統計学を意識せずに実行されています.
検量線としての回帰直線は,統計用語で線形校正あるいは線形校正直線と云います.相関と回帰の問題は直線性に限られるものではなく,色々な相関関係が2標本間に存在すると思います.

図41 血圧の相関散布図と回帰直線

6.3.1. 直線関係のとき.
通常,2つの標本の関係はその直線性によって示されます.それは,標本間の関係を最も単純な y=ax+b の1次式で説明できるからです.
直線関係の相関と回帰の問題は,先に基礎的な事柄について説明しましたが,ここでは直線回帰の問題を少し考えてみましょう.

[検定の手順]
(1)検定の問題を明かにする.
「2つの標本は相関関係があるか?」

(2)仮説の設定を行う.
帰無仮設(H0):ρ=0
対立仮設(H1):ρ≠0 (両側検定のとき)

(3)危険率(100α%)を決める.
両側検定の有意水準:α

(4)検定統計量(t0)を求める.
相関係数(r)の検定において n=データの個数 とするとき,検定統計量(t0) は次式により求とめます.
t0=r*sqrt((n-2)/(1-r^2))

(5)統計的判定を行う.
[両側検定のとき]
0<t(n-2,α)ならば,「危険率100α%で相関がない」
0≧t(n-2,α)ならば,「危険率100α%で相関がある」

なお,t(n-2,α)は表計算ソフト「エクセル」から求めると良いでしょう.

次に回帰係数,勾配(a)の検定は次の検定統計量(ta)について行います.
ta=r* sqrt((n−2)/(1-r^2))

これは,相関の検定統計量(t0)と同じです.

回帰係数と切片(b)の検定は,次の検定統計量(tb)について行います.
tb=b/(Ve*(1/n +Xbar2/Sxx)) ,  Xbar2は平均値の二乗
e=(Syy(1-r2))/(n-2) ,SxxとSyyは偏差平方和

(6)100(1-α)%の信頼限界を求める.
a.母相関係数(ρ)の 95%信頼限界は次により求めます. 注釈表示

表計算ソフト「エクセル」の関数を用いると便利です.
関数「= fisher(r)」として,相関係数(r)をZ変換しZrを求めます. 次に,
Zr±1.96/sqrt(n-3) から下限値(ZL)と上限値(Zu)を求めます.そして,
Z値をr値に変換しする関数「=fisherinv(ZL)」,「=fisher(Zu)」によって95%信頼限界が求まります.
例えば、図41の場合だと、
データ数=50,相関係数r=0.824 ですので,母相関係数の95%信頼限界は次のようになります.
t0=0.824*sqrt((50-2)/(1-0.824^2))=10.076
t0=10.076>t0.05=2.012, よって有意であり相関があると言える。

Zr=fisher(0.824)=1.169
ZL=1.169-1.96/sqrt(50-3)=0.883→fisherinv(0.883)=0.708
ZU=1.169+1.96/sqrt(50-3)=1.455→fisherinv(1.455)=0.897

よって、母相関係数(ρ)の95%信頼限界は
0.708<=ρ<=0.897

となります。  

b.母回帰係数と勾配(a)の100(1−α)%信頼限界は次の通りです.
a±t(n-2 , α) * sqrt(Ve/Sxx)

c.母回帰係数と勾配(b)の100(1−α)%信頼限界は次の通りです.
b±t(n-2 , α) * SQRT(Ve * (1/n+Xbar2/Sxx)

「例題31]
次のデータは肺機能検査において測定した努力性肺活量(FVC)と,その1秒量(FEV)です.

番号12345678910
FVC(L)4.053.674.152.952.352.123.503.323.152.97
FEV(L)3.602.613.111.831.361.702.302.232.622.52

このデータを相関図にすると,図42のような散布図となります.

図42 努力性肺活量と1秒量の相関

図42 の座標上における散布点は45゜の直線に対してほぼ平行しており,直線関係の相関があると思われます.
回帰式は図43 のように,xに対するyの回帰式は y=0.883x−0.458 で表わされます.また,
yに対するxの回帰は,x=0.876y+1.132 で表わされます.

図43 努力性肺活量と1秒量の回帰式

このように,2つの回帰式はともにxとyの交点を通りますが,その勾配を異にしています.すなわち,
従属変量をxにするかyにするかによって,その回帰式が異なることに注意しなければなりません.
例えば,医学検査では従来法(x)と新法(y)との間の相関と回帰式を求め,回帰式の勾配(a)と切片(b)を補正係数とするファクターを定め, 従来法から新法へ,新法から従来法へと測定値を必要に応じて変換することがあります.
この時のファクターの定め方が,従来法に対する新法の回帰であれば,従来法の値を独立変量として計算しなければなりません.

この様に,同じ物質を異な手法あるいは機器によって測定し,両者間の相関と回帰を求めるときは,y=ax+b と x=ay+b の両方を求めておくと良いでしょう.
y=ax+b から, x=1/a(y−b) の 1/a をファクターとするのは,検量線における標準物質濃度と吸光度のように,一方を誤差のないものとして,他方を求めるときに限るべきでしょう.

[例題32]
血清アルブミン値が正常値範囲(4.2〜5.7 g/dl)にある試料10検体を用いて,自動分析機と従来法で同時測定し次のデータを得ました.このデータの相関を求めます.

自動分析4.54.64.24.44.54.44.04.24.34.3
従来法4.85.64.95.25.05.05.04.94.95.5

図44 は例題での正常値範囲にある血清検体の相関図であり,その相関係数(r)は,r=0.343 ,回帰式は y=0.52x+2.82 です.

図44 自動分析機と従来法の正常範囲内データの相関

そして,相関係数(r)の検定は,
t0=1.03<t(8,0.05)=2.306 (両側検定,危険率 5%)

から,自動分析機と従来法の間に相関が無いと云えます.
この様な結果について,読者は納得されるでしょうか?

何故なら,同一物質を測定して相関関係がないことに強い疑問を持つに違いありません.新たに次のような低値範囲のデータを追加し相関を求めてみました.

自動分析2.83.73.12.52.23.22.53.91.92.0
従来法3.14.43.43.22.83.63.14.32.22.5

図45は低値範囲のデータを加えた相関図です.

図45 自動分析機と従来法の広範囲内データの相関

その相関係数(r)はr=0.976 ,回帰式はy=1.11x+2.08であり,強い相関関係のあることが分かります.
そして,この相関図から,最初の 10個のデータ(正常値範囲)は赤色で囲まれた極く狭い範囲での相関であり,その共変動(積和)は Sxy=0.747 と非常に小さかったことが分かったのです.
この値は血清アルブミン値としては,測定の誤差程度であり,相関係数(r)を求めるには不適当なデータであったのです.

「注釈」
  1. ln は,ある値Xについて自然対数Log(x)の値を与える.ln(x)=2.3026*Log(x)で求められる.
  2. exp は,ある値Xについて,指数関数eの値を与える.なお,e は自然対数の底(e=2.7183)である.
  3.  
  4. (3) 医学での実験などにおいて,相関係数や回帰式は次のような分析誤差の記述などに用いられる.
  5.    
  6. @相関係数・回帰式は標準法との比較から系統的な誤差を検出する. A回帰式の切片は,妨害因子や共存物質などの固有誤差を検出する.B回帰式の勾配は,標準物質や吸光係数など物質濃度に比例する誤差,を検出する.
戻る     次へ      目次へ     TOPへ