1 - 東京理科大学

Download Report

Transcript 1 - 東京理科大学

ロジスティック回帰による推測
(V.9 LOGISTICプロシジャの機能拡張)
東京理科大学工学部経営工学科
浜田知久馬
1
内容
ロジスティックモデル
最尤法による推定の原理
最尤法による検定の原理
条件付ロジスティック回帰の数理
V9のLOGISTIC の機能拡張
(STRATA文による
条件付ロジスティック回帰)
2
ロジスティック曲線とオッズ
イベント発現確率p
1-p2
1-p1
p2
p1
-∞
X1
X2
exp(0  1x)
p
1  exp(0  1x)
p
odds 
1 p
 p 
  0  1x
log
 1 p 
+∞
3
10 95
OR 
 2.111
5  90
薬剤 薬剤 計
+
-
10
15
イベント 5
+
90
185
イベント 95
-
100 100 200
計
例と一般化
薬剤 薬剤 計
+
-
c
n-・
イベント a
+
d
n+・
イベント b
-
n・n・+ n
計
4
説明変数が1つの場合
x=0:drug- x=1:drug+
exp0  1 x
p
1  exp0  1 x
exp0 
exp0  1 
p 
, p 
1  exp0 
1  exp0  1 
5
説明変数が1つの場合
 p 
   0  1 x
log
1 p 
x=0:drug-
x=1:drug+
 p 
 p 
   0  1
   0 log
log
 1  p 
 1  p 
 p 
 p 
  log
  1   0   0  1
log
 1  p 
 1  p 
6
説明変数が1つの場合
 p 


1  p 

log
 1
 p 


 1  p 
 p 


 1  p   exp 
1
 p 


 1  p 
7
薬剤
-
薬剤
+
イベント
+
5
10
イベント
-
95
90
likelihood(尤度)
尤度(L)=モデルの下でデータが得ら
れる確率
L  p  (1  p )  p  (1  p )
5
95
10
90
exp0 
exp0  1 
p 
, p 
1  exp0 
1  exp0  1 
最尤法:β0、β1の値を動かしてLが最も
大きくなるようにする方法
MLE:Maximum Likelihood Estimator
8
西遊記
ひたすら西を目指す.
9
最尤法
ひたすら尤度山の頂上を目指す.
10
L  p  (1 p )  p  (1 p )
5
尤度
95
10

90
尤度曲面
(-2.94,0.75)
0
1
11
log L  5log p  95log(1 p ) 10log p  90log(1 p )
対数尤度
対数尤度曲面
(-2.94,0.75)
0
1
12
絨毯爆撃
尤度
0
1
13
尤度山の頂上にいるのは?
14
山の頂上で
は傾きは0
スコア関数
d log L
U
0
d


15
対数尤度
d log L
d log L
0
0
d1
d0
(-2.94,0.75)
0
1
16
薬剤
-
薬剤
+
イベント
+
a
c
イベント
-
b
d
対数尤度とスコア関数
L  p  (1  p )  p  (1  p )d
log L  a log p  b log(1  p )  c log p  d log(1  p )
d log L
c
U (1 ) 
 c  (c  d ) p  0  p 
d1
cd
d log L
a
U ( 0 ) 
 a  c  (a  b) p  (c  d ) p  0  p 
d0
a b
a
b
c
17
薬剤
-
薬剤
+
イベント
+
5
10
イベント
-
95
90
対数尤度とスコア関数
L  p  (1  p )  p  (1  p )
log L  5 log p  95log(1  p ) 10 log p  90 log(1  p )
d log L
10
U (1 ) 
 10 100 p  0  p 
d1
100
d log L
5
U ( 0 ) 
 15 100 p 100 p  0  p 
d0
100
5
95
10

90
18
薬剤
-
薬剤
+
イベント+
a
c
イベント-
b
d
最尤推定量
p
log
 0  1 x
1 p

p
a (a  b)
a
0  log
 log
 log
1  p
1  a (a  b)
b


p
c (c  d )
0  1  log
 log
1  p
1  c (c  d )

p
p
 bc 
1  log
 log
 log

1  p
1  p
 ad 
19
薬剤
-
薬剤
+
イベント
+
5
10
イベント
-
95
90
説明変数が1つの場合の
最尤推定量
a
 5
0  log   log   2.9444
b
 95 

 bc 
 10  95 
1  log   log
  0.7472
 ad 
 5  90 

10  95
OR  exp(1 ) 
 2.111
5  90

粗オッズ比に一致
20
ロジスティック回帰のプログラム
data data;
do drug=0 to 1;
do y=0,1;
input w @@;
do i=1 to w;output;end;end;end;
cards;
95 5 90 10
イベント
+
;
イベント
-
proc logistic descending;
model y=drug;
薬剤
-
薬剤
+
5
10
95
90
21
ロジスティック回帰の出力
Analysis of Maximum Likelihood Estimates
Parameter
Intercept
drug
DF
Estimate Standard
Error

1
-2.9444
0

1
0.7472
1


Pr > ChiSq
Wald
ChiSquare
0.4588
41.1812
<.0001
0.5671
1.7359
0.1877
Odds Ratio Estimates
Effect
Point
Estimate
95% Wald
Confidence
Limits
drug
2.111
0.695 6.416
22
帰無仮説の表現
  : 薬剤-群の母発現割合
  : 薬剤+群の母発現割合
H0 :     
H0 :       0



H0 :
1
H0 :


1   1  

  
1  
1  

0
H0 :
 OR  1 H0 : 1  log

  
 1    
1  
23
[MedStat:002877] Raoのスコア検定を
どのように計算するのでしょうか?
ロジスティック回帰分析
で係数の決定には最
尤推定法を用います。
Raoのスコア検定を
使おうと考えていま
すが,どう算出 した
らよいかわからず悩
んでおります.
24
[MedStat:002878]浜田
Raoのスコア検定は説明変数が1つのときは
帰無仮説の下でのUとその分散Vを 計算し
て, U**2/Vを カイ2乗分布と比べることで行
うことができます。 しかし,説明変数が複数
ある場合は行列演算が必要になりますので
手計算は困難です。 SASのPROC
LOGISTIC等の統計ソフトウエアを利用する
ことを お勧めします。
25
[MedStat:002879]
プログラムを作成するスキルがあるため、
SASを使わなくても行列計算を 手元でさせ
ることはできます。残念ながらスコア検定
の知識をはじめ統 計的な素養が不足して
行き詰っているところです。 大学ではSAS
を使える環境ではあるものの、センターに
行かないと使えず SASを使わないでスコア
検定を行うことを希望します。
26
[MedStat:002881]大橋先生
医療関係の研究者が統計
計算で時間を費やす必要
は ないと思うのですがね。
統計家からの協力を得て、
もっと生産的な仕事を さ
れた方が世のためです。
27
[MedStat:002886]
正直先週までRaoのスコア検定というものを
全く知りませんでした。 尤度比検定とWald
統計量を使おうと思っていたのですが、最
尤推 定値が定まらず どうしようかと思案し
ているときに、研究室の方からスコア検定
を教えていただきました。
最尤推 定値が求まらないのに
どうして検定できるのだろうか?
28
尤度山の頂点から帰無仮説の
離れ具合を測るには?
β0


(1)高度を
測ってみる.
尤度比検定
(2)傾斜角度を
測ってみる.
スコア検定
(3)地図で位置を
確認する
Wald検定
29
三蔵法師が尤度山の最高天竺
にいる.弟子たちは
どれくらい離れているか.
30
尤度比検定 孫悟空
觔斗雲でひとっ飛び,
如意棒で山の高さを
測る.
H0: β=0
31
スコア検定 沙悟浄
水を流して
勾配を測る.
H0: β=0
32
Wald検定 猪八戒
地図を頼りにひ
たすら掘り進み
距離を測る.
H0: β=0
33
尤度原理に基づく3種類の検定
尤度比検定,Wald検定,スコア検定
例 H0: β=0 の検定

1)尤度比検定
log L( )  log L(0)
山の高さの違い
d log L
2)スコア検定
U (0) 
d  0
β= 0における傾きが0に近いか
3) Wald検定

最尤推定量からの隔たり   0
34
薬剤
-
薬剤
+
イベント
+
5
10
イベント
-
95
90
3種類の検定の模式図
d log L
 10 100 p
d1
尤度比
スコア
1
Wald
35
薬剤
-
薬剤
+
イベント
+
50
100
イベント
-
950
900
セル度数が10倍になると
d log L
 100 1000p
d1
1
36
セル度数がk倍になると


β0
L  p  (1 p )  p  (1 p )
log L  a log p  b log(1 p )  c log p  d log(1 p )
a
c
b
d
↓
L  p  (1  p )  p  (1  p )kd
log L  ka log p  kb log(1  p )  kc log p  kd log(1  p )
 k (a log p  b log(1  p )  c log p  d log(1  p ))
ka
kb
kc
37
H0
1

0
母数空間
H1
H0 : 1  0
H0 :     
0

H1 : 0     1,
0   1
1
1
H1 :   0  ,
   1   38
0

0, 0 H0


1, 0 H
1
1
39


1, 0 H
1

0, 0 H0
0
1
40
薬剤
-
薬剤
+
イベント+
a
c
イベント-
b
d
尤度比検定
H 0 :       p0 (1  0)
H 0 : log LH 0  a log p0  b log(1  p0 )  c log p0  d log(1  p0 )
H1 : log LH 1  a log p  b log(1  p )  c log p  d log(1  p )
ac
a
c
p0 
, p 
, p 
a bcd
ab
cd
2
0.5   LR
 log LH 1  log LH 0
p
1  p
p
1  p
 a log
 b log
 c log
 d log
p0
1  p0
p0
1  p0
 p n p O11 
Oij
 


  Oij log
: 尤度比カイ2乗/2
Eij
 p0 n p0 E11 
41
薬剤
-
薬剤
+
イベント+
a
c
イベント-
b
d
Wald検定
H0 : 1  0
 c b 
 10  95 
1  log
  log
  0.7472
 ad 
 5  90 

1 1 1 1 1 1 1 1


V 1           0.3216
  a b c d 5 95 10 90

 2
2

(
0
.
7472
)
 2 wald  1 
 1.74
0
.
3216


V 1 
 
42


U (1 )  10 100 p

1, 0 H
1
U (0)  10 100p0

0, 0 H0
0
1
43
薬剤
-
薬剤
+
イベント
+
a
c
イベント
-
b
d
帰無仮説の下でのU
H0 :       p0 (1  0)
log LH 0  a log p0  b log(1  p0 )  c log p0  d log(1  p0 )
 (a  c) log p0  (b  d ) log(1  p0 )
ac
5  10
15
p0 


 0.075
a  b  c  d 100  100 200
d log L
U (0) 
 c  n p0
d1 1 0
bc  ad
 O21  E21 
 10 100 0.075  2.5
n
薬剤+群における観測イベント数と期待イベント数の差
44
薬剤
-
薬剤
+
イベント+
a
c
イベント-
b
d
スコア検定
bc  ad
U (0)  O21  E21 
n
(a  b)(c  d )(a  c)(b  d )
V U (0) 
3
n
2
2
U (0)
n(bc  ad )
2
 score 

V U (0) (a  b)(c  d )(a  c)(b  d )
ピアソンカイ2乗
45
薬剤
-
薬剤
+
イベント
+
5
10
イベント
-
95
90
FREQプロシジャの出力
統計量
自由度
値
p 値
χ 2 乗値
1
1.8018 0.1795
尤度比χ 2 乗値
1
1.8341 0.1756
連続性補正χ 2 乗値
1
1.1532 0.2829
Mantel-Haenszel のχ 2 乗値
1
1.7928 0.1806
φ係数
0.0949
一致係数
0.0945
Cramer の V 統計量
0.0949
46
LOGISTICの3種類の検定の出力
薬剤
-
薬剤
+
イベント
+
5
10
イベント
-
95
90
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square DF Pr > ChiSq
Likelihood Ratio 1.8341
1
0.1756
Score
1.8018
1
0.1795
Wald
1.7359
1
0.1877
47
LOGISTICのSTRATA文
V.9からSTRATA文が追加
層,マッチングを行った場合の条件付の推測
(条件付ロジスティック回帰)
PHREGのDISCRETEオプションによる解析と
等価
EXACT文と組み合わせて正確な解析も可能
48
1:1マッチングを行った
ケース・コントロール研究
Case
非曝露
Cont
Cont Cont 計
EE+
Case
ECase
E+
計
48
4
52
12
16
28
60
20
80
曝露
Cont Cont 計
EE+
Case
ECase
E+
計
a
b
c
d
N
49
McNemar検定
Cont Cont 計
EE+
Case
ECase
E+
計
a
b
c
d
非曝露
曝露
E-
E+
H 0 :  case   control


cd bd

 case  control 
N
N
c  b 12  4


80
N
N
50
2項分布 Bin(n=16,p=0.5)
片側P値=Pr(12)+Pr(13)+Pr(14)+Pr(15)+Pr(16)=0.0384
両側P値= 0.0384×2=0.0768
51
Bin(16,0.5)の正規近似

P値   f n (8,4)dy
N ((b  c)  0.5, (b  c)  0.5 0.5)
12
片側P値=0.0227
両側P値=0.0455
52
Cont
E-
Cont
E+
Case E-
a
b
Case E+
c
d


2
McNemar検定

( case  control)
McN
(c  b)




b

c
V [ case  control]
(12  4)

4
4  12
c 12
OR  
3
b 4
2
2
2
53
FREQプロシジャによるMcNemar検定
proc freq data=cc;
tables case*control/agree;
Cont Cont
exact agree;
Case
ECase
E+
E-
E+
48
4
12
16
54
FREQプロシジャによる
McNemar検定の出力
McNemar の検定
統計量 (S)
自由度
Pr > S ( 漸近 )
4.0000
1
2
(
c

b
)
 2 McN 
bc
2
(12  4)

4
4  12
0.0455
Pr >= S ( 正確 ) 0.0768
55
ケース・コントロール研究データの
2×2の分割表(曝露×疾患)での集計
Case
ECase
E+
計
Cont Cont 計
EE+
48
4
52
E
+
28
計
Case
E
-
52
12
16
28
Cont
60
20
80
60
20
80
計
112
48
160
80
56
条件付きでない解析のプログラム
proc logistic data=cc3 descending;
class strata;
model response=exposure strata;
E-
E+
計
Case
52
28
80
Cont
60
20
80
計
112
48
160
strata
1,・・・,80
マッチング
した層
57
条件付きでない解析の出力
Analysis of Maximum Likelihood Estimates
Estimate
Pr > ChiSq
Parameter
DF
Intercept
1
-0.6592
0.2944
5.0135
0.0252
exposure
1
2.1972
0.8165
7.2417
0.0071
strata
1 1
0.6592
1.4271
0.2133
0.6442
・・・
2 1
・・・
・・・
・・・
・・・
Standard
Error
WaldChiSquare
Odds Ratio Estimates
正しいオッズ比:3
観測値:160
母数:81
Effect
Point
Estimate
95% Wald
Confidence
Limits
exposure
9.000
1.817
44.591
strata 1 vs 80
3.000
0.040
223.087
・・・
・・・
・・・ ・・・
58
条件付きの解析のモデル
非曝露
 pix 
  i  x
log
 1  pix 
exp(i  x)
pix 
1  exp(i  x)
曝露
pix:疾患を発症する確率
i:マッチした層(i=1,・・・,80)
x:曝露の有無
case cont
曝露なし 1 1 1 0
曝露あり 0 0 0 1
48(a) 4(b)
0 1
1 0
12(c)
0 0
1 1
16(d)
59
のパターンが得られる条件付確率
caseのみ曝露をうける確率
0
1
1
1
0
1
1
0
1
0
1
1
2
1 1
1 1
2
exp(i  x)
pix 
1  exp(i  x)
exp(i   )
1
case E+ cont Epi1 (1  pi 0 ) 

1  exp(i   ) 1  exp(i )
case E- cont E+
exp(i )
1
pi 0 (1  pi1 ) 

1  exp(i ) 1  exp(i   )
pi1 (1  pi 0 )
exp(i   )
exp( )


pi1 (1  pi 0 )  pi 0 (1  pi1 ) exp(i   )  exp(i ) exp( ) 1
60
条件付ロジスティック回帰の尤度
と最尤推定量

  exp( ) 
1
  
 1d
L  1  
 exp( )  1   exp( )  1 
b
c
a
d log L
exp( )
U ( ) 
 c  (b  c)
0
d
1  exp( )

c
exp( )
c
c


 exp( )     log 
b  c 1  exp( )
b
b
U (0)  c  (b  c) / 2
2
2
U
(
0
)
(
c

b
)
 2 score 

  2 McN  4
V U (0)
bc
61

log L( )  log(0.7512  0.254 )
bc
U (0)  c 
 12  8
2
log L(0)  log(0.516)

c
12
  log   log 

b
 4 62
条件付きロジスティック回帰のプログラム
proc logistic descending data=cc3;
class strata;
model response=exposure;
strata strata;
exact exposure
/estimate=both outdist=out;
63
条件付きロジスティック回帰の結果
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square
DF
Pr > ChiSq
Likelihood
Ratio
4.1860
1
0.0408
Score
4.0000
1
0.0455
Wald
3.6208
1
0.0571
Analysis of Maximum Likelihood Estimates
Parameter
exposure
DF
1
Estimate
Standard
Error
1.0986
0.5774
Wald
ChiSquare
3.6208
Pr > ChiSq
0.0571
64
条件付きロジスティック回帰の結果
Odds Ratio Estimates
Effect
Point
Estimate
exposure 3.000
95% Wald
Confidence
Limits
0.968 9.302
  log

c

b
 12 
 log

 4 

Exact Odds Ratios
Parameter
Estimate
exposure
3.000
95% Confidence
Limits
0.909
12.762
p-Value
0.0768
65
0
1
1
1
0
1
1
0
1
0
1
1
2
1 1
1 1
Cont Cont
EE+
Case
ECase
E+
正確な推測
2
ー 0
16 ー
48 4
12 16
ー 1
15 ー
ー 2
14 ー
・・・
ー 14
2 ー
ー 15
1 ー
ー 16
0 ー
層を固定したものでの正確な条件付分布
66
OBS
B
C
Score
Prob
1
0
16
16.00
0.00002
2
1
15
12.25
0.00024
3
2
14
9.00
0.00183
4
3
13
6.25
0.00854
5
4
12
4.00
0.02777
6
5
11
2.25
0.06665
7
6
10
1.00
0.12219
8
7
9
0.25
0.17456
9
8
8
0.00
0.19638
10
9
7
0.25
0.17456
11
10
6
1.00
0.12219
12
11
5
2.25
0.06665
13
12
4
4.00
0.02777
14
13
3
6.25
0.00854
15
14
2
9.00
0.00183
16
15
1
12.25
0.00024
17
16
0
16.00
0.00002
2
(
C

B
)
 2 score 
CB
PC  B CC 0.5B  0.5C
67
確率
スコアカイ2乗の
正確な分布とカイ2乗近似
P値=Pr(4)+Pr(6.25)+Pr(9)+Pr(12.25)+Pr(16)=0.0768
2
(
C

B
)
 2 score 
CB
68
mid-p型の信頼区間の計算プログラム
proc logistic descending data=cc3;
class strata;
model response=exposure;
strata strata;
exact exposure
/estimate=both
outdist=out cltype=midp;
69
mid-p型の信頼区間の出力
Exact Parameter Estimates
Parameter Estimate
exposure
1.0986
95% Confidence
Limits
0.004279
2.3773
p-Value
0.0490
Type
MidP(0.5)
Exact Odds Ratios
Parameter Estimate
exposure
3.000
95% Confidence
Limits
1.004
10.776
p-Value
0.0490
Type
MidP(0.5)
exactP値=Pr(4)+Pr(6.25)+Pr(9)+Pr(12.25)+Pr(16)=0.0768
midP値=0.5×Pr(4)+Pr(6.25)+Pr(9)+Pr(12.25)+Pr(16)=0.0490
70
モンテカルロシミュレーションによる
近似検定のプログラム
proc logistic descending data=cc3 exactoptions
(method=networkmc seed=4989 n=20000);
class strata;
model response=exposure;
strata strata;
exact exposure
/estimate=both outdist=out cltype=exact;
71
モンテカルロシミュレーションによる
近似検定の出力
Exact Parameter Estimates
Parameter
Estimate
exposure
1.1151
95% Confidence
Limits
-0.0885
2.7066
p-Value
0.0745
Type
Exact
Exact Odds Ratios
Parameter
Estimate
exposure
3.050
95% Confidence
Limits
0.915
14.978
p-Value
0.0745
Type
Exact
72
結果のまとめ
条件無
条件付
正確法
カイ2乗
8.000
4.000
p値
0.003
0.046
0.077
オッズ比
9.000
3.000
3.000
信頼下限
1.817
0.968
0.909
信頼上限
44.591
9.302
12.762
73
まとめ
スコア
尤度比
Wald


H0: β=0
74
2
U
(
0
)
 2 score 
V U (0)
スコア検定の利点
・Wald,尤度比検定はMLEが求まらないとできない.
・ MLEを求めるためには反復計算が必要
・スコア検定はH0の下でのUがわかれば計算可能
・多くのモデルについての計算が必要な総当り法で
は,スコア検定が行われる.
・単純な問題については,よく知られた検定に一致
・スコア検定では収束しない場合でも,H0の検定が
可能
75
次のうちスコア検定に相当するのは
どれでしょう.
1)Z検定(分散既知のt検定)
2)Pearsonのカイ2乗検定
3)McNemar検定
4)Cochran-Armitage検定
5)Mantel-Haenzel検定
6)ログランク検定
76
[MedStat:002887]浜田
スコア検定は確かに 最尤推定値が求まらなくて
も 帰無仮説が検定できるのが 利点です. し
かし最尤推定値が求まらないのは モデルが
破綻しているということですし 帰無仮説の検
定だけでは推測としては不十分です. 根本的
に最尤推定値が求まらない原因(0セルがある
等)を追究しとく 必要があるかと思います. や
はり統計の専門家に相談した方がよいと思い
ます.
77
参考文献
Derr, R.E.(2000) Performing exact logistic regression with the SAS System. SUGI'2000
Proceedings, Paper 254
Gail, M.H., Lubin, J.H., and Rubinstein, L.V. (1981) Likelihood Calculations for Matched CaseControl Studies and Survival Studies with Tied Death Times. Biometrika, 68, 703-07.
Hirji, K.F., Mehta, C.R., and Patel, N.R. (1987) Computing Distributions for Exact Logistic
Regression. Journal of the American Statistical Association, 82, 1110 - 1117.
Hosmer, D.W, Jr. and Lemeshow, S. (2000), Applied Logistic Regression, Second Edition, New
York: John Wiley & Sons, Inc.
Mehta, C.R., Patel, N. and Senchaudhuri, P. (1992), Exact Stratified Linear Rank Tests for
Ordered Categorical and Binary Data. Journal of Computational and Graphical Statistics, 1,
21 - 40.
Mehta, C.R., Patel, N. and Senchaudhuri, P. (2000) Efficient Monte Carlo Methods for
Conditional Logistic Regression. Journal of the American Statistical Association, 95, 99 108.
Truett,J., Cornfield, J. and Kannel, W.(1967) A Multivariate Analysis of the Risk of Coronary
Heart Disease in Framingham. J.Chron.Dis. 20, 511-524
浜田知久馬(1994)SASによる条件付きロジスティック回帰.
日本SASユーザー会94論文集,527-540
浜田知久馬(2000)LOGISTICのV. 8の機能拡張. 日本SASユーザー会2000論文集,13-38
浜田知久馬(2001)SAS V. 8における正確な推測とシミュレーションによる近似法.
日本SASユーザー会2001論文集,165-187
78
data likelihood;
do b0=-2.9444;
do b1=-0.4 to 1.2 by 0.05;
p0=1/(1+exp(-(b0)));
p1=1/(1+exp(-(b0+b1)));
l=p0**10*(1-p0)**190*p1**20*(1-p1)**180;
logl=log(l);
output;
end;end;
proc gplot;
plot l*b1;
symbol1 i=spline ;run;
proc gplot;
plot logl*b1;
symbol1 i=spline ;run;
79
理想的な比較
80
data data;phi=0.50;n=16;
do y=0 to 16;
p=pdf('binomial',y,phi,n);
fn=pdf('normal',y,n*phi,(n*0.25)**.5);
output;end;
proc gplot;plot p*y fn*y/vzero overlay;
symbol1 i=needle c=red;
symbol2 i=spline c=green;
run;
81
data data;
b=4;c=12;
do beta=0 to 2 by 0.1;
logl=c*beta-(b+c)*log(1+exp(beta));
output;
end;
proc gplot;
plot logL*beta;
symbol1 i=spline;
run;
82
UNIVARIATEプロシジャによる
McNemar検定
data cc;
input case control w @@;
do i=1 to w;
dif=case-control;output;end;
cards;
0 0 48 1 1 16 0 1 4 1 0 12
;
proc univariate data=cc;var dif;
case control dif
0
0
0
1
0
1
0
1
-1
1
1
0
83
UNIVARIATEプロシジャによる
対応のある検定の出力
位置の検定 : μ 0=0
検定
統計量
p 値
Student の t 統 t 2.039 Pr > |t| 0.0448
計量
符号検定
M 4
Pr >=
|M|
0.0768
符号付順位検定
S 34
Pr >=
|S|
0.0768
84
マッチングを無視した解析のプログラム
data cc2;
input response exposure w @@;
do i=1 to w;output;end;
cards;
1 0 60 1 1 20 0 0 52 0 1 28
;
proc logistic data=cc2 descending;
model response=exposure;
85
マッチングを無視した解析の結果
Analysis of Maximum Likelihood Estimates
Estimate
Pr > ChiSq
Wald
Chi-Square
Parameter
DF
Intercept
1
-0.1431
0.1895
0.5705
0.4501
exposure
1
0.4796
0.3487
1.8912
0.1691
Standard
Error
Odds Ratio Estimates
Effect
Point
Estimate
exposure 1.615
95% Wald
Confidence Limits
0.816
3.200
正しいオッズ比:3
層を無視するため誤差的なバラツキが増大
86
正確な推測
 層を固定したものでの正確な条件付分布
Cont Cont
EE+
Case
ECase
E+
a
C
B
d
B, Cのパターンが得られる 確率
C : 0,1,2,,16
B

  exp( ) 
1
  

L16CC 
 exp( )  1   exp( )  1 
under H0 (  0)
B
 1   1 
L16CC 
 

 11   11
B
1 1
16CC     
 2  2
C
C
87
C
結果のまとめ
ロジ(1) ロジ(2) 条件付
層無視 層条件無
正確法
カイ2乗 1.905
8.000
4.000
p値
0.122
0.003
0.046
0.077
オッズ比
1.615
9.000
3.000
3.000
信頼下限
0.816
1.817
0.968
0.909
信頼上限
3.200
44.591 9.302
12.762
88
良性乳癌に対する1:3マッチングを
行ったケースコントロール研究
ケース: 50人 コントロール:150人
STR:(層) 1~50 年齢と施設でマッチング
AGMT(面接時年齢) FNDX(乳癌の有無)
CHK(定期的な診断の有無) AGMN(初経年齢)
HIGD(就学期間) DEG(学歴)
NLV(死産児の数) LIV(生誕時の数)
WT(体重ポンド) AGLP(閉経時の年齢)
MST2(結婚歴) 1:婚姻歴有 2:婚姻歴無
89
変数減少法による変数選択
proc logistic descending;
class str mst2/param=ref ref=last;
model fndx=
chk|deg|higd|agmn|aglp|wt|mst2@2
/selection=backward;
strata str;
90
変数減少法による変数選択
Summary of Backward Elimination
Step Effect
DF Number Wald
Pr > ChiSq
Removed
In
Chi-Square
1
HIGD
1 6
2
DEG
1 5
3
AGLP
1 4
Type 3 Analysis of Effects
Effect
DF Wald
Chi-Square
CHK
1
6.7503
AGMN 1
7.8913
WT
1
8.0069
Pr > ChiSq
MST2
0.0304
1
4.6865
2.3863
1.7836
3.0579
0.0094
0.0050
0.0047
0.1224
0.1817
0.0803
定期的な診断
初経年齢
体重
結婚歴 91
パラメータ推定値
Analysis of Maximum Likelihood Estimates
Parameter
DF Estimate Standard Wald
Pr > ChiSq
Error Chi-Square
CHK
1
-1.1613
0.4470
6.7503
0.0094
AGMN
1
0.3592
0.1279
7.8913
0.0050
WT
1
-0.0282
0.00998
8.0069
0.0047
1 1
-1.5934
0.7360
4.6865
0.0304
MST2
CHK:定期的な診断 AGEN:初経年齢 WT:体重 MST2:結婚歴
92
条件付の解析 Odds Ratio Estimates
Effect
CHK
AGMN
Point Estimate 95% Confidence
Limits
0.313
0.130
0.752
1.432
1.115
1.840
WT
0.972
MST2 1 vs 2 0.203
0.953
0.048
0.991
0.860
定期的な診断
初経年齢
体重
結婚歴
条件無しの解析 Odds Ratio Estimates
Effect
CHK
AGMN
WT
MST2 1 vs 2
Point Estimate 95% Confidence
Limits
0.185
0.064
0.536
1.741
1.272
2.382
0.959
0.0840
0.935
0.014
0.983
0.512
93