ppt - 統計数理研究所

Download Report

Transcript ppt - 統計数理研究所

Sensitivity Method for
Observational Comparison
逸見 昌之 (総合研究大学院大学)
江口 真透 (統計数理研究所,
総合研究大学院大学)
群比較モデル
N人の対象者が2群に割りつけられているとき、
各群で観測される結果変量を比較する
y:結果変量
z:観測の状態(z =1,2)
通常の統計的推測では、割りつけはランダムに
行われている(割りつけ方の影響は無視できる)
ことを前提とする
Copas-Liモデル
y   x   e1
T
r   x  e2
T
r 0
r 0
z 1
z2
  0  1   
 e1 
  ~ N   , 
 
 e2 
  0   1  
r 0
r 0
y is observed
y is missing
現実のモデルは、
f ( y | x, r  0) 
1
(
y  T x
)


 Tx
 y  T x
T
 (

)/

(

x
)

1  2
1  2
E( y | x, r  0)   T x   ( T x)
T 
 Tx

y


x

P(r  0 | x, y)  

2
2
 1 


1




Rosenbaum の log odd ratio
 (r  0 | y) (r  0) 
  log

 (r  0) (r  0 | y) 
 const 
尤度解析
全尤度関数は
L (  , ,  ,  )  n log  
n
1
2
  log  (ui ) 
ui 
T
2
(
y


x
)
i
i
2 
T
log

(

xi ),

i n1
1

1  2
 T xi 
i 1
N
i 1
ここで
n
1  2
yi   T xi

ρプロファイル尤度
L* (  )  max L(  , ,  ,  )
 , , | 
を考えよう
L * (0)  0 ,
L * (0)  0
yi  ˆ T xi 3
L * (0)  K1  (
)
ˆ
i 1
n 
yi  ˆ T xi 4 
L * (0)  K2  (
)  3
ˆ
i 1 

n
Coventry職業会計検査院データ
y  収入,
x  ( 1, 性別, 年齢, 年齢 年齢)
N = 1435人, n = 1323 人
2標本比較
モデル
y    sign (r)    e1
r  e2
r 0
z 1
r 0
z 2
y1 ,...,yn1
z  1 (r  0)
yn11 ,...,yN
z  2 (r  0)
1
ˆ
  ( y1  y2 )
2
(ˆ)     
2 
2

2

ˆ
1 
   ( N 2 )
var ( ) 
N 
 
2

対数尤度は
( yi     )2 n
 yi    
 N log  
 log (
)
2
2
2

i 1
i 1
1 
n
( yi     )2 N
 yi    

 log (
)
2
2

i n1
i n1
1  2
N
2
ˆ
ˆ
 ()   


ˆ   ( 3)

1-  2
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N  211(男性)
処理群(高レベルの騒音に曝露) n1  67
対照群(年齢、職場は同じ) n2  144
各群において、 3kHzまでの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均
対照群での標本平均
合併標本標準偏差
y1  3.893
y2  3.710
s  0.351
t-統計量 t  3.52
(自由度
) 209
しかし、2つの群はランダム化されていない
~
3
t( )  3.52 5.39   (  )
~
t ( )  z0.05  1.96 if   0.29
結論は容易に決められなくなる。
Copas-Eguchiモデル
割りつけがランダムに行われていないときの
状況をモデル化
観測の状態
Z
f Z z , 
結果変量
Y
Y | z ~ fY  y, z ?
ランダム効果
T
fT t 
対象者の割りつけ方が無視できる(ランダムに行
われている)
T
Z or fTZ (t, z)  fT (t) fZ ( z, )
無視できないときのモデル
 

gTZ t, z   fT t  f Z z, exp  iui t vz,    
 i 1


  0 ,


i   1
2
i
 z を z 番目の群における処理の効果(treatment
effect)を表すパラメータとして
fY|T ,Z  y | t, z  fY|T  y | t  z  と仮定すると
gY|Z  y | z  ET|Z fY|T  y | t  z 



 fY  y |  z 1    iui  y, z vz, 1
i


但し
fY  y,  :  fY |T  y | t   fT t dt
ui  y,  :  ui t  fY |T  y | t   fT t dt fY  y, 
  0 (ランダム化デザイン)
fY|Z  y | z・・・これが
 fY  y, z 
fY y, z 
の意味
以後、
は既知のパラメトリックな分布族と
, 
し、 fY  yは(統計的推測には)用いない
fT , fY|T
(割りつけが無視できないときのモデルを導出する
ために用いた)
以後、簡単のため
はスカラーとする
t ,
選択バイアスの局所近似
各群への割りつけが無視できないときに、それを
無視して得られる最尤推定量と、 Y, Z の実際の
同時分布が fYZのチューブ近傍に属するとして得
られる最尤推定量の差をみる
Y, Z の実際の同時分布


gYZ  y, z   fY  y, z  f Z z, 1    iui  y, z vz, 
i


~
 z の最尤推定量  z
  0 としたときの  z の最尤推定量を ˆz とすると
~
 z  ˆz   Iˆ 1 z
z
但し
I は  に関するFisher情報量
 z : i i ˆz vz, 
 
 i   :  ui   y,  fY  y, dy
i
f Z z,  は飽和モデルとして f Z z,   nz N
(N :全標本数、nz :群 zでの観測標本数)
2 個の群にわたる標準化2乗バイアスの和
2

ˆ



 z z
z 1
~

2
 
VarA ˆz  n1n2 N  2
但し
 2 : EVarloggZ|T z1 | t  gZ|T z2 | t | z1  z2 
  2 N 2 n1n2
 は t と z の従属性の(ある種の)大きさを量る
ことにより、各群への割りつけがどのくらい選択
的かを表す
反事実結果変数によるモデル化
Y r  : r 番目の群に割りつけられたとしたときの
結果変数 ~ fY  y,r  r  1,2
( Y 1 ,Y 2はどれか1つしか観測されない)
Z :観測の状態(どの群に割りつけられるかを表す)
Z  r のとき、 Y  Y r  ( Y は結果変数)
対象者の割りつけ方が無視できる
Y  ,Y    Z
 f  y, z  f  y,  f z,  , r  1,2
1
Y  r Z
2
Y
r
Z
無視できないときのモデル
 

gY r Z  y, z   fY  y,r  f Z z, exp r irui  y,r vz,    
 i 1




 fY  y,r  f Z z, 1   r irui  y,r vz, 
i 1


gY |Z  y | z   gY  z |Z  y | z  より



gY |Z  y | z   fY  y, z 1   z  izui  y, z vz, 2
i 1


※  z , iz が
z に依存していることに注意
選択バイアスの局所近似
~
1
ˆ
 z   z   z I z  z
2個の群にわたる標準化2乗バイアスの和
2

ˆ



 z z
z 1
~

2
  

VarA ˆz  n1n2 N 2 n212  n122

2標本問題
1  1 1   

   
  ,    
 
 2  1 1  
 に関する標準化2乗バイアス
モデル(1)では
~ ˆT
-1 ˆ ~
   VarA    ˆ  n1n2 N  2


 

モデル(2)では
~ ˆT
-1 ˆ ~
   VarA    ˆ  n1n2 N 2 n212  n122 


 

仮説検定への応用
仮説 H0 :   0
検定統計量

  
  
12
ˆ
ˆ
ˆ
(   0 と仮定して)
t    Var 
12
~ ~
(実際には)
ˆ
t    Var 

モデル(1)では
 
12
ˆ
t   t   n1n2 N    bias
~
モデル(2)では
     n n N n 
~
t   t ˆ 
1 2
2
2 1
 n  ( bias)
2
1 2

| t ˆ |  z で統計的に有意のとき
(但し、 z は標準正規分布の両側  % 点)
を bias  | t ˆ |  z となるような  とすると


が小
選択バイアスがわずかであっても
~
( t  の方では)有意でなくなる

可能性あり
が大
実質的な大きさの選択バイアス
がないと結論は覆らない
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N  211(男性)
処理群(高レベルの騒音に曝露) n1  67
対照群(年齢、職場は同じ) n2  144
各群において、 3kHzまでの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均 y1  3.893
対照群での標本平均 y2  3.710
s  0.351
合併標本標準偏差
高度に有意
t  統計量 t  3.52
(自由度 209 )
しかし、2つの群はランダム化されていない
z5  1.96 (両側 5% 点)に対し、モデル(1)では
t  z5  n1n2 N5
5  0.23  0.30
検出できないくらいわずかな  で結論が逆転する
可能性があるので注意が必要
 が各群で異なることを許容するモデル(2)では
t  z5 


n1 n2 N 1 5
1 5  0.28
 0.64
但し,2  0 (つまり対照群の方では割りつけは
ランダム)と考える
or  の値の小ささの目安
モデル(1)の場合
仮に完全データ tk , zk k  1,, N  が得られたと
して、   0 の検定を行ってみる
T, Zの同時分布
 

gTZ t, z   fT t  f Z z, exp  iui t vz,    
 i 1

標準化スコア検定統計量
N 

1 N  iui tk vzk , 
 k 1 i 1


(局所漸近的)検出力が1/2となるような は
 2 N
このとき
  2 N n1n2 (  0.30 前出の例の場合)
これより小さいor   は実際にも無視され
やすいと考える

モデル(2)の場合は、仮に完全データ ykr  , zk
r  0
kが得られたとして、
 1,, N; r  1,2
の検定を考える

補足
Copas-LiモデルとCopas-Eguchiモデルの関係
(2群比較の場合)
Copas-Liモデル


gY|Z  y | z  1    y     z   1 2   y     z   z
(但し z  signr ,  は標準正規分布の密度関数)
Copas-Eguchiモデル(モデル(1))



gY |Z  y | z   fY  y, z 1    i1ui  y, z vz, 
i 1


Copas-LiモデルはCopas-Eguchiモデルの特別な
場合に相当する:
fY y, z   1   y     z    z     z
  2   , 11  1 , i1  0 i  2
u1  y, z   y     z   , vz,   z
  Prz  1  1 2
(但し、Copas-Liモデルでは   Prz  1 は特定
されているのに対し、Copas-Eguchiモデルでは
サンプルから推定する)
Copas-Liモデル
対象者の割りつけ方が無視できないときのモデル
として、  だけで決まる
バイアスも  or だけで決まる
~
前出の例の場合 t  t ˆ  5.39 3
 
Coaps-Eguchiモデル

だけでは決まらず、割りつけ方が無視できない
状況を表すモデルとして、よりバラエティーがある
バイアスは  or で決まる量によって
不等式で評価される
~
前出の例の場合 t  t ˆ  6.76 4
 
Copas-LiモデルはCopas-Eguchiモデルによる
バイアス評価式(4)で等号が成立する場合になっ
ている
(但し、Copas-Eguchiモデルでは   Prz  1 を
n1 N として推定するので、2群の標本数が等し
いときに等号成立)
参考文献
Copas,J.B. and Li,H.G.(1997)
Inference for non-random samples(with discussion).
J.R.Statist.Soc.B,59,55-95
Copas,J. and S.Eguchi(2001)
Local sensitivity approximations for selectivity bias.
J.R.Statist.Soc.B,63,871-895