ppt - 統計数理研究所
Download
Report
Transcript ppt - 統計数理研究所
Sensitivity Method for
Observational Comparison
逸見 昌之 (総合研究大学院大学)
江口 真透 (統計数理研究所,
総合研究大学院大学)
群比較モデル
N人の対象者が2群に割りつけられているとき、
各群で観測される結果変量を比較する
y:結果変量
z:観測の状態(z =1,2)
通常の統計的推測では、割りつけはランダムに
行われている(割りつけ方の影響は無視できる)
ことを前提とする
Copas-Liモデル
y x e1
T
r x e2
T
r 0
r 0
z 1
z2
0 1
e1
~ N ,
e2
0 1
r 0
r 0
y is observed
y is missing
現実のモデルは、
f ( y | x, r 0)
1
(
y T x
)
Tx
y T x
T
(
)/
(
x
)
1 2
1 2
E( y | x, r 0) T x ( T x)
T
Tx
y
x
P(r 0 | x, y)
2
2
1
1
Rosenbaum の log odd ratio
(r 0 | y) (r 0)
log
(r 0) (r 0 | y)
const
尤度解析
全尤度関数は
L ( , , , ) n log
n
1
2
log (ui )
ui
T
2
(
y
x
)
i
i
2
T
log
(
xi ),
i n1
1
1 2
T xi
i 1
N
i 1
ここで
n
1 2
yi T xi
ρプロファイル尤度
L* ( ) max L( , , , )
, , |
を考えよう
L * (0) 0 ,
L * (0) 0
yi ˆ T xi 3
L * (0) K1 (
)
ˆ
i 1
n
yi ˆ T xi 4
L * (0) K2 (
) 3
ˆ
i 1
n
Coventry職業会計検査院データ
y 収入,
x ( 1, 性別, 年齢, 年齢 年齢)
N = 1435人, n = 1323 人
2標本比較
モデル
y sign (r) e1
r e2
r 0
z 1
r 0
z 2
y1 ,...,yn1
z 1 (r 0)
yn11 ,...,yN
z 2 (r 0)
1
ˆ
( y1 y2 )
2
(ˆ)
2
2
2
ˆ
1
( N 2 )
var ( )
N
2
対数尤度は
( yi )2 n
yi
N log
log (
)
2
2
2
i 1
i 1
1
n
( yi )2 N
yi
log (
)
2
2
i n1
i n1
1 2
N
2
ˆ
ˆ
()
ˆ ( 3)
1- 2
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N 211(男性)
処理群(高レベルの騒音に曝露) n1 67
対照群(年齢、職場は同じ) n2 144
各群において、 3kHzまでの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均
対照群での標本平均
合併標本標準偏差
y1 3.893
y2 3.710
s 0.351
t-統計量 t 3.52
(自由度
) 209
しかし、2つの群はランダム化されていない
~
3
t( ) 3.52 5.39 ( )
~
t ( ) z0.05 1.96 if 0.29
結論は容易に決められなくなる。
Copas-Eguchiモデル
割りつけがランダムに行われていないときの
状況をモデル化
観測の状態
Z
f Z z ,
結果変量
Y
Y | z ~ fY y, z ?
ランダム効果
T
fT t
対象者の割りつけ方が無視できる(ランダムに行
われている)
T
Z or fTZ (t, z) fT (t) fZ ( z, )
無視できないときのモデル
gTZ t, z fT t f Z z, exp iui t vz,
i 1
0 ,
i 1
2
i
z を z 番目の群における処理の効果(treatment
effect)を表すパラメータとして
fY|T ,Z y | t, z fY|T y | t z と仮定すると
gY|Z y | z ET|Z fY|T y | t z
fY y | z 1 iui y, z vz, 1
i
但し
fY y, : fY |T y | t fT t dt
ui y, : ui t fY |T y | t fT t dt fY y,
0 (ランダム化デザイン)
fY|Z y | z・・・これが
fY y, z
fY y, z
の意味
以後、
は既知のパラメトリックな分布族と
,
し、 fY yは(統計的推測には)用いない
fT , fY|T
(割りつけが無視できないときのモデルを導出する
ために用いた)
以後、簡単のため
はスカラーとする
t ,
選択バイアスの局所近似
各群への割りつけが無視できないときに、それを
無視して得られる最尤推定量と、 Y, Z の実際の
同時分布が fYZのチューブ近傍に属するとして得
られる最尤推定量の差をみる
Y, Z の実際の同時分布
gYZ y, z fY y, z f Z z, 1 iui y, z vz,
i
~
z の最尤推定量 z
0 としたときの z の最尤推定量を ˆz とすると
~
z ˆz Iˆ 1 z
z
但し
I は に関するFisher情報量
z : i i ˆz vz,
i : ui y, fY y, dy
i
f Z z, は飽和モデルとして f Z z, nz N
(N :全標本数、nz :群 zでの観測標本数)
2 個の群にわたる標準化2乗バイアスの和
2
ˆ
z z
z 1
~
2
VarA ˆz n1n2 N 2
但し
2 : EVarloggZ|T z1 | t gZ|T z2 | t | z1 z2
2 N 2 n1n2
は t と z の従属性の(ある種の)大きさを量る
ことにより、各群への割りつけがどのくらい選択
的かを表す
反事実結果変数によるモデル化
Y r : r 番目の群に割りつけられたとしたときの
結果変数 ~ fY y,r r 1,2
( Y 1 ,Y 2はどれか1つしか観測されない)
Z :観測の状態(どの群に割りつけられるかを表す)
Z r のとき、 Y Y r ( Y は結果変数)
対象者の割りつけ方が無視できる
Y ,Y Z
f y, z f y, f z, , r 1,2
1
Y r Z
2
Y
r
Z
無視できないときのモデル
gY r Z y, z fY y,r f Z z, exp r irui y,r vz,
i 1
fY y,r f Z z, 1 r irui y,r vz,
i 1
gY |Z y | z gY z |Z y | z より
gY |Z y | z fY y, z 1 z izui y, z vz, 2
i 1
※ z , iz が
z に依存していることに注意
選択バイアスの局所近似
~
1
ˆ
z z z I z z
2個の群にわたる標準化2乗バイアスの和
2
ˆ
z z
z 1
~
2
VarA ˆz n1n2 N 2 n212 n122
2標本問題
1 1 1
,
2 1 1
に関する標準化2乗バイアス
モデル(1)では
~ ˆT
-1 ˆ ~
VarA ˆ n1n2 N 2
モデル(2)では
~ ˆT
-1 ˆ ~
VarA ˆ n1n2 N 2 n212 n122
仮説検定への応用
仮説 H0 : 0
検定統計量
12
ˆ
ˆ
ˆ
( 0 と仮定して)
t Var
12
~ ~
(実際には)
ˆ
t Var
モデル(1)では
12
ˆ
t t n1n2 N bias
~
モデル(2)では
n n N n
~
t t ˆ
1 2
2
2 1
n ( bias)
2
1 2
| t ˆ | z で統計的に有意のとき
(但し、 z は標準正規分布の両側 % 点)
を bias | t ˆ | z となるような とすると
が小
選択バイアスがわずかであっても
~
( t の方では)有意でなくなる
可能性あり
が大
実質的な大きさの選択バイアス
がないと結論は覆らない
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N 211(男性)
処理群(高レベルの騒音に曝露) n1 67
対照群(年齢、職場は同じ) n2 144
各群において、 3kHzまでの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均 y1 3.893
対照群での標本平均 y2 3.710
s 0.351
合併標本標準偏差
高度に有意
t 統計量 t 3.52
(自由度 209 )
しかし、2つの群はランダム化されていない
z5 1.96 (両側 5% 点)に対し、モデル(1)では
t z5 n1n2 N5
5 0.23 0.30
検出できないくらいわずかな で結論が逆転する
可能性があるので注意が必要
が各群で異なることを許容するモデル(2)では
t z5
n1 n2 N 1 5
1 5 0.28
0.64
但し,2 0 (つまり対照群の方では割りつけは
ランダム)と考える
or の値の小ささの目安
モデル(1)の場合
仮に完全データ tk , zk k 1,, N が得られたと
して、 0 の検定を行ってみる
T, Zの同時分布
gTZ t, z fT t f Z z, exp iui t vz,
i 1
標準化スコア検定統計量
N
1 N iui tk vzk ,
k 1 i 1
(局所漸近的)検出力が1/2となるような は
2 N
このとき
2 N n1n2 ( 0.30 前出の例の場合)
これより小さいor は実際にも無視され
やすいと考える
モデル(2)の場合は、仮に完全データ ykr , zk
r 0
kが得られたとして、
1,, N; r 1,2
の検定を考える
補足
Copas-LiモデルとCopas-Eguchiモデルの関係
(2群比較の場合)
Copas-Liモデル
gY|Z y | z 1 y z 1 2 y z z
(但し z signr , は標準正規分布の密度関数)
Copas-Eguchiモデル(モデル(1))
gY |Z y | z fY y, z 1 i1ui y, z vz,
i 1
Copas-LiモデルはCopas-Eguchiモデルの特別な
場合に相当する:
fY y, z 1 y z z z
2 , 11 1 , i1 0 i 2
u1 y, z y z , vz, z
Prz 1 1 2
(但し、Copas-Liモデルでは Prz 1 は特定
されているのに対し、Copas-Eguchiモデルでは
サンプルから推定する)
Copas-Liモデル
対象者の割りつけ方が無視できないときのモデル
として、 だけで決まる
バイアスも or だけで決まる
~
前出の例の場合 t t ˆ 5.39 3
Coaps-Eguchiモデル
だけでは決まらず、割りつけ方が無視できない
状況を表すモデルとして、よりバラエティーがある
バイアスは or で決まる量によって
不等式で評価される
~
前出の例の場合 t t ˆ 6.76 4
Copas-LiモデルはCopas-Eguchiモデルによる
バイアス評価式(4)で等号が成立する場合になっ
ている
(但し、Copas-Eguchiモデルでは Prz 1 を
n1 N として推定するので、2群の標本数が等し
いときに等号成立)
参考文献
Copas,J.B. and Li,H.G.(1997)
Inference for non-random samples(with discussion).
J.R.Statist.Soc.B,59,55-95
Copas,J. and S.Eguchi(2001)
Local sensitivity approximations for selectivity bias.
J.R.Statist.Soc.B,63,871-895