Transcript Document

第78回行動計量シンポジウム
1
因果をめぐる統計的アプローチ
日時:2003年1月25日(土)10:00-16:30
於:東京大学教養学部
構造方程式モデルと因果
狩野 裕
(大阪大学 大学院人間学研究科)
2
Agenda
•
•
•
•
回帰分析からパス解析へ
因果と欠測:Rubinの枠組み
Lordのパラドックスへの応用
まとめ
構造方程式モデル(SEM)による因果関係の発見と
確証に関わる問題点の整理と実践へのアドバイス
3
回帰分析からパス解析へ
直接効果と間接効果の評価
4
回帰分析の目的
• 回帰分析の目的は予測と因果構造の解明
– 予測
• (真の)因果の構造とは無関係
• 独立変数の取り込みすぎに注意
– R2ではなく, Cp,AICを重要視
– 因果推論
• 回帰分析は極めて基本的・重要・有用な
統計的道具
• 近年は,予測に重点
5
回帰分析による因果推論(1)
• 要因(原因)の同定
– 原因変数の候補から「真の」原因を同定
• x1,x2,…xp を原因,yを結果としたときに,原因変数
のyへの影響の大きさを評価する
• 他の原因変数が一定であるときに,当該変数の
変化がyへ影響する割合
• 交絡変数のコントロール
6
回帰分析による因果推論(2)
• 因果の方向には言及できない
– 「Xが原因であった」とは言えない
– Xを説明変数に設定したのはあなた!!
• 独立変数間にも因果関係を設定する
パス解析(SEM)がより有用
7
交絡変数とその制御
1
喫煙量
ストレ
ス
b21
2
Cor(喫煙量,肺がん発症率
)
=b21  12
肺がん
発症率
ストレス
喫煙量
b21  12
肺がん
発症率
喫煙量
b21
肺がん
発症率
8
交絡変数と回帰分析
• 分野によって呼称が違う
– 第三変数,剰余変数,二次変数,媒介変数,
共変量
• 回帰分析は交絡変数の制御に利用可能
– 交絡変数を説明変数に加える
• 回帰分析は未分析交絡変数の影響を
受ける
– 観察研究の場合(無作為割付けでない場合)
9
第三変数とは
交絡変数
合流点
交絡変数
中間変数
10
回帰分析による因果推論
中間変数
交絡変数
合流点
直接効果
総合効果
a
a+bc
a
a
a
a
単回帰分析
a+bc
a
a+bc
a
a
≠a
重回帰分析
11
複数個の第三変数
Y
c
直接効果
総合効果
a
a+bc
単回帰分析X
a+bc+de
重回帰分析X,Z1,Z2 a
重回帰分析X,Z2
a+bc
Z1
b
e
Z2
a
X
d
12
回帰分析からパス解析へ
• 単回帰分析と重回帰分析を組み合せると,
直接効果と総合効果を同定することが可能
– 交絡変数の調整ができる
– パス図が真の因果関係を表すという仮定
• そのためには第三変数Zの役割を正確に
掴むことが必要
– 説明変数間の関係も知る必要がある
• 従来の回帰分析よりも(SEMによる)
パス解析が望ましい
13
パス解析で因果を評価できるのか
• 相関と因果
– A:Xが大きい個体はYも大きい(個体間)...予測
– B:Xを大きくするとYも大きくなる(個体内)...因果
– 一般に「A⇒B」とはならない
• 個体内の変化が個体間の変化で近似できる必要性
– エルゴード性?
• 反例:交絡変数
• 因果モデルの評価ができるのは大きなメリット
– 他変数との関係を用いて適合度を算出
• 交絡変数のすべてをモデリングする
– 「A⇒B」を示すための(必要)条件
– 「すべて」を保証することは不可能
1
喫煙量
ストレ
ス
b21
2
肺がん
発症率
14
因果と欠測:Rubinの枠組み
15
Rubinの枠組み(1)
• コントロール群と処理群を比較する
• 例
– P[治癒(Y=1)|投薬なし] vs P[治癒(Y=1)|投薬あり]
– 体重Y|一般的な食事 vs 体重Y|特別な食事
• 記号
– 母集団:P
– 母集団の構成要素(unit):u
– Yx=0(u) vs Yx=1(u)
• X=0: control, X=1: treatment
• Unit-level Causal Effect
16
因果推論の基本的問題
• Unit-level Causal Effect
– 同一患者に「投薬あり」と「投薬なし」の割付け
は不可能
– 一方は必ず欠測
– 因果推論の基本的問題という(e.g., Holland 1986)
(fundamental problem of causal inference)
17
Rubinの枠組み(2)
• Average Causal Effect
– EP[Yx=0] vs EP[Yx=1]
– Pのunit全部に「X=0 と X=1」 を割付ける
– 母因果効果とよんでもよいかも
• 因果推論の基本的問題は依然として存在
– 上記のような割付けは不可能
• 必ず欠測がある
18
データの構造と欠測
被験者番号
1
X  0 y01
X  1 y11
X
0
z
z1
z:共変量


測
欠


m
y0m
y1m
0
zm
m 1  n
y0,m1欠 
測 y0 n
y1,m1  y1n
1
 1
z m1  z n
19
Average Causal Effectの推定
• 推定可能性は欠測のあり方に依存
– 欠測のメカニズム or 割付けのメカニズムが
重要
• 無作為に欠測する場合は推定可能
– MCAR
– X=0,1を無作為に割付けることと同等
• MARの場合の推測はどのようにすればよいか
20
復習:欠測のパターン
• Missing Completely At Random (MCAR)
– どの値が欠測するかは完全にランダムである
• Missing At Random (MAR)
– どの値が欠測するかはデータに依存してもよいが,
欠測した値には依存しない
– 最尤法(FIML)の適用が薦められる
• Non‐ignorable Missing
– どの値が欠測するかが欠測した値にも依存する
– 欠測のメカニズムにモデリングが必要
21
Average Causal Effectの推定
---MCARの場合--• X=0,1を無作為に割付ける(MCAR)
重症度
治癒日数
年齢
治癒日数
年齢
…
患者の
希望
重症度
…
投薬の
有無
患者の
希望
投薬の
有無
22
MARの例
• 単なる治癒率の比較に疑問
– 重症患者が投薬を選択
– 軽症患者は非投薬を選択
1
X:投薬?
Z:重症
度
b21
2
Y:治癒?
MCAR ではなく MAR
23
Average Causal Effectの推定
---MARの場合--• strongly ignorable given z (RosenbaumRubin,1983)
– zが与えられた下では
• Missing Completely At Random
• (無作為に)バランスよく X=0,1 が割付けられている
– X=0,1が,zにのみ依存しYには直接関係しない
• Missing At Random
– 最尤法が有効
Y0 
 
Y
 0
Y1 
  | | X Z
Y1 
X
Z
Xは,Zからのみ直接的な
影響を受ける
⇒MAR ⇒最尤法
最尤法
1  m m 1  n
X  0 y01  y0m y0,m欠
1 
測 y0n
X  1 y11欠測y1m y1,m1  y1n
X
0  0
1  1
z
z1  z m z m1  z n
  y0  h0 (Z) 
Y0 
Y0 
     ~ N2   ; 
,  

Y1  X ,Z Y1  Z
  y1  h1 (Z)  

  y0  h0 (Z) 
(Y0 , Y1 , X , Z) ~ N2   ; 
,  

  y1  h1 (Z)  
 P( X  1 | Z) x P( X  0 | Z)1 x g (Z)
Observedlikelihood
m
 N( y
i 1
n
0i
; h0 (Z), 00)P( X  0 | Zi ) g (Zi )
  N ( y1i ; h1 (Z), 11)P( X  1 | Zi ) g (Zi )
i m1
24
25
SEMとの関係
m
 N( y
i 1
0i
; h0 (Z), 00)P( X  0 | Zi ) g (Zi )
n
  N ( y1i ; h1 (Z), 11)P( X  1 | Zi ) g (Zi )
i m1
以下仮定のもとで解くのがSEM
h0 (Z)  0  a' Z,
h1 (Z)  1  a' Z,
 00   11
P( X  1 | Z)  (b' Z)
g (Z) ~ Normal
多母集団の同時分析も可能
Z1
Y
Z2
…
Zm
X=1,0
26
Rubinの因果推論の要点
• コントロール群と処理(実験)群の比較
– 「コントロール」という概念が必ず必要
– 各群への曝露可能性が必要
• 属性変数は考慮外
• 個人内の比較に基礎をおく
– Unit-level Causal Effect
– Average Causal Effect
• 母集団の全ての構成要素に,全ての水準を
割付けるという仮想的な状況
27
欠測と因果のまとめ
• 割付けと欠測は同値
– MCAR…無作為割付け
– MAR…割付けが第三変数zに影響される
• strongly ignorable given z
– zが与えられた下で無作為割付け
– すべての交絡変数zが観測されている
• 推測方法
– MCAR:zの影響は無視可能
– MAR: 観測データに基づく最尤法
• SEMの役割
– MARの下で,基本的なモデルを提供
Z1
Y
Z2
…
Zm
X=1,0
28
Lord のパラドックスへの応用
Lord(1967) Psych. Bull.
Holland & Rubin (1983)
Wainer (1991) Psych. Bull.
29
状況
• 大学寮の食事が寮生の体重に及ぼす
影響の性差を検討する
• データ
– 入寮時の体重と1年後の体重
– 男女
30
分析
• Statistician 1: not significant
男0女1
体重(1年後)-体重(入寮)
• Statistician 2: significant
男0女1
体重(入寮)
体重(1年後)
31
散布図
1
年
後
の
体
重
男
・
・
女
0
Y  am  X  
Y  a f  X  
入寮時の体重
E[ X ]  60kg
E[ X ]  50kg
32
記述的(予測)解釈
• Statistician 1
– 大学寮において体重の変化の平均に
性差はない
• Statistician 2
– 入寮時に体重が等しい男女において
1年後は男性の方がより重い
– 回帰効果
• 両者ともコントロール群が設定されていない
Statistician 2の解釈
男
1
年
後
の
体
重
・
・
平均への回帰
女
0
入寮時の体重
33
34
記述的解釈の考察
• 回帰効果に強く依存するStat2の解釈は
受容できるか?
– 重い学生は重いまま,軽い学生も軽いまま
• 大学寮の調査の目的は「寮の食事」の
効果・問題の洗い出し
– 結論は寮固有のものか?
– 寮生以外でも同じ結論かも
• コントロール群との比較を考慮する
「因果」の検証が必要
35
Rubinの枠組み
•
•
•
•
•
母集団
処理
コントロール
割付け
データ
当該大学の寮生
寮の食事を摂取(x=1)
一般の食事を摂取(x=0)
全て寮の食事を摂取(x=1)
– 性別…. G=1,2(male or female)
– Y ……... 1年後の体重
– Z ……... 入寮時の体重
36
Rubinの枠組みとStatistician1
• Average Causal Effect
– 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男]
– 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女]
– これらの差 M-F が評価したいもの
• Statistician 1
– EP[Yx=1 -Z|男] vs EP[Yx=1 -Z|女]
– 暗に仮定されていたのは
• Yx=0 = Z
37
Rubinの枠組みとStatistician2
• Average Causal Effect
– 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男]
– 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女]
– これらの差 M-F が評価したいもの
• Statistician 2
– EP[Yx=1 -(a+bZ)|男] vs EP[Yx=1 -(a+bZ)|女]
– 暗に仮定されていたのは
• Yx=0 = a+bZ
38
因果効果
• コントロール群の仮定
– 仮定1: Yx=0 = Z
– 仮定2: Yx=0 = a+bZ
• 因果効果が推定できる
– 仮定1のもとで,大学寮の食事の体重への効果に
ついて性差はない
– 仮定2のもとで,大学寮の食事の体重への効果に
ついての性差は,そうでない食事と比して異なる
• 同一体重の男女が入寮すれば,男性の方がより重くなるが,
その程度(性差)は一般の食事よりも大きい
• 両仮定とも現データからは検証不可能
Statistician 2の解釈
39
男
1
年
後
の
体
重
・
コントロール群
y  a  bz
・
女
0
平均への回帰
入寮時の体重
40
2つの仮定(1)
• 両仮定とも現データからは検証不可能
– 他からの情報,または,納得・了解
実線:平均
破線:個体
青:男性
赤:女性
入寮時
1年後
Yx=0 = Z
入寮時
1年後
Yx=0 = a+bZ
41
2つの仮定(2)
• Yx=0 := a+bZとすることの問題点
– 回帰効果の妥当性
– コントロールの推定が処理群Yx=1のデータを
使って行われている
• aとbは,Yx=1をZの上へ回帰させて計算
入寮時
1年後
42
Lordのパラドックスのまとめ
• 記述的解釈の問題は小さい
– 1:体重の変化量に性差はない
– 2:入寮時にzが同じ場合,男性の方がより高い
• 回帰効果の妥当性
– 記述的解釈の結論で目的を達するのか?
• 寮外の食事との比較が必要なときは因果
効果の検討が必要
43
• 因果効果の評価
– 両分析では,コントロール群に関する仮定が
異なる
• 1:
• 2:
Yx=0 = Z
Yx=0 = a+bZ
– 両仮定ともに不適切
• 現データによる検証は不可能
• 仮定Yx=0 = a+bZについては回帰効果の
妥当性にも依存
44
まとめ
• 因果と予測はまったくの別物
– 研究目的に合わせてどちらが必要かを検討
• 因果:同一個体において,Xを強制的に変化させる.
交絡変数の値は留まっている
• 予測:Xの値の違いは別の個体を意味.交絡変数の値は
異なる
• 交絡変数の統制
– 因果効果の評価は,交絡変数によって致命的な
ダメージを受ける
– 回帰分析が重要な武器だが,パス解析がより有用
45
• 因果の評価は経時データが基本
– 実験は二時点の経時データ
– 横断的データしかとれないことがある
– 横断的データによる因果分析の手法もある
• 交絡変数が全てモデル化されているという強い仮定
• SEMによるモデリングは,調査研究の弱点である
交絡変数の影響を受ける
– モデル構築の段階で,因果仮説を十分に吟味し,
重要な影響を与える変数を分析から落とさない
• データを採る前が大事
• 調査研究は積み重ねることが重要
46
• Rubinの因果
– コントロール群と処理群の比較
– 個人内の比較に基礎
– 各群への曝露可能性が必要
• 属性変数は対象外
• 連続原因変数は対象外
– 欠測データの分析理論(MAR)を援用
参考文献
•
•
•
•
•
•
Bollen, K. A. (1989). Structural Equations with Latent Variables.
Wiley: New York
Bullock, H. E., Harlow, L. L. & Mulaik, S. A. (1994). Causal issues in
structural equation modeling research. Structural Equation Modeling,
1, 253-267
Holland, P. W. (1986). Statistics and causal inference (with
discussion). Journal of the American Statistical Association, 81,
945-970
Holland, P. M. & Rubin, D. B. (1983). On Lord’s Paradox. In
Principles of Modern Psychological Measurement (Wainer & Messick,
Eds.), pp.3-35. Erbaum.
Lord, F. M. (1967). A paradox in the interpretation of group
comparison. Psych. Bull. 68, 304-305.
Mulaik, S. A. & James, L. R. (1995). Objectivity and reasoning in
science and structural equation modeling. In Structural Equation
Modeling: Concepts, Issues, and Applications, (Hoyle, H., Ed.),
pp.118-137. Sage Publications: CA
47
48
•
•
•
•
•
•
•
•
•
Rosenbaum, P. R. & Rubin, D. B. (1983). The central role of the
propensity score in observational studies for causal effects.
Biometrika, 70, 41-55
Wainer, H.(1991). Adjusting for differential base rate: Lord's paradox
again. Psych. Bull. 109, 147-151.
岩崎 学(2002). 不完全データの統計解析.エコノミスト社
狩野裕 (2002). 「構造方程式モデリング,因果推論,そして非正規
性」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理
する – Part II.岩波書店
佐藤俊哉・松山裕 (2002). 「疫学・臨床研究における因果推論」 竹内
啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する –
Part III.岩波書店
盛山和夫 (1986). 社会学における因果推論の問題 --- パスモデル
におけるloopをめぐって.行動計量学,14, 71-78
竹内啓(1986). 因果関係と統計的方法.行動計量学,14, 85-90
豊田秀樹(1998). 共分散構造分析[入門編].朝倉書店
宮川雅巳 (1997). グラフィカルモデリング.朝倉書店
49
おわり