Y - 京都国際統計会議

Download Report

Transcript Y - 京都国際統計会議

1
統計分析における
「第三の変数」の功罪
成蹊大学理工学部情報科学科
教授 岩崎 学
[email protected]
2
自己紹介
1952年12月14日 静岡県浜松市生まれ
• 学会など
• SASユーザー会 名誉会員
• 統計関連学会連合:副理事長
• 日本統計学会:代議員,前理事長(2期)
• 日本計量生物学会:評議員
• 日本行動計量学会:理事,編集委員
• 応用統計学会:評議員
• 合計:理事28期,評議員(代議員)34期
• 政府機関など
• 消費者庁消費者委員会:専門委員
• 医薬品医療機器総合機構:専門委員
• 文部科学省,総務省,厚生労働省などの各種委員
3
要旨
• 統計的データ解析では因果関係の確立が大きなテーマ
• ビッグデータ解析でも,将来に対する方略・戦略の立案で
は,何をすればどうなるかの正しい知識が必要
• 因果関係では,文字通り「原因変数」と「結果変数」がある
が,それに加え「第三の変数」が重要な役割を果たすこと
が多い
• これらは,無視したり使い方を誤ったりすると結果に偏りを
もたらす
• 本講演では,それら「第三の変数」の正しい使い方につい
て,分かりやすく解説
4
The Sexy Job
• Hal Varian on How the Web Challenges Managers (2009)
• Google’s chief economist
• I keep saying the sexy job in the next ten years will be
statisticians.
• The ability to take data—to be able to understand it, to
process it, to extract value from it, to visualize it, to
communicate it—that’s going to be a hugely important skill
in the next decades, not only at the professional level but
even at the educational level for elementary school kids, for
high school kids, for college kids.
5
さまざまなマスコミで (2013)
6
NHK でも
• 2013年7月3日(水)クローズアップ現代
• 数字のカラクリ・データの真実~統計学ブームのヒミツ~
• 視聴率:10.7%(関東地区)
7
現代思想 (2014年6月号)
特集:ポスト・ビッグデータと統計学の時代
【イントロダクション】
ビッグデータと統計学 / 竹内 啓
【討議】
情報(データ)は人を自由にするか / 西垣 通+ドミニク・チェン
【インパクト】
統計学にとって情報とは何か / 竹村彰通
ビッグデータブームを考える / 水田正弘
ビッグデータは科学を変えたか? / 出口康夫
【インタビュー】
統計学は科学の文法である 水俣から福島まで、なぜ公害は繰り返されるのか / 津田敏秀
【統計学の現在】
統計的因果推論の考え方 / 岩崎 学
統計学・確率論の有効性とその限界 / 小島寛之
統計・実証主義・社会学的想像力 / 太郎丸 博
【データという問題】
ビッグデータの社会哲学的位相 / 大黒岳彦
「非有機的身体」の捕獲 膨脹する所与(データ)と新たな利潤(レント)源泉 / 長原 豊
工学的心身問題 / 西川アサキ+森脇紀彦
【ポスト・ビッグデータ社会のために】
生かさない〈生―政治〉の誕生 ビッグデータと「生存資源」の分配問題 / 柴田邦臣
「ネオ精神医学」を生み出した「トロイの木馬」:DSM アメリカにおける父殺しと科学への倒錯 / 樫村
愛子
ビッグデータとビッグソサエティ / 和田伸一郎
8
日経産業新聞
(2014. 6.10)
• 統計解析最前線
• ビジネスの場で生かす統
計解析
• 欧米で当たり前の統計解析
がなぜ日本企業で遅れてい
るのか
• 統計解析を企業利益につな
げる人材の登用・育成がカ
ギ
• データが「集まる」時代こそ
より質の高い統計解析を
9
統計的データ解析の流れ
10年以上前のスライドだが
• 研究目的の設定
• データ収集法の立案:実験,観察研究,調査
• データの収集(モニタリング)
• データの電子化
• データのチェック(クリーニング),マージ
• データの集計とグラフ化(予備的検討):記述統計
• 統計的推測ないしは予測:推測統計
• 分析結果のプレゼンテーション:文書化,口頭発表
• 意思決定(終了もしくは最初に戻る)
10
PPDAC サイクル
• P : Problem
• P : Plan
• D : Data
• A : Analysis
• C : Conclusion
• CensusAtSchool
11
研究の種類
• 実験研究 (experimental study)
• 処置効果の評価を意図.実験条件の設定(無作為化など)が研究者自
らの手でできる
• 観察研究 (observational study)
• 処置効果の評価を意図.観察条件の設定(無作為化など)が研究者自
らの手でできない
• 調査 (survey)
• 必ずしも処置効果の評価を意図しない.
• 前向き研究 (prospective study)
• 条件を設定し,時間を追って観測.コホート研究
• 後ろ向き研究 (retrospective study)
• 現在の状態から過去にさかのぼって調査.ケース・コントロール研究
12
因果関係の確立
• Effect of Cause or Cause of Effect
• 統計学で主に扱うのは Effect of Cause
• ある処置 (treatment) に効果 (effect) があるか,あるとしたら
どの程度か.
• 新規開発医薬品,ICTを使った新しい教育方法,新規の販売促進戦略,
ある種の公共政策
• 一方で,Cause of Effect の探索も,実用上重要
• ある病気の原因は何か.どうやれば製品が売れるか.どうすれば学生
の学力は上がるか.
• 原因候補が特定できても,その次の段階として Effect of Cause の評価
が必要
13
因果推論での登場物
• 目的:ある処置 (treatment) T の効果を,対照 (control) C と
の比較において評価
• 「比較」は絶対に必要
• 「薬を飲んだら病気が治った」,「WEBのデザインを変えたらページ
ビューが増えた」だけでは不足
• 第一の変数:処置の割り付け変数:Z = 1 (T), = 0 (C)
• 第二の変数:結果変数:Y = 1 (成功),= 0 (失敗),あるいは
連続量
• 第三の変数:(観測される)共変量:X (個体を特徴づけるもろ
もろの値で観測されるもの,通常は多数)
• 第四の変数:(観測されない)共変量:U (観測されないあらゆ
る要因)
14
回帰モデル
• 単回帰モデル:y = a + bx + e
• y = ax + b + e ではない
• y = my + b(x – mx) + e
• y : 目的変数,x : 説明変数,e : 誤差項
• a : 定数項(通常は意味なし),b : 回帰係数
• my : y の平均,mx : x の平均
• 仮定:e は x とは独立に N(0, s2) に従う
• 重回帰モデル:y = b0 + b1x1 +    + bpxp + e
• y = my + b1(x1 – m1) +    + bp(xp – mp) + e
• y = b0 + b1x + b2x2    + bpxp + e
• y : 目的変数, x1, . . . , xp : 説明変数,e : 誤差項
• b0 : 定数項,b1, . . . , bp : (偏)回帰係数
• 仮定:e は x1, . . . , xp とは独立に N(0, s2) に従う
15
単回帰式 (y = a + bx) の性質
• 回帰直線は楕円の長軸ではない
• E[y | x] = a + bx : x を与えたときの
y の条件付き期待値
• x を定めたとき,対応する y は (a + bx) を
中心にばらつく
• a : 定数項(通常は意味なし)
• b : x を1単位増加させたときの y の(平均的な)増分
• b の推定値 = Cov[x, y] / V[x]
• V[x] = V[y] のときは b = ρ (= R[x, y],相関係数)
• y から x への回帰式: x = c + dy
• V[x] = V[y] のときは b = 1/ρ
• x が2値 (0 or 1) のときは b は各群の平均値の差
16
重回帰式 (y = b0 + b1x1 + b2x2) の性質
• E[y | x1, x2] = b0 + b1x1 + b2x2 : x1, x2 を与えたときの y の条
件付き期待値
• b1 の解釈1: x2 の値を固定した上で,x1 を1単位増加させたと
きの y の(平均的な)増分
• b1 の解釈2: x2 によって y のばらつきの説明をした残りの部
分(y と x2 との単回帰式の残差)に対し,x1 を1単位増加させ
たときの y の(平均的な)増分
• 【重要】 b1 の解釈は,R[x1, x2] = 0 であれば x2 と無関係に
できるが, R[x1, x2]  0 のときは,x2 に依存する
• R[x1, x2] = 0 であれば,単回帰式 y = a + bx と重回帰式 y = b0 + b1x1
+ b2x2 において,b = b1 となる
• b1 は x2 に依存するので, x2 として何をとるかが重要であり,
b1 の解釈をむやみに拡大してはならない
17
回帰係数の値の推移
• r1 = R[x1, y] = 0.5,
r2 = R[x2, y] = 0.2
と固定し,r = R[x1, x2] を
変化させたときの,偏回
帰係数 b1,b2 の動き
• r1 = R[x1, y] = 0.5,
r2 = R[x2, y] = 0
と固定し,r = R[x1, x2] を
変化させたときの,偏回
帰係数 b1,b2 の動き
18
回帰係数の計算式
• (x1, x2, y) の相関行列
x1
x2
y
x1  1

x2  r
y  r1
r
1
r2
r1 

r2 
1 
• b1, b2 の計算式(各分散は1に基準化)
r1  rr2
r2  rr1
b1 
, b2 
2
1 r
1  r2
• 説明変数間の相関 r が大きいと分母が小さくなって回帰係数
が大きくなる.
• 相関 r が大きいと,r1 > 0 であっても,分子が負になることが
ある
19
添加物と走行距離の例 – 1
• 自動車のオイルにある添加物を入れること
•
•
•
•
により自動車の燃費(ガソリン1リットルあ
たりの走行距離)に差が出るかどうかを,
添加物無では5台,添加物有では6台の自
動車について,各走行距離を計測した.
この添加物を加えることにより燃費が異な
るかどうかを有意水準5%で両側検定せよ.
原因(処置):添加物の有無 (Z = 0, 1)
結果(効果):走行距離 (Y)
検定結果(2標本 t 検定):t = – 0.117 (P =
0.909)
添加物無 添加物有
ID
Y(0)
Y(1)
1
17.4
18.2
2
15.7
16.2
3
14.2
16.4
4
13.9
14.0
5
10.3
11.6
6
10.6
20
添加物と走行距離の例 – 2
• 原因(処置):添加物の有無 (Z = 0, 1)
• 結果(効果):走行距離 (Y)
• 共変量:自動車の総排気量(リットル)(X)
ID
1
2
3
4
5
6
平均
標準偏差
添加物無
X(0)
Y(0)
1.3
17.4
1.5
15.7
1.5
14.2
1.8
13.9
2.0
10.3
1.620
0.277
14.300
2.633
添加物有
X(1)
Y(1)
1.5
18.2
1.5
16.2
1.8
16.4
1.8
14.0
2.0
11.6
2.2
10.6
1.800 14.500
0.276
2.969
21
添加物と走行距離の例 – 3
• 共分散分析 (ANCOVA)
• モデル式:Y =
a+dZ+gX+e
• 効果量 (d) の推定値:d = 1.901 (P = 0.032)
回帰統計
重相関 R
重決定 R2
補正 R2
標準誤差
観測数
0.925
0.856
0.819
1.140
11
分散分析表
回帰
残差
合計
自由度
2
8
10
変動
61.519
10.390
71.909
分散
30.759
1.299
分散比
23.684
切片
Z
X
係数
29.605
1.901
-9.448
標準誤差
2.283
0.733
1.374
t
12.965
2.593
-6.876
P-値
0.000
0.032
0.000
有意 F
0.000
下限 95% 上限 95%
24.340
34.871
0.210
3.591
-12.616
-6.279
22
添加物と走行距離の例 – 4
• 共変量 (X) の値でマッチング:X の値が同じもののみをピック
アップ
• 共変量の偏りを排除:比較可能性を高める
• データ数が減少しているので統計的な有意性はないが,平均
値の差に偏りはない
ID
1
2
3
4
5
6
平均
標準偏差
添加物無
X(0)
Y(0)
1.3
17.4
1.5
15.7
1.5
14.2
1.8
13.9
2.0
10.3
1.62
0.277
14.30
2.633
添加物有
X(1)
Y(1)
1.5
18.2
1.5
16.2
1.8
16.4
1.8
14.0
2.0
11.6
2.2
10.6
1.80
14.50
0.276
2.969
平均の差
t値
P値
0.20
-0.117
0.909
ID
1
2
3
4
添加物無
X(0)
1.5
1.5
1.8
2.0
平均
標準偏差
1.7
0.245
Y(0)
15.7
14.2
13.9
10.3
添加物有
X(1)
1.5
1.5
1.8
2
Y(1)
18.2
16.2
16.4
11.6
13.525
2.290
1.7
0.245
15.600
2.814
平均の差
t値
P値
2.075
-1.144
0.296
23
米国 SAT スコアの例 – 1
• 米国の SAT スコアは1980年に底を打ち,その後上昇に転じた
とされる.
• 下の表は,人種別に見た平均 SAT スコアの推移
• White の平均は8点増加し,Non-Whiteの平均の増加は15点
であるが,全体での平均の増加は7点
人種
White
Non-White
全体
平均スコア
1980 1984
924 932
802 817
890 897
差
8
15
7
cf. Wainer (1986)
24
米国 SAT スコアの例 – 2
• White の平均が 8 点増加,Non-White の平均が 15 点増加
• 全体の平均の増加は 7 点
• 足りない情報:受験者比率
924×0.722 + 802×0.278 = 890
932×0.695 + 817×0.305 = 897
• 第三の変数「受験者比率」の情報がないと解釈を誤る可能性
人種
White
Non-White
全体
平均スコア
1980 1984
924 932
802 817
890 897
差
8
15
7
人種
White
Non-White
全体
受験者比率
1980 1984 差
72.2 69.5 -2.7
27.8 30.5 2.7
100 100
0
25
喫煙の死亡率の例
• 喫煙習慣と死亡率につ
いて,カナダ,英国,米
国の3つの調査研究が
行われ,各喫煙習慣ご
との死亡率(1000人
年)が報告された
• 調査時の平均年齢(第
三の変数)を考慮しな
いと結論を誤る.
• 調整は,年齢階級ごと
に求めた死亡率を融合
cf. Cochran (1968)
Death rate
Smoking group
Non-smokers
Cigarettes only
Cigars, Pipes
Mean age
Smoking group
Non-smokers
Cigarettes only
Cigars, Pipes
Adjusted D. R.
Smoking group
Non-smokers
Cigarettes only
Cigars, Pipes
Canadian
20.2
20.5
35.5
Study
British
11.3
14.1
20.7
U. S.
13.5
13.5
17.4
Canadian
54.9
50.5
65.9
Study
British
49.1
49.8
55.7
U. S.
57.0
53.2
59.7
Canadian
20.2
29.5
19.8
Study
British
11.3
14.8
11.0
U. S.
13.5
21.2
13.7
26
さらに簡単な数値例
• 単回帰式:
y = 1.6 + 0.5429 x
• ダミー変数 d を入れた回帰式:
y = 4 + 6d – x
• ダミー変数 d の導入により,各
群での x と y との関係が正しく
判断される
• 添加物の例では,x の導入により d
と y との関係が明らかになった
27
5つのべからず集
• 第三の変数を用いた調整法にはいくつかのものがある
• マッチング,層別,共分散分析,...
• どうすればいいのか,に対する確固たる解答はないが,しては
いけないことはある.
1.モデルを想定せず,やみくもに調整してはいけない
2.処置に影響された変数を用いて調整してはいけない
3.モデルのチェックなしに外挿してはいけない
4.調査対象とは異なる対象に関する変数で調整してはいけない
5.調整したからといってその結果が常に妥当であると考えては
いけない
cf. Wainer (1989), Rosenbaum (1984)
28
クロスオーバー試験における層別
• 対照食品摂取後の値の高低(高群,低群)で2群に層別し,
{効果量」=「被験食品での結果」-「対照食品での結果」
を計算
• その結果,高群での効果量に有意な差を認めた
• 「2.処置に影響された変数を用いて調整してはいけない」に
抵触
第1期
第2期
A グループ
被験食品
対照食品
B グループ
対照食品
被験食品
無作為化
被験者
29
出生時体重と成人での血圧
• 出生時体重 (BW) が低いほど成人血圧 (BP) が高い(Barker
仮説): BP = const + b1BW において b1 < 0
• BP だけでなく,コレステロール値,心血管系イベントの発生率など
• 成人での BMI を説明変数に加える
BP = const + b1BW + b2BMI
• b1 の絶対値が大きくなる.
• r1 = R[BW, BP] = – 0.05
• r2 = R[BW, BMI] = 0.15
• 0  r = R[BMI, BP] < 1
「2.処置に影響された変数を
用いて調整してはいけない」
に抵触 cf. Tan, et al. (2005)
30
性差別?– 1
• 男性 (M) と女性 (F) で,賃金格差があるか
• 共変量 x = job performance
F
M
M
F
31
性差別?– 2
• 同じ x (job performance)
M
で見ると(実線),M のほ
うが F よりも大きい
• 同じ成果であったとき,男性
のほうが給料が高い
• 女性に不利な差別
• 同じ y (salary) で見ると
(破線),M のほうが F よ
りも大きい
• 同じ給料をもらっている人で
比較すると,男性のほうが
成果が大きい
• 男性に不利な差別
F
cf. Conway and Roberts (1983)
32
最後に:統計家はこう考える
• 因果関係の確立には実験研究が gold standard
• 実験研究が必ずしも可能とは限らない
• 観察研究による因果推論では,実験研究に近づける努力
• 後ろ向き研究しかできないことも多い
• 稀な事象の場合には,ほとんど唯一の方法論
• 現在そこにあるデータについては
• データの素性を明確に
• データ取得の 5W1H
• Who, What, When, Where, Why + How
• 統計では特に How が重要
• Whom と How Much を加えて 6W2H (Wikipedia より)
33
統計検定 (2014)
• 2014年11月30日(日)実施
• 1級,2級,3級,4級
• 専門統計調査士,統計調査士
• 2級,3級,4級は年2回実施
• 学習マテリアルと問題集
34
参考文献(和書)
• 甘利俊一・狩野 裕・佐藤俊哉・松山 裕・竹内 啓・石黒真木
夫 (2002) 多変量解析の展開 隠れた構造と因果を推理する.
岩波書店.
• Pearl, J.(著)黒木 学(訳) (2009) 統計的因果推論 モデル・
推論・推測.共立出版.
• 星野崇宏 (2009) 調査観察データの統計科学 因果推論・選択
バイアス・データ融合.岩波書店.
• 宮川雅已 (2004) 統計的因果推論ー回帰分析の新しい枠組
みー.朝倉書店.
35
参考文献(洋書 – 1)
• Berzuini, C., Dawid, P. and Bernardinelli, L. (eds.) (2012)
Causality. Statistical Perspectives and Applications. John
Wiley & Sons.
• Faries, D. E., Leon, A. C., Haro, J. M. and Obenchain, R.
L. (Eds.) (2010) Analysis of Observational Health Care
Data Using SAS. SAS Institute.
• Morgan, S. L. (ed) (2013) Handbook of Causal Analysis
for Social Research. Springer.
• Morgan, S. L. and Winship, C. (2007) Counterfactuals
and Causal Inference. Methods and Principles for Social
Research. Cambridge University Press.
36
参考文献(洋書 – 2)
• Rosenbaum, P. R. (2002) Observational Studies, Second
•
•
•
•
Edition. Springer.
Rosenbaum, P. R. (2010) Design of Observational Studies.
Springer.
Rothman, K. J., Greenland, S. and Lash, T. (2008) Modern
Epidemiology, Third Edition. Wolters Kluwer.
Rubin, D. B. (2006) Matched Sampling for Causal Effects.
Cambridge University Press.
Shadish, W. R., Cook, T. D. and Campbell, D. T. (2002)
Experimental and Quasi-Experimental designs for
Generalized Causal Inference. Houghton Mifflin Company.
and others
37
参考文献(学術論文)
• Cochran, W. G. (1968) The effectiveness of adjustment by subclassification
•
•
•
•
•
in removing bias in observational studies. Biometrics, 24, 295-313.
Conway, D. A. and Roberts, H. V. (1983) Reverse regression, fairness, and
employment discrimination. Journal of Business & Economic Statistics, 1,
75-85.
Rosenbaum, P. R. (1984) The consequences of adjustment for a
concomitant variable that has been affected by the treatment. Journal of the
Royal Statistical Society, Series A, 147, 656-666.
Tu, Y.-K., West, R., Ellison, G. T. H. and Gilthorpe, M. S. (2005) Why
evidence for the fetal origins of adult disease might be a statistical artifact:
the "reversal paradox" for the relation between birth weight and blood
pressure in later life (with discussion). American Journal of Epidemiology,
161, 27-32.
Wainer, H. (1986) Minority contributions to the SAT score turnaround: an
example of Simpson's paradox. Journal of Educational Statistics, 11, 239244.
Wainer, H. (1989) Eelworms, bullet holes, and Geraldine Ferraro: some
problems with statistical adjustment and some solutions (with discussion).
Journal of Educational Statistics, 14, 121-199.
and many others
38
今後の活動予定
講演予定
• 統計関連学会連合大会(2014.9.13-16)
• 於:東京大学(本郷キャンパス)
• 9月13日午後チュートリアル講演「マッチングと統計解析」(3時間)
• 日本計算機統計学会シンポジウム (2014.11.14-15)
• 於:沖縄科学技術大学院大学
• Kyoto International Conference on Modern Statistics
(2014.11.17-18)
• 於:京都国際会館
出版予定
• 岩崎 学 (2014 or 15) 統計的因果推論の基礎(仮題).朝
倉書店