Transcript ダウンロード
東京大学医学系研究科
特任助教 倉橋一成
1
「おしゃれStatistics(仮)」開催中
◦ 月1予定、次回は医学部研究棟でやるかも
統計学の基礎なのでMedRに内容をフィードバック
2
「似ている群」同士を比較する
1.
実験:遺伝子情報が全く同じマウス
ヒトを対象とすることができない
2.
エビデンス
高
ランダム化試験:ランダム割り付けした2群
「新薬の効果が分からない」状況であれば倫理的問題は無い
バイアス:なし
理論的には「未測定の交絡(バイアス)」もバランスよく割り付けられる
3.
制御された試験:割り付けは制御するがランダムではない
バイアス:症状の軽い患者が治療群、重い患者が対照群
4.
5.
観察研究:割り付けを制御してない同時期の2群
既存対照研究:過去の対象者を対照群
バイアス:時代背景に影響される全因子
6.
ケースシリーズ研究:対照群が無い
何の比較・議論もできない
頭の中で対照群を作っている?
低
3
タバコの例
◦ タバコと肺癌の因果関係は観察研究によってしか調査できない
「ランダムにタバコを吸わせる」ことは倫理上出来ない
「ランダムに禁煙させる」ことは出来るが、このような研究はあまり聞かない
未測定の交絡(バイアス)要因が存在する可能性は否定できない
◦ Fisher、Berkson
超1流の統計家
Fisher:ランダム化の生みの親
Berkson:バークソンバイアスの提唱者
タバコと肺癌の因果関係を頑なに信じなかった
未測定の交絡要因があるはずだ!
それは遺伝子ではないか?
タバコを吸う←遺伝子→肺癌
◦ タバコ→肺癌の因果関係は証明されているのか?
例え因果関係でなかったとしてもオッズ比20倍とか出る因子はタバコくらい
4
データ解析の結果「AとBは関連がある」ということが分かった
「関連」と「因果」は違う
◦ 真の状況1:AはBに対して因果効果がある
A
B
◦ 真の状況2:交絡因子Cによって見せかけの関連が生じている
C
(喫煙)
A
B
(飲酒)
(肺癌)
5
多変量回帰
傾向スコア(propencity score)
◦ Are propensity scores really superior to standard multivariable analysis?
http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B7P72-52W3V5B2&_user=10&_coverDate=05%2F16%2F2011&_rdoc=1&_fmt=high&_orig=gateway&_origin=gateway&_so
rt=d&_docanchor=&view=c&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=5d4425d8
0a3e20b79c70783597dfd51f&searchtype=a
「治療群になる確率」をロジスティック回帰で推定する
傾向スコアが流行ってるけど本当に有用なの?
多変量回帰 vs. 傾向スコア
IPW (Inverse Probability weighting)
DR (Doubly Robust)
◦ 傾向スコアの逆数で重み付け
◦ 傾向スコアのモデル化 or 治療効果自体のモデル化のどちらかが正解し
ていればバイアスが十分に調整できる
◦ Rでの推定方法(ブログ)
http://d.hatena.ne.jp/isseing333/20110511/1305124310
どの方法も「未知の交絡要因」は調整できない
◦ 交絡しそうな変数は測定してないとダメ
6
Giuseppe BZ et al. Contemporary Clinical Trials.
Article in Press, Accepted Manuscript
7
8
未知の交絡要因も調整できる!?
◦ 疫学(epidemiology)
http://aje.oxfordjournals.org/content/169/3/273.abstract
◦ 計量経済(econometics)
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.19.1.17
定義
◦ A variable that is related to treatment but neither directly nor indirectly
related to outcome, except through the effect of the treatment itself
◦ 治療には関連しているが、結果には治療を通してでしか直接的にも間
接的にも関連していない変数
治療群Xを予測できる変数Zは、Xを通してでしか結果Yに関連しない(未知の
交絡要因Uも介さない)
計量経済では2段階最小二乗法が使われる
◦ 疫学分野では2値結果変数へ応用する
◦ モデル化はSEM(構造方程式モデル)を利用する
9
2段階モデル
◦ X = α0 + α1 * Z + α2 * C + ε1
◦ Y = β0 + β1 * X + β2 * C + ε2
X:治療、Y:結果、C: (複数の)測定済み交絡要因、Z:操作変数
αi, βi:係数
ε1, ε2:誤差(2変量正規分布を仮定することが多い)
◦ http://cran.r-project.org/doc/contrib/Fox-Companion/appendixsems.pdf
Rではsemパッケージ
◦ 操作変数(instrumental variable, IV)での交絡調整
◦ http://d.hatena.ne.jp/isseing333/20110520/1305878138
10
3章:単純な推測
◦ roomwidth
学生44人に講堂の幅をメートルであて推量させる
同じ部屋で別の69人にフィートであて推量させる
真の部屋の幅は13.1メートル(43.0フィート)
◦ waves
波の力で発電する装置の実験
2つの係留法と曲げ応力の関係
◦ water
イングランドとウェールズ61都市
死亡率とカルシウム濃度(水の硬度)の関連
◦ pistonrings
4台の蒸気式圧縮機の3本の脚の故障数
◦ rearrests
裁判所の種類と再逮捕者数
11
t検定
◦ 2群の平均値が統計的有意差があるかどうか検定
2群の分散(ばらつき)が等しいと仮定(pooled variance、プールした分散)
2群の分散(ばらつき)が等しくないと仮定(ウェルチの検定、Welchの検定)
対応のあるt検定
◦ 同一対象の2回測定値に統計的有意差があるかどうか検定
投薬の前後
検査A vs. 検査B
◦ 2回測定の差がゼロかどうかを検定
ウィルコクソン順位和検定( Wilcoxon Mann-Whitney rank
sum test)
◦ t検定のノンパラメトリック版
ウィルコクソン符号検定
◦ 対応のあるt検定のノンパラメトリック版
12
分割表
◦ カテゴリ変数×カテゴリ変数
一般的にr×c分割表
χ2乗検定
◦ 分割表のどこかに期待値からずれているセルかあるかどうか検定
分割表の残差分析
◦ 期待値からずれているかをセル毎に検定
◦ http://d.hatena.ne.jp/bob3/20110521#p1
マクネマー検定(McNemar検定)
◦ 対応のあるデータの分割表を検定
同一対象に2つの検査
マッチング
13
プログラムへ
14