Transcript 2014

2014
マイコースプログラム最終発表会
勝尾 公祐
テーマ
①疫学の基本的な考え方・手法について
学ぶ。
→教科書として「ロスマンの疫学」を使
用
②統計学の理解を深める。
③Rを用いたプログラミングに習熟する。
中間発表会までのまとめ

「ロスマンの疫学」第1章~第11章

基本的な疫学研究の勉強・R実装
◦ コホート研究
◦ ケース・コントロール研究

現実は交絡・交互作用が存在
→モデルに組み込んでみる
◦ 層化による交絡の制御についてR実装
分析疫学の流れ
サンプリング
モデル
母集ああ団
母集団
データ
統計解析処理・解釈
モデルが複雑になれば統計解析処理も複雑になる
→後半のテーマ

後半にやったこと

今回の発表会は
赤枠内の話
「ロスマンの疫学」第12章~終わりまで
◦ 回帰分析
◦ 傾向スコア分析

「概説 確率統計」通読
◦ データの処理・解釈に関する数学的理解

論文を読んでみる
◦ 野菜・果物の摂取量と大腸がんとの関係
回帰分析

「処理」の手法の一つ
ある1つの変数(従属変数)を他の変数(説
明変数)で説明することを考えたとき、その
関係式を求めること。
 「モデル式」を決めて、「最小二乗法」を用
いるのが一般的
 様々なモデル・データの種類に対応

例①交絡を含む場合
例②交互作用を含む場合
例③従属変数が二値変数の場合
回帰分析のR実装例①
交絡を含む場合
「age」と「exposure」によって
「outcome」が変化するとき、
「exposure」の効果を調べたい
 「age」と「exposure」の2つを説明
変数、「outcome」を従属変数として
回帰分析(重回帰分析)
 データに交絡(説明変数同士の相関)
があろうとなかろうと関係ない

回帰分析のR実装例①
交絡を含む場合
例えばこんなデータ(※Rでつくるなら…)
→層化は出来ないが、回帰分析なら出来る
回帰分析のR実装例①
交絡を含む場合
モデル式
outcome = k0+k1*age+k2*exposure
の仮定さえすれば、あとは線形モデルに
よる回帰を行う「lm()」に入れるだけ

曝露の効果が推定できた
回帰分析のR実装例②
交互作用を含む場合

例えばこんなデータ(Rでつくるなら…)
回帰分析のR実装例②
交互作用を含む場合

線形回帰のモデル式に
「age*exposure」の項を入れればよい。
これらを用いれば交互作用について評価出来る
回帰分析のR実装例③
従属変数が二値変数の場合

例えばこんなデータ(Rでつくるなら…)
回帰分析のR実装例③
𝑥
ロジット log 1−𝑥 をとって
線形回帰
ロジスティック回帰
 一般化線形モデルによる回帰を行う
「glm()」をfamily=binomialと指定する。

傾向スコア分析
回帰分析の応用例
 交絡因子を説明変数、曝露を従属変数
としたロジスティック回帰
→交絡因子による影響を定量化できる
→「傾向スコア」
 傾向スコアによる層化orマッチング
→交絡因子の影響を緩和
 「セミパラメトリックモデル」

セミパラメトリックモデル
サンプリング
モデル
母集ああ団
母集団
データ
統計解析処理・解釈


限定的なモデル→限定的な解釈(それで十分な場合)
オーバーフィッティングをうまく回避できる場合がある
傾向スコア分析のR実装例
R付属のデータセット”lalonde”
ある職業訓練(treat)の年収(re78)へ
の効果を調べる
 多くの交絡因子(treatとre78の双方に影
響している)のデータ
(Rでつくるなら…?)


交絡因子
re78
treat
傾向スコア分析のR実装例

傾向スコア算出
◦ treatを交絡因子でロジスティック回帰

傾向スコアによるマッチング
結果…
傾向スコアを出さないときよりも効果が大きい
→バイアスが減少したと考えられる
※treatの効果しか計算出来ない(けどそれで十分)

論文を読んでみた
“Low Intake of Vegetables and Fruits and
Risk of Colorectal Cancer:The Japan
Collaborative Cohort Study”
 J Epidemiol 2014;24(5):353-360


J Epidemiolの中から、適当に新しいもの
を選んでみた
論文の概要
from the Japan Collaborative Cohort Study
for Evaluation of Cancer Risk (JACC Study)
 野菜の摂取量に応じて3つの群に分けて、
大腸がんの発生について調べる
 コックスの比例ハザードモデルに従うと
仮定して、HR(ハザード比)を計算

コックスの比例ハザードモデル




生存時間のデータに適用
時間 t、共変量 x1, x2, x3, · · · xn のときの
ハザード λ(t|x1, · · · , xn) を
λ(t|x1, · · · , xn)
セミパラメトリック
= λ0(t) exp(β1x1 + · · · + βnxn)
とする
部分尤度(尤度の代替)が最大になるよ
うに係数を決定
ハザード自体は計算出来ないが、HR
(ハザード比)は計算出来る
論文の結論
野菜の摂取量の違いによるHRはすべ
てp-value>0.05
→有意差なし


野菜・果物の摂取量との関係を確認す
ることは出来なかった。

大腸がんとは無関係なのかも?
マイコース成果まとめ
テーマ①
「ロスマンの疫学」通読&webの文献
テーマ②
「概説 確率統計」通読&webの文献
テーマ③
テーマ①・②を進める際のRでの実装
①~③により、疫学・統計学が関係する論文を、ネット等
の補足的な知識の利用によって自分で咀嚼して読めるよう
になったといえる(当初の達成目標)。