Transcript ダウンロード
東京大学医学系研究科
特任助教 倉橋一成
1
モデル:Y = Xβ + e
パラメータを推定値する公式:β-hat = (XTX)-1XTY
◦ hatは「推定値」という意味(山の形の記号)
◦ 最小二乗法
Y-hat = X(XTX)-1XTY
◦ X(XTX)-1XT:ハット行列
e = {1 - X(XTX)-1XT}Y
◦ E(e) = 0
◦ V(e) = eTe/df(e)
残差が説明変数Xの分布に依存する
◦ 残差を標準化する
◦ 説明変数を前もって標準化しておく
2
観測値ベクトル(結果変数ベクトル)
残差
最小二乗法:残差を最小
モデルベクトル(説明変数の線形結合)
モデル平面(説明変数行列が張る空間)
3
plasma
◦ 赤血球沈降速度(ESR)がリウマチ疾患、慢性的感染症、悪性疾患に関連している
か
◦ 2つの血漿蛋白(fibrinogen, globulin)との関連を確認する
womensrole
◦ 女性の社会的役割についての意識調査
◦ 「女性は家庭の切り盛りの注力し、国の切り盛りは男性の委ねておくべきである」に
賛成か反対か
◦ 教育年数と性別が回答に影響するかどうか
polyps
◦ 家族性大腸腺腫症(FAP)治療における非ステロイド性抗炎症薬のプラセボ対照試
験
◦ 中間解析によって有効中止
◦ 12ヶ月の治療後のポリープの数に関心
packpain
◦ 車の運転が椎間板ヘルニア(AHLID)の危険因子であるかどうか
◦ ケースコントロール研究(症例対照研究)
ケース:AHLIDと診断された対象者
コントロール:同じ病院に来院した脊柱に関連しない疾患を持つ患者
◦ 性、年齢でのマッチングデータ
4
2値の結果変数を予測したい
◦ 2値変数に線形回帰をしたら0,1の範囲外の予測値が計算される
結果変数に適当な変数変換を行う
◦ ロジット変換
オッズの対数
log{p/(1-p)}
logit(P) = β0 + β1x1 + …
logit(p)
p
◦ exp(β1)はx1が1単位変化したときのオッズ比
◦ x1が1単位変化すると、y=1となる確率がexp(β1)倍大きくなる
5
マッチングされたケースコントロール研究
モデル:logit(pi) = αi + βx
◦ 各マッチング層で切片が異なるというモデル
αの数はマッチングの数だけ存在する
推定しきれない
◦ αiは推定する必要のないパラメータ(局外パラメータ)
◦ αiで条件付けた条件付き尤度を最大化する
6
一般線形モデル(general linear model; GLM、じーえるえむ)
◦ 5章の分散分析、6章の重回帰は全く同じモデル
◦ lm()関数
一般化線形モデル(generalized linear model; GLIM、ぐりむ)
◦ ロジスティック回帰も「結果変数を変数変換している」点以外は同じ
◦ 他にはポアソン回帰(結果変数:カウント)など
◦ glm()関数
結果変数が「指数型分布族」の回帰モデル
7
1.
誤差分布
◦ 結果変数の期待値が従う分布
重回帰:正規分布
ロジスティック回帰:2項分布
2.
リンク関数
◦ 結果変数の変数変換
重回帰:恒等変換(無変換、identity link)
ロジスティック回帰:ロジット変換
3.
分散関数
◦ 分散と期待値の関係を評価する
◦ 擬似尤度による近似計算によって超過変動(overdispersion)に対処す
る
最尤法でパラメータ推定
デビアンスと尤度比検定でモデル評価と比較
8
9
多重共線性(マルチコ、multi-colinearity)に気を付ける
◦ 説明変数同士の相関が高いと推定値が変になる
◦ あまりに相関の高い変数同士は、同時に説明変数にしない
まずはその分野で妥当だなと思われるモデルを作る
◦ 説明変数は少な目に
モデルの探索
◦ 説明変数を全て入れる
◦ 交互作用項を入れる
◦ 変数選択を行う
ステップワイズ:解釈不能な結果が出ることが多い
leaps()関数:変数の数ごとに最良の変数セットが確認でき、解釈しやすい
結果変数に関連の強い「順番」も吟味しやすい
◦ 機械学習
モデルの説明力をチェック
◦ 連続値:R2乗、分散の説明割合、キャリブレーションプロット
◦ 2値:ROC曲線、AUC
10
11