ダウンロード

Transcript ダウンロード

東京大学医学系研究科
特任助教倉橋一成
1


モデル：Y = Xβ + e
パラメータを推定値する公式：β-hat = (XTX)-1XTY
◦ hatは「推定値」という意味（山の形の記号）
◦ 最小二乗法

Y-hat = X(XTX)-1XTY
◦ X(XTX)-1XT：ハット行列

e = {1 - X(XTX)-1XT}Y
◦ E(e) = 0
◦ V(e) = eTe/df(e)

残差が説明変数Xの分布に依存する
◦ 残差を標準化する
◦ 説明変数を前もって標準化しておく
2
観測値ベクトル（結果変数ベクトル）
残差
最小二乗法：残差を最小
モデルベクトル（説明変数の線形結合）
モデル平面（説明変数行列が張る空間）
3

plasma
◦ 赤血球沈降速度（ESR）がリウマチ疾患、慢性的感染症、悪性疾患に関連している
か
◦ 2つの血漿蛋白（fibrinogen, globulin）との関連を確認する

womensrole
◦ 女性の社会的役割についての意識調査
◦ 「女性は家庭の切り盛りの注力し、国の切り盛りは男性の委ねておくべきである」に
賛成か反対か
◦ 教育年数と性別が回答に影響するかどうか

polyps
◦ 家族性大腸腺腫症（FAP）治療における非ステロイド性抗炎症薬のプラセボ対照試
験
◦ 中間解析によって有効中止
◦ 12ヶ月の治療後のポリープの数に関心

packpain
◦ 車の運転が椎間板ヘルニア（AHLID）の危険因子であるかどうか
◦ ケースコントロール研究（症例対照研究）
 ケース：AHLIDと診断された対象者
 コントロール：同じ病院に来院した脊柱に関連しない疾患を持つ患者
◦ 性、年齢でのマッチングデータ
4

2値の結果変数を予測したい
◦ 2値変数に線形回帰をしたら0,1の範囲外の予測値が計算される

結果変数に適当な変数変換を行う
◦ ロジット変換
 オッズの対数
 log{p/(1-p)}

logit(P) = β0 + β1x1 + …
logit(p)
p
◦ exp(β1)はx1が1単位変化したときのオッズ比
◦ x1が1単位変化すると、y=1となる確率がexp(β1)倍大きくなる
5


マッチングされたケースコントロール研究
モデル：logit(pi) = αi + βx
◦ 各マッチング層で切片が異なるというモデル
 αの数はマッチングの数だけ存在する
 推定しきれない
◦ αiは推定する必要のないパラメータ（局外パラメータ）
◦ αiで条件付けた条件付き尤度を最大化する
6

一般線形モデル（general linear model; GLM、じーえるえむ）
◦ 5章の分散分析、6章の重回帰は全く同じモデル
◦ lm()関数

一般化線形モデル（generalized linear model; GLIM、ぐりむ）
◦ ロジスティック回帰も「結果変数を変数変換している」点以外は同じ
◦ 他にはポアソン回帰（結果変数：カウント）など
◦ glm()関数
結果変数が「指数型分布族」の回帰モデル
7
1.
誤差分布
◦ 結果変数の期待値が従う分布
 重回帰：正規分布
 ロジスティック回帰：2項分布
2.
リンク関数
◦ 結果変数の変数変換
 重回帰：恒等変換（無変換、identity link）
 ロジスティック回帰：ロジット変換
3.
分散関数
◦ 分散と期待値の関係を評価する
◦ 擬似尤度による近似計算によって超過変動（overdispersion）に対処す
る


最尤法でパラメータ推定
デビアンスと尤度比検定でモデル評価と比較
8
9

多重共線性（マルチコ、multi-colinearity）に気を付ける
◦ 説明変数同士の相関が高いと推定値が変になる
◦ あまりに相関の高い変数同士は、同時に説明変数にしない

まずはその分野で妥当だなと思われるモデルを作る
◦ 説明変数は少な目に

モデルの探索
◦ 説明変数を全て入れる
◦ 交互作用項を入れる
◦ 変数選択を行う
 ステップワイズ：解釈不能な結果が出ることが多い
 leaps()関数：変数の数ごとに最良の変数セットが確認でき、解釈しやすい
 結果変数に関連の強い「順番」も吟味しやすい
◦ 機械学習

モデルの説明力をチェック
◦ 連続値：R2乗、分散の説明割合、キャリブレーションプロット
◦ 2値：ROC曲線、AUC
10
11

ダウンロード

Transcript ダウンロード

Directory