Jonas Björk Prediktionsmodellering

Download Report

Transcript Jonas Björk Prediktionsmodellering

Utveckling och utvärdering av
prediktionsmodeller
SIR Workshop, Saltsjöbaden, Mars 2011
Jonas Björk
E-post: [email protected]
(Version 2011-03-04)
Min bakgrund inom detta område…
• Ekvationer för att uppskatta njurfunktion (GFR)
Samarbete med bl.a. Anders Grubb, klinisk kemi, Lund, och
Ulf Nyman, Röntgen, Trelleborg sedan 2004
• Uppskatta risken för akut koronart syndrom
(AKS) bland patienter med bröstsmärta
Samarbete med Ulf Ekelund, akutkliniken i Lund, m.fl. sedan 2004
• SBU-projekt kring skattning av njurfunktion
2009 - 2011
Utveckling och utvärdering av
prediktionsmodeller
• Effektskattning vs. prediktionsmodellering
• Vad ska utvärderas?
–
–
–
–
Diskriminering
Kalibrering
Informationsvärde
Prediktionsfel
• Var ska utvärderingen göras?
• Grafisk presentation av uppskattad risk
Effektuppskattning vs. Prediktion
Effektuppskattning (epidemiologi)
Fokus
f (Y )  0  1  X1  2  X 2  3  X 3  ...
Fokus
Prediktion
Effektuppskattning vs. Prediktion (forts.)
• Effektuppskattning
– Lägg in kovariater (störfaktorer) för att undersöka
om sambandet Riskfaktor  Utfall påverkas
• Prediktion
– Lägg in kovariater för att förbättra prediktionen
i viktiga undergrupper. Strävan efter variabelsnål
modell.
Effektuppskattning vs. Prediktion (forts.)
• Effektuppskattning
– Signifikanstesta INTE störfaktorer!
• Prediktion
– Syftet är att bygga en variabelsnål modell
med god prediktiv förmåga
– Kan vara OK att signifikanstesta, frågan är
vad?
Prediktionsmodellering – Några typfall
• Kontinuerligt utfall (ex. linjär regression)
– Ex. -Njurfunktion (GFR)
• Binärt utfall (ex. logistisk regression, Cox regression,
neurala nätverk)
– Klassificering
• Ex.
AKS/Ej AKS
GFR över/under 60 mL/min per 1.73 m2
Hög/Låg risk för komplikation etc.
– Riskuppskattning (sannolikhetsuppskattning)
• Ex.
Risken för AKS, givet EKG och andra kliniska data
Risken för njurskada vid hjärtoperation
Mortalitet bland IVA-patienter etc.
• Ordinala utfall (ordinal regression)
Ordinal regression - Exempel
“Another extension would be to stage chronic kidney
disease (CKD) further, by estimating the probability
of CKD for each of the five stages simultaneously.
Ordinal regression modeling would be a useful
statistical tool for that purpose.”
(Björk et al. 2010)
Ex.
eGFR = 50
GFR-intervall
Sannolikhet
< 15
0,00
15 – 29
0,01
30 – 59
0,74
60 – 89
0,24
≥ 90
0,01
Prediktionsmodellering
Vad ska utvärderas?
• Klassificeringsförmåga (Diskriminering)
– Area under ROC-kurvan
– Sensitivitet (se), specificitet (sp), andelen korrekt klassade
• Uppskattade risker (sannolikheter)
– Jämförelse av obs. och förväntat antal dödsfall (kalibrering)
– Prediktionsfelens storlek
(”informationsvärdet” i riskskattningen)
ROC-kurva
Ex. Klassning av AKS
1
Sensitivity
0,8
Statistical model
0,6
ANN
Expert panel
0,4
Classical ECG criteria
0,2
Visar sant positiva (Se)
vs. falskt positiva (1-Sp)
0
0
0,2
0,4
0,6
0,8
1
1 - Specificity
(Forberg et al. 2009)
Arean under ROC-kurvan
Modellens förmåga att separera friska från sjuka
(Björk , Liber 2011)
När påverkas ROC-arean?
Exempel SAPS 3 i Österrike
Tidigare:
ROC-area = 82%
Nu:
ROC-area =
(Metnitz et al. 2009)
???
Se och Sp kan variera i olika populationer
Ex. Klassning av GFR över/under 60 mL/min/1.73 m2
Sensitiviteten för eGFR-ekvationen MDRD varierar
mellan 82 och 97% beroende på population.
Specificiteten varierar mellan 67 och 93%.
Viktning
Population
weighting
(Björk, Liber 2011)
Population weighting
Prediktionsmodellering
Vad ska utvärderas?
• Klassificeringsförmåga (Diskriminering)
– Area under ROC-kurvan
– Sensitivitet (se), specificitet (sp), andelen korrekt klassade
• Uppskattade risker (sannolikheter)
– Jämförelse av obs. och förväntat antal dödsfall (kalibrering)
– Prediktionsfelens storlek
(informationsvärdet i riskskattningen)
Kalibrering
• Om prediktionsmodellen säger att
risken för en viss profil är 10% så
innebär detta att 1 på 10 med denna
riskprofil verkligen drabbas (dvs. ingen
bias i riskuppskattningarna)
Mått på kalibrering
Hosmer-Lemeshow Goodness-of-fit
• Dela in patienterna i ex. 10 grupper
– C-test Lika stora grupper
– H-test 0-10% risk, 10-20% risk ... 90-100% risk
• Jämför förväntad och observerad
mortalitet i dessa grupper  2-test
Mått på kalibrering
Hosmer-Lemeshow Goodness-of-fit
Exempel - AKS
H-test
Mått på kalibrering
Hosmer-Lemeshow Goodness-of-fit
Exempel - SAPS 3 i Österrike
(Metnitz et al. 2009)
Informationsvärde
Prediktionsfel. Precision.
(Björk, Liber 2011)
Mått på informationsvärdet
Likelihoodkvot
(Björk, Liber 2011)
Mått på prediktionsfelet
Briers score
ft = prediktionen, ot = utfallet
Mått på prediktionsfelet
Briers score - Exempel
(Harrison et al. 2007)
Prediktionsmodellering
Var ska utvärderingen göras?
• Utveckling och test i samma datamaterial
– Prediktionsförmåga överskattas vanligen pga ”överinlärnining”
• Intern validering
– Uppdelning i utv. och test upprepade gånger. Korsvalidering.
– Temporal validering (samma målpopulation, annan tidsperiod)
• Extern validering
– Annan målpopulation (annan typ eller geografiskt åtskild)
Grafisk presentation av riskuppskattning
Exempel - AKS
(Björk et al. Inskickad för publicering)