Analyza prezivania_nova.

Download Report

Transcript Analyza prezivania_nova.

Analýza prežívania, KaplanMeierove krivky
a Coxova regresia
Iveta Waczulíková
Peter Slezák
Analýza prežívania (survival analysis)
• Študuje rozdelenie doby (času) medzi dvoma
udalosťami (v živote pacienta)
• Vstupná udalosť: narodenie, čas diagnostikovania,
začiatok liečby, expozícia rizikovému faktoru...
• Koncová udalosť: úmrtie, vyliečenie, relaps,
prepustenie z nemocnice...
• Doba prežitia (survival time) je doba medzi oboma
udalosťami, napr:
– čas do úmrtia
– čas do prepuknutia ochorenia / relapsu
– dĺžka hospitalizácie
– čas do vyliečenia ochorenia...
Formát dát – Pr.1a
Dáta časov a možných prognostických faktorov vybraných 7
pacientov s AMV mozgu
vstup: stereotaktická rádiochirurgia
výstup: obliterácia ~ úspech
sledovanie/m obliterácia/m status
embolizácia objem AVM T dávka/Gy
77
77
ÚSPECH
NIE
5,4
18
30
18
ÚSPECH
ÁNO
21,8
16
72
CENZOR
NIE
2,9
17
30
6
ÚSPECH
NIE
1,5
19
60
48
ÚSPECH
NIE
12,1
18
42
CENZOR
ÁNO
2,5
20
12
EXITUS
NIE
7,5
18
Analytik pracuje so „zaslepenou“ databázou
Kódovanie pre „status“ v programe StatsDirect:
* Cenzurovanie = 0 pre nekompletné dáta
Cenzurovanie = 1
pre kompletné dáta (udalosť)
Príklad dát pacientov
7
AVM trvá
sledovaná udalosť úspech (vyliečenie)
iná ako sledovaná udalosť (úmrtie...)
?
6
5
?
4
3
2
audit
Pacient
Zo zdravotných záznamov pacientov
?
1
1990
1995
2000
2005
6/2008
Obdobie štúdie 1990-2008, v tomto období výber pacientov
splňujúcich vstupné kritériá pre zákrok a ich ďalšie sledovanie
Príklad dát pacientov
Pacient
Časové dáta
AVM trvá
úspech
úmrtie...
cenzurovanie
7
6
5
cenzurovanie
4
3
(cenzurovanie)
2
?
chýbajúci údaj
1
0
5
10
15
Roky od zákroku
Údaje do databázy – počiatok času sledovania je vstupná udalosť
(napr. tu zákrok)
Typy cenzurovania
• sprava
– pozorovaný čas prežitia je
kratší než skutočný
– štúdia končí pred
nastatím udalosti
• zľava
• intervalové
Typy cenzurovania
• sprava
• zľava
– Čas do relapsu
zákrok
0
rekurencia
t
3 mes.
vyšetrenie
– Čas do udalosti je kratší (alebo rovný) než čas
pozorovaný t < 3 (t ≤ tobs)
• intervalové
Typy cenzurovania
• sprava
• zľava
• intervalové
– Čas do relapsu
zákrok
0
– 3<t<6
bez ochorenia
3 mes.
1.vyšetrenie
rekurencia
t
6 mes.
2. vyšetrenie
Funkcia prežívania (survival function)
Funkcia prežívania S(t) je pravdepodobnosť prežitia T
dlhšieho, než je čas t.
S(t) = P(T>t)
kde T je čas prežitia.
Ŝ(t)= počet pacientov, ktorí prežili dlhšie než t
celkový počet pacientov v štúdii
Predpoklady odhadu funkcie prežívania
Čas prežitia je nezávislý na procese cenzurovania (je
možné overiť).
Cenzurovaný pacient je reprezentatívny pre skupinu
pacientov v riziku (at risk) v čase cenzurovania – má tie
isté vyhliadky na prežitie, ako pacienti, ktorí ostali v
sledovaní (nie je možné testovať, predpokladáme).
Vyhliadky na prežitie sú rovnaké pre pacientov s včasným
aj neskorým zaradením do sledovania (je možné overiť).
Ak je najdlhšie pozorovanie necenzurované (teda ak
udalosť NASTALA), odhad S je v tomto čase rovný NULE.
Odhady funkcie prežívania
• Kaplan-Meierov odhad - krivku prežitia odhadujeme v
každom časovom okamihu, v ktorom nastala aspoň
jedna udalosť a je konštantná v celom intervale, až po
nasledujúci čas výskytu udalosti
- je najpoužívanejší
- Life tables
K-M estimator
• nekonštantná šírka jednotlivých časových intervalov
Survivor
Survival Plot (PL estim ates)
1,00
0,75
0,50
0,25
0,00
0
50
100
150
200
Times
Funkcia hazardu
Funkciu hazardu môžeme chápať ako pravdepodobnosť
OKAMŽITÉHO hazardu/udalosti v čase t za predpokladu,
že subjekt prežil do času t.
V tomto zmysle je funkcia hazardu h(t) mierou rizika.
Obvykle je do tabuľky a/alebo grafu vynesený hazard
kumulovaný do času t, tzv. kumulatívna funkcia hazardu.
H(t) = -ln (S(t))
Pr.2: Časy prežitia štyroch pacientov sú: 10, 20, 35
a 40 mes. Odhad funkcie prežívania:
1
% Surviving
0,8
0,6
0,4
0,2
0
0
10
20
30
Month
40
50
Pr.3: Časy prežitia štyroch pacientov sú: 10, 15+, 35
a 40 mes. Odhad funkcie prežívania:
1
% Surviving
0,8
0,6
0,4
0,2
0
0
10
20
30
Month
+ je cenzurovaný údaj
40
50
Výstup k Pr.2 a Pr.3:
Pr. 1: Kaplan-Meier survival estimates
Time At risk Dead Censored
10
4
1
0
20
3
1
0
35
2
1
0
40
1
1
0
H = -ln (S)
S
0,75
0,5
0,25
0
SE(S)
0,217
0,25
0,217
*
H
SE(H)
0,288 0,289
0,693 0,5
1,386 0,866
infinity *
Median survival time = 20
•Andersen 95% CI for median survival time = -4,49955 to 44,49955
•Brookmeyer-Crowley 95% CI for median survival time = 10 to 35
Mean survival time (95% CI) = 26,25 (12,7567 to 39,7433)
Pr. 2: Kaplan-Meier survival estimates
Time At risk Dead Censored
10
4
1
0
15
3
0
1
35
2
1
0
40
1
1
0
S
0,75
0,75
0,375
0
SE(S)
0,217
0,217
0,286
*
H
SE(H)
0,288 0,289
0,288 0,289
0,981 0,764
infinity *
Median survival time = 35
•Andersen 95% CI for median survival time = 5,061056 to 64,938944
•Brookmeyer-Crowley 95% CI for median survival time = 10 to 35
Mean survival time (95% CI) = 30,625 (15,982804 to 45,267196)
Survivor
Pr.4 Survival Plot (PL estim ates)
1,00
Median survival time = 79 months
Andersen 95% CI = 37,79 to 120,21 ! 
Brookmeyer-Crowley 95% CI = 42 to 169
0,75
0,50
Nespoľahlivý odhad v druhej časti krivky
Dôvod – málo „events“ (krúžky),
veľa cenzurovaných dát (čiarky)
0,25
0,00
0
50
100
150
200
Times
Pr.5
Survival Plot (PL estimates)
Survivor
1,00
Median survival time = 22 months
Andersen 95% CI = 16,11 to 27,89 
Brookmeyer-Crowley 95% CI = 15 to 26
0,75
0,50
0,25
Dostatočne spoľahlivý odhad v tejto časti krivky
0,00
0
50
100
150
Times
Pr.6: Dve rozdielne krivky prežitia
Tieto dve krivky majú rovnaké % 5-ročného prežitia, ich
interpretácia je však podstatne rozdielna. Výber preferovaného
terapeutického prístupu bude posudzovaný subjektívne.
Pr.7: Dve rozdielne krivky prežitia
Tieto dve krivky nemajú v žiadnom čase rovnaké %
prežitia, ich interpretácia sa líši len vo veľkosti. Voľba
preferovaného terapeutického prístupu bude jednoduchá.
Porovnanie kriviek prežívania
Testovanie významnosti
• Logrank test
• Nulová hypotéza: riziko úmrtia (udalosti) je rovnaké
pre všetky skupiny. P < 0,05 indikuje rozdiel medzi
(najčastejšie dvoma) krivkami prežívania
• Prentice modified Wilcoxon test je citlivejší, ak je
pomer hazardu (HR) vyšší pre včasné fázy času
prežitia. Inak:
• Peto's log-rank test
• Trend test (varianta logrank testu pre viac ako tri
krivky).
Pr.8a: Čas prežitia 30 pacientov s akútnou
myeloidnou leukémiou (AML)
Dva možné prognostické faktory:
Vek = 1
ak Age of the patient  50
Vek = 0
ak Age of the patient < 50
2.
Celularita = 1 ak cellularity of marrow clot
1.
section is 100%
Celularita = 0
ostatné
Pr.8b: Kaplan-Meierov odhad funkcie prežitia a porovnanie
age specific survival curves
Signifikantný rozdiel
podskupiny
Pr.8c: Kaplan-Meierov odhad funkcie prežitia a
porovnanie kriviek podľa celularity
Nesignifikantný rozdiel
Bivariačná vs. multivariačná analýza
• K-M estimator – bivariačná analýza
• Multivariačná analýza – ako súvisí doba
prežívania s viacerými premennými súčasne
(spojitými – napr. vek; kategoriálnymi –
pohlavie (dummy variables)
• Multivariačná analýza → Coxov model
proporcionálneho rizika (Coxova regresia)
Coxov model proporcionálneho rizika
(typ multivariačnej analýzy)
• umožňuje vyšetriť, ako súvisí doba prežitia T s
potenciálnymi prognostickými faktormi (často pri súčasnej
adjustácii na tzv. confounders, viď ďalej)
Faktory môžu byť kategorické alebo spojité premenné.
• Vychádza z predpokladu pomerného hazardu,
teda že podiel funkcií hazardu ľubovoľných dvoch subjektov/skupín
je v čase konštantný a závisí teda len na hodnotách nezávislých
premenných (prediktorov/rizikových/prognostických faktorov,
covariates...) Xi. Ak prognostické faktory nie sú fixné (stále v čase),
ako napr. biochemické merania, klesajúci efekt lieku, faktory
životného štýlu apod. treba použiť rozšírený Coxov regresný model
pre časovo závislé premenné.
• Ak sú predpoklady splnené, dáva Coxov model lepšie
odhady prežitia a hazardu, ako Kaplan-Meierova funkcia.
Bivariačná vs. multivariačná analýza
Typy faktorov
A simple statistical mediation model
Confounder - zavádzajúci, mätúci,
zahmlievajúci faktor
• typ súbežne pôsobiaceho faktora
• premenná, ktorá je asociovaná s rizikovým faktorom a je
nezávislým rizikovým faktorom pre meraný výsledný
efekt (koncový ukazovateľ - outcome)
Efekt
Rizikový
faktor
Confounder
diabetes
CHD
hypertenzia
• V multivariačných (multivariable) analýzach je potrebné na
„confounder“ adjustovať model, aby sme získali „očistený“ vplyv
sledovaného rizikového faktora
(často ho ponechávame v modeli, aj keď „nevyjde“ signifikantný)
Faktor potlačujúci efekt (suppressor)
• Typ súbežne pôsobiaceho faktora
• V bivariačnej analýze nezistíme vzťah medzi expozíciou
(napr. rizikovým faktorom) a následkom. Po adjustácii na
supresor sa vplyv expozície prejaví.
Zástupný faktor (surrogate, proxy factor)
• Majú predpovedaciu silu bez priamej biologickej
súvislosti/mechanizmu s následkom (ochorením)
• Socioekonomické, demografické faktory
Faktor v príčinnej postupnosti (intervening
variable/factor)
• Nachádza sa v príčinnej postupnosti od sledovaného rizikového
faktora k výslednému efektu
• Štatisticky neodlíšiteľný od „confoundera“
• Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať
na intervenujúcu premennú, pretože by sme tým potlačili alebo
úplne odstránili vplyv sledovaného rizikového faktora
Faktor modifikujúci účinok (mediating variable,
modifier)
• Vzťah expozície/rizikového faktora k výslednému efektu je
rôzny pre rôzne úrovne modifikujúceho faktora
• Nemôže byť považovaný za „confounder“
Vzájomne korelované faktory
(tzv. problém multikolinearity)
Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale
zväčšujú štandardné chyby prediktorov. Pr: LDL a HDL resp. TChol,
morfometrické údaje navzájom, vyskytujú sa aj v situácii, ak je druhý faktor len
matematický prepočet alebo je to kombinované skóre zahŕňajúce prediktor, ktoré
je už v modeli použitý. Obvykle stačí použiť jeden (najdôležitejší/najvýznamnejší).
Rizikový
faktor
Efekt
Faktor(y) korelujúce s
vybraným rizikovým f.
Časovo-závislé faktory
pri analýzach prežívania je dôležité odlíšiť fixné faktory a faktory
meniace sa v čase sledovania ako napr. fyziologické a biochemické
charakteristiky, tumor grade, peritumoral vascular invasion, klesajúci
efekt lieku, faktory životného štýlu (napr. kumulovaná expozícia pri
fajčení)...
Cox’s proportional hazards model (Cox
regression)
• Vychádza z predpokladu pomerného rizika
(proporcionálny hazard) t.j. podiel funkcií hazardu
medzi skupinami je v čase konštantný.
• Hazard – riziko úmrtia (alebo výskytu vyšetrovanej
udalosti)
• Analógia k viacnásobnej regresii
Regresné koeficienty
Nezávislé (vysvetľujúce)
(parametre)
Základný hazard
premenné
(baseline hazard)
h(t | X1,..., X n )  h0 (t ).e
1 X1 ...n X n
Cox's (proportional hazards) regression model
h1 (t )
B1Z1  B2 Z 2 
e
h0 (t )
• Najčastejší regresný model v analýze prežívania
• Lineárny model pre logaritmus pomeru rizík
Výhody:
• Nie je potrebné špecifikovať počiatočné riziko
• Možnosť testovania vplyvu viacerých nezávislých
premenných (prognostických faktorov) na danú
udalosť sledovanú v čase.
Predpoklady použitia
Coxovho regresného modelu
• pre overenie proporcionality hazardu využívame fakt, že
zodpovedajúce
kumulatívne riziká, -ln(S(t)), musia byť
tiež proporcionálne
• Graficky splnenie predpokladu proporcionality môžeme
overiť pomocou transformácie odhadov funkcie prežitia.
Ak je predpoklad splnený, potom grafy závislostí -ln(ln(S(t))) na ln(t) by pre jednotlivé úrovne nezávislej
premennej X mali odpovedať približne paralelným
priamkam (viď graf na konci – Pr.1d).
• Musia byť overené pre všetky nezávislé premenné Xi
v modeli
Čo znamenajú regresné koeficienty (βj)?
• Ak sa hodnota jednej premennej zmení o jednotku a
súčasne hodnoty ostatných premenných ostanú
nezmenené, potom je hodnota relatívneho rizika:
X ...
h0 (t ) e
 ( X  X 1)

e
 e  HR
 ( X 1) ...
h0 (t ) e
• Príslušný koeficient β je teda prirodzený logaritmus
pomeru rizík ln(HR) (hazard ratio), keď sa hodnota danej
premennej X zväčší o 1 jednotku.
• HR interpretujeme podobne ako RR (risk ratio)
Interpretácia regresných koeficientov
• Odhadnutý pomer hazardu (pomer rizík) väčší než 1
znamená, že nezávislý prediktor je spojený so zvýšeným
hazardom (rizikom) nastatia študovanej udalosti (podľa
definovanej udalosti „riziko“ môže byť pozitívne –
vyliečenie).
• Odhadnutý pomer hazardu menší než 1 znamená, že
nezávislý prediktor je spojený so zníženým hazardom
nastatia študovanej udalosti.
• Odhadnutý pomer hazardu 1, t.j. ak 95%CI zahŕňa
jednotku, znamená to, že nezávislý prediktor
neovplyvňuje hazard.
Interpretácia regresných koeficientov
• Hodnota nezávislej premennej X sa u dvoch pacientov
alebo skupín líši o jednotku:
h(t | X  1)
b
e
h (t | X )
• Ak by X bolo pohlavie x = 0 (muži), x = 1 (ženy) a odhad
parametra β: b = 0,34, potom platí, že eb = 1,40 = HR. To
znamená, že u žien je v každom okamihu riziko
sledovanej udalosti o 40% vyššie ako u mužov.
• Poznámka: treba vždy vzťahovať na použité kódovanie
kategorických premenných a mierku danej premennej
(napr. vek môže byť v rokoch alebo dekádach)!
Príklad výstupnej tabuľky
Na hranici významnosti
Interval spoľahlivosti
zahŕňa jednotku
HR
Komentár je v poznámkach
Vek je významný prognostický faktor
Analýza regresného modelu
Testovanie významnosti
• Waldov test
• Test pomeru vierohodností (Likelihood ratio test)
(druhý je preferovaný, ale často sú rozdiely medzi
nimi malé)
Pripomenutie: Pr.8a: Čas prežitia 30 pacientov
s akútnou myeloidnou leukémiou (AML)
Dva možné prognostické faktory (schématicky):
Vek = 1
ak Age of the patient  50
Vek = 0
ak Age of the patient < 50
2.
Celularita = 1 ak cellularity of marrow clot
1.
section is 100%
Celularita = 0
ostatné
Pr.8c: Comparing the survival curves by Age Groups
after Adjusting Cellularity
Vyšší vek je významný
rizikový faktor!
Celularita nevplýva významne na
prežívanie (95%CI zahŕňa jednotku –
tu však údaj chýba. Nemal by  )
Pr.8d: Comparing the survival curves by Cellularity
Groups after Adjusting Age
Výstup analýzy hazardu je TEN ISTÝ!
Líši sa len grafická stratifikácia
Analýza dát z Pr.1a:
Krivky odhadov proporcie neúspešnej liečby pacientov s
AMV mozgu po zákroku „stereotaktická rádiochirurgia“
s ohľadom na prognostický faktor „predchádzajúca
embolizácia“.
Počet pacientov: 56, max. dĺžka sledovania: 6 rokov
výstup: obliterácia AVM ~ úspech
Dôležitá poznámka! tu sa ako koncová udalosť
nesledovalo úmrtie (death), ale vyliečenie. Preto sa
označenia „ Survival function S“ a „Survival
probability/rate“ vzťahujú na „Pravdepodobnosť
nevyliečenia“. Obdobne kumulatívny hazard H tu nie je
„riziko úmrtia“, ale „šanca vyliečenia“!
Pr.1b: príklad overenia charakteristík zvolených
podskupín („embolizovaní“ a „neembolizovaní“)
Počiatočný objem AVM
Embolizácia_Áno
Embolizácia_Nie
0
5
10
15
20
25
min -[ lower quartile - median - upper quartile ]- max
Počiatočný objem sa v podskupinách líšil, aj keď významne nesúvisel s koncovým
efektom (vyliečenie). Napriek tomu je adjustácia doporučená.
Pr.1c: Coxov model pre „Pravdepodobnosť
nevyliečenia“ (analógia k „survival probability“) po
adjustácii na objem AVM
Survival Probability (individual)
1,00
Embolizácia NIE
Embolizácia ÁNO
0,75
0,50
0,25
0,00
0
2
4
6
Time (years)
Pr.1d: Overenie proporcionality rizika (t.j.
„šancí“) v podskupinách
-log(-log(Survival))
2
Embolizácia NIE
Embolizácia ÁNO
1
0
-1
0,0
0,5
1,0
1,5
2,0
log(Time)
Referencie
1.
2.
3.
4.
5.
Collett: Modelling Survival Data in Medical Research.
Chapman & Hall/CRC, 2003.
Zvárová J., Malý M. a kol.: Statistické metody v
epidemiologii I a II. Praha, Karolinum, 2003.
Katz, M.H.: Multivariable Analysis. A practical Guide for
Clinicans. Cambridge University Press, 2001.
Motulsky H.J., Christopoulos A.: Fitting models to
biological data using linear and nonlinear regression. A
practical guide to curve fitting. GraphPad Software Inc.
2003
Kleinbaum D.G., Klein M.: Survival Analysis; Logistic
Regression
Ďakujeme za pozornosť