Transcript lekce8

Analýza přežití
Survival analysis
J. Hendl a P. Soukup
Literatura
•
•
•
•
J. Hendl Přehled statistických metod
Tarling, R. Statistical Modelling
Norusis: Advanced Statistical…
Allison (1984). Event history analysis :regression
for longitudinal event data. SAge (87 s.)
• Klasika v oboru: monografie Lemeshow (1999)
Applied survival analysis, Wiley
• … a mnoho dalších (Klein, Blossfeld,Yamaguchi)
Terminologie
• Survival analysis – zejména medicína,
biostatistika
• Time failure analysis – technické obory
• Event history analysis – sociální vědy
O co jde:
• Cílová sledovaná proměnná je čas nějaké
události nebo přesněji doba do určité
události.
• Dva cíle:
A) popis vývoje událostí (u hromadných
jevů)
B) snaha o nalezení prediktorů nastoupení
událostí
Příklady a oblasti použití
Lékařské vědy
• smrt
• relaps nemoci
• objevení symptomů
• začátek nemoci
Sociologie
• rozvod
• změna zaměstnání
• zanechání kouření
• nezaměstnanost
Pedagogika
• zanechání studia, délka
studia
• začátek studia na vysoké
škole
Ekonomie
• bankrot
• délka stávky
• žádost o pomoc v
nezaměstnanosti
Cenzorování
Rozeznáváme dva druhy cenzorování.
Cenzorování zprava: že některé události nastanou
až po okamžiku skončení sledování jedince studie skončila nebo jedinec přestal být
sledován.
Cenzorování zleva: některé události nastanou před
okamžikem prvního pozorování (resp. měřící
stupnice je nezachytí) – např. tachometr začína
na 20 km/h
Data
• K zachycení délky sledování a statutu cenzorování
používáme značení:
• T = náhodná proměnná, označující délku pozorování do
sledované události nebo do okamžiku cenzorování.
•  = indikátor události (1 = událost nastala, 0 = jedince byl
cenzorován)
• Jestliže sledujeme n jedinců, získáme množinu dvojic
pozorování
• {(tj, j), j = 1,...,n}.
• Dále zachycujeme kovarianty a skupinové proměnné
(strata).
Analýza
Analýza dat u časech událostí představuje
zvláštní problém. Jde o to:
• Sumarizovat numericky data a zobrazit je
graficky.
• Kvantifikovat kvalitu odhadů časů
přežívání.
• Testovat hypotézy.
• Modelovat efekty nezávislých proměnných
Funkce přežití
• Při popisu rozdělení náhodného chování časů
přežití se používá funkce přežití S(t), která
udává pro čas t pravděpodobnost přežití jedince:
• S(t)=P(T≥t).
• Protože se jedná o pravděpodobnost, nabývá
funkce pouze kladných hodnot a má klesající
průběh s tím, jak se pravděpodobnost „přežití“
jedince zmenšuje.
1.0
Funkce přežití - graf
0.0
0.2
0.4
S(t)
0.6
0.8
S(t)
0
5
Medián
10
15
t
20
25
30
Příklad – hodnocení nové terapie
• Provedla se randomizovaná kontrolovaná
klinická studie pro srovnání terapie A a nové
terapie B zhoubného nádoru. V každé skupině
se sledovalo 21 pacientů. Po skončení studie
máme k dispozici data o trvání stavu bez relapsu
v týdnech:
Terapie A (21 pacientů): 1, 1, 2, 2, 3, 4, 4, 5, 5, 8,
8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23
Terapie B (21 pacientů): 6, 6, 6, 6*, 7, 9*, 10, 10*,
11*, 13, 16, 17*, 19*, 20*, 22, 23, 25*, 32*, 32*,
34*, 35*
3 základní strategie SA
• Úmrtnostní tabulky resp. tabulky života
(life tables) (používá zejména demografie)
• Kaplan-Meier – základní popis křivky
přežití (lze i rozdíly ve skupinách)
• Coxova regrese – přidání prediktorů
• Obecně existují i další postupy pro
cenzorovaná data (např. Tobit) ale SPSS
je neumí
2. Kaplan-Mayerův odhad
funkce přežití
Sˆ (t j )  Sˆ (t j 1 )(1  d j / n j )  Sˆ (t j 1 ) pˆ (t j )
kde
pˆ (t j )
=
1 d j / nj
je odhad podmíněné pravděpodobnosti, že pacient, který se dožil
doby tj-1 se dožije i doby tj. V intervalu < tj ; tj+1) je funkce konstantní.
0.000
0.250
0.500
0.750
1.000
Odhad graficky pro příklad
0.0
10.0
20.0
30.0
40.0
Rozptyl a interval spolehlivosti
funkce přežití
j
Var ( Sˆ (t ))  Sˆ (t )
i 1
di
ni (ni  di )
Sˆ(t )  z / 2 SE[Sˆ(t )]; Sˆ(t )  z / 2SE[Sˆ(t )]
3. „Regresní analýza“ – Coxův
přístup
• Musí se zohlednit cenzorování.
• Jinak bychom mohli brát dobu k události
za závisle proměnnou a použít běžnou
mnohásobnou regresní analýzu.
Regresní analýza – Coxův přístup
• Funkce rizika
Funkce rizika h(t) nám udává profil, jak se v čase mění
pravděpodobnost, že dojde k události. Jedná se
v podstatě o podmíněnou pravděpodobnost
P(x<t<y│t>x), že dojde k události v daném časovém
intervalu (x; y) za předpokladu, že k ní nedošlo před
tímto intervalem.
Vztah mezi funkcí rizka a funkcí přežití:
h(t) = -S´(t)/S(t)=[log(S(t)]´
1.0
(t)
0.8
0.7
0.6
0.6
0.5
S(t)
0.8
1.2
0.9
1.4
1.0
Funkce přežití a funkce rizika
0.0
0.2
0.4
0.6
t
S(t)
0.8
1.0
0.0
0.2
0.4
0.6
t
h(t)
0.8
1.0
Coxův přístup
• Cox navrhl modelovat vztah mezi
nezávislými proměnnými a funkcí rizika.
Jeho přístup vychází z modelové rovnice:
h  t , xi   h0  t  exp    j xij 
• Častěji se modelová rovnice vyjadřuje
v logaritmickém tvaru:
log[h  t , xi ]  log[h0  t ]     j xij 
Bázická funkce rizika
• Bázická funkce rizika h0(t) je společná pro všechny
jedince. Tato funkce je pro jedince i modifikovaná
v závislosti na hodnotě nezávislých proměnných x1, x2,
…, xk.
• Předpokládá se, že poměr funkcí rizika nezávisí na t a
pro dva různé jedince x a y má tvar:
•
exp    j ( x j  y j 
Tento předpoklad ale není samozřejmý! Nutno jej ověřit
• Pokud je tento poměr větší než jedna, znamená to pro
jedince x větší riziko události než u jedince y
(interpretace obdobná lineární či logist. regresi).
Aplikace na příklad o porovnání
terapií
• Proměnná „terapie“ je indikátorová proměnná. Nabývá hodnoty 1,
jestliže pacient patří do skupiny pacientů s novou terapií (B). ve
skupině B nabývá hodnoty 0.
• Základní údaje o Coxově regresi mají podobný tvar jako pro
mnohonásobnou lineární regresi:
•
•
Proměnná
Skupina
Koeficient (B) SE
-1.783804
Exp(B)
0.4277692
Průměr
0.1679979
z-hodnota
1.5
p-hodn.
-4.17
•
Věk
3.838822E-02 1.29E-02
1.039
55.07
2.96
0.003119
0.000030
• Celkový test založený na rozdílu -2LL modelu bez proměnných
a modelu s prediktory:
• Zdroj var. St.v.
Chi**2
p-hodn.
• Model
2
24.44
0.000005
• Interpretace exp(b) – tzv. relative risk v případě dichotomií,
interpretace při posunu více než o jednotku?
Odhad bázického rizika
Funkce rizika
3
2,5
h(t)
2
Skupina A
1,5
Skupina B
1
0,5
0
0
5
10
15
Časy událostí
20
25
Příklad ze sociálních věd
• Jak doba, po kterou zůstávaji učitelé na
svém prvním místě, závisí na jiných
proměnných.
• 2327 učitelů ze základních škol, Texas
• Pohlaví, věk, etnikum, typ vzdělání, typ
pedagogického certifikátu.
• Studie trvala od 1986-1991.
• Délka zaměstnání ve dnech.
Příklad ze sociálních věd
• Jak doba, po kterou zůstávají učitelé na
svém prvním místě, závisí na jiných
proměnných.
• 2327 učitelů ze základních škol,
834 opustilo zaměstnání
Výsledky Coxovy regresní analýzy
Hodnota parametru βj
Pohlaví(mužské), X1=1
Věk (>/= 40), X2=1
Etnicita
Afroamerická, X3=1
Hispanská, X4=1
Vzdělání, X5=1
Certifikace, X6=1
Odhad regresního koeficientu SE χ 2
-0,3125
0,13 6,13
-0,3601
0,12 9,33
0,11 151,56
-1,348
-0,4530
0,12 14,55
-0,5212
0,13 17,31
-0,1745
0,08 4,48
Pro celý model měla chi**2 statistika hodnotu 272,6 při 6 st.v.
p-hodnota Poměrové riziko
0,0133
0,732
0,0023
0,698
0,0001
0,260
0,0001
0,0001
0,0342
0,636
0,594
0,840
Výsledky Coxovy regresní analýzy
Hodnota parametru βj
Pohlaví(mužské), X1=1
Věk (>/= 40), X2=1
Etnicita
Afroamerická, X3=1
Hispanská, X4=1
Vzdělání, X5=1
Certifikace, X6=1
Odhad regresního koeficientu SE χ 2
-0,3125
0,13 6,13
-0,3601
0,12 9,33
0,11 151,56
-1,348
-0,4530
0,12 14,55
-0,5212
0,13 17,31
-0,1745
0,08 4,48
p-hodnota Poměrové riziko
0,0133
0,732
0,0023
0,698
0,0001
0,260
0,0001
0,0001
0,0342
Poměrové riziko je 0,732, tedy riziko atrice u muže je 73.2% atrice u ženy,
opačně žena má riziko atrice 1/0,732=1,37 tedy o 37% větší než muž.
0,636
0,594
0,840
Zhodnocení modelu
Pro model existuje celkový test:
Χ2 = -2LL0-(-2LL1)
Založen na rozdílu -2LL modelu bez proměnných a modelu s našimi
proměnnými, rozdělení Χ2, počet stupňů volnosti odpovídá počtu zařazených
proměnných
Poznámka. Tento test lze užít i pro porovnání dvou modelů, které se liší
přítomností jedné či více proměnných (jeden má některé proměnné navíc)
Obdobně lze nalézt analogii R2
R2 = 1- e(-Χ2/n)