Transcript (PPT)

Logistična regresija
Vsebina
• Navadna (bivariatna) logistična regresija
– Logistična funkcija
– Ocenjevanje parametrov
– Interpretacija koeficientov
• Multipla logistična regresija
– Interpretacija koeficientov
– Kodiranje spremenljivk
• Primeri
Navadna linearna regresija
Tabela 1 Starost in sistolični krvni pritisk pri 33 odraslih ženskah
Starost
Pritisk
Starost
Pritisk
Starost
Pritisk
22
23
24
27
28
29
30
32
33
35
40
131
128
116
106
114
123
117
122
99
121
147
41
41
46
47
48
49
49
50
51
51
51
139
171
137
111
115
133
128
183
130
133
144
52
54
56
57
58
59
63
67
71
77
81
128
105
145
141
153
157
155
176
172
178
217
Pritisk (mm Hg)
Pritisk  81,54  1,222  Starost
220
200
180
160
140
120
100
80
20
30
40
50
60
Starost (leta)
Prirejeno po Colton T. Statistics in Medicine. Boston: Little Brown, 1974
70
80
90
Posplošeni linearni modeli
• Družina regresijskih modelov
• Odvisna spremenljivka določa izbiro modela
Izid
Model
Zvezen
Frekvenca
Čas preživetja
Dihotomen
Linearna regresija
Poissonova regresija
Coxov model
Logistična regresija
• Uporaba
– Kontrola motečih spremenljivk
– Izbira modela za napoved tveganja
Logistična regresija
• Modelira povezanost neodvisnih spremenljivk xi, ki so lahko
– dihotomne (da/ne)
– opisne (socialni razred, ... )
– zvezne (starost, ...)
z
– dihotomno (binarno) odvisno spremenljivko (izidom) Y
• Dihotomni izidi so v medicini (tudi v biologiji) zelo pogosti
Primer
Tabela 2 Starost in prisotnost koronarne bolezni (KB)
Starost
KB
Starost
KB
Starost
KB
22
23
24
27
28
30
30
32
33
35
38
0
0
0
0
0
0
0
0
0
1
0
40
41
46
47
48
49
49
50
51
51
52
0
1
0
0
0
1
0
1
0
1
0
54
55
58
60
60
62
65
67
71
77
81
0
1
1
1
0
1
1
1
1
1
1
Kako lahko analiziramo te podatke?
• Lahko primerjamo povprečno starost bolnih in zdravih
– Zdravi:
– Bolni:
38.6 let
58.7 let (p<0.0001)
• Linearna regresija?
Točkovni diagram: podatki iz tabele 2
•Koronarna bolezen
•Da
•Ne
•0
•20
•40
•Starost (leta)
•60
•80
•100
Primer - nadaljevanje
Tabela 3
Prevalenca (%) prisotnosti KB po starostnih skupinah
Bolni
Starostna
skupina
# v skupini
#
%
20 - 29
5
0
0
30 - 39
6
1
17
40 - 49
7
2
29
50 - 59
7
4
57
60 - 69
5
4
80
70 - 79
2
2
100
80 - 89
1
1
100
Točkovni diagram: podatki iz tabele 3
Bolni %
100
80
60
40
20
0
0
1
2
3
4
5
Starostna skupina
6
7
Logistična funkcija (1)
Verjetnost
bolezni
1.0
0.8
e  x
P( y x ) 
1  e  x
0.6
0.4
0.2
0.0
x
Logit transformacija
e x
P( y x ) 
1  e x
{
 P( y x ) 
ln 
    x
1  P ( y x ) 
logit od P(y|x)
Interpretacija koeficienta 
Izid y
Dejavnik x
1
0
1
P ( y  1 x  1)
1  P ( y  1 x  1)
0
P ( y  1 x  0)
1  P ( y  1 x  0)
P
 e α  βx
1-P
Obetib d  e  
Obetib d  e
e 
OR    e 
e
ln( OR )  
Interpretacija koeficienta 
  = povečanje logaritma razmerja obetov, če se x poveča za eno
enoto.

• Bolj pomembno: e je razmerje obetov med dvema skupinama,
ki se v x ločita za 1!
Testiranje ničelne hipoteze
• Test hipoteze, da je  = 0 (Waldov test)
β2
2 
Varianca ( β)
(1 sp)
• Intervalno testiranje
95% CI  e
(  1.96SE )
Primer
Tveganje za koronarno bolezen (KB)
glede na starostno skupino (<55 in 55+ let)
KB
Prisotna
(1)
Odsotna
(0)
55+ (1)
21
6
< 55 (0)
22
51
Starost
Obeti za bolezen med starejšimi
Obeti za bolezen med mlajšimi
Razmerje obetov = 8.1
= 21/6
= 22/51
Primer - nadaljevanje
 P 
ln 
  α  β  Star_sk  -0.841  2.094  Star_sk
 1-P 
Koeficient
SE
Koef/SE
Star_sk
2.094
0.529
3.96
Konstanta
-0.841
0.255
-3.30
OR
 e 2 .094  8.1
Waldov test  3.96 2 pri 1sp
95% CI
p
 e 2 .0941.96 x 0 .529 
 0.05
2.9, 22.9
Ocenjevanje parametrov
• Linearna regresija: vsota kvadratov odklonov
• Logistična regresija: največje verjetje
• Funkcija verjetja
– Gre za verjetnost, da bi naše podatke dobili, če bi veljal privzeti
model. Ta verjetnost je seveda odvisna od parametrov modela (α
in β), ki jih določimo tako, da funkcijo (in s tem verjetnost)
maksimiziramo.
– Verjetnost, da je izid 1, je po modelu enaka  xi , verjetnost, da
je izid 0 pa je 1   xi . To lahko sestavimo v skupno verjetnost
 
 
n
l   π  xi  i 1  π  xi 
y
1 yi
i 1
– V praksi je lažje maksimizirati logaritem verjetja.
n
L  ln l    yi ln π  xi   1  yi  ln 1  π  xi 
i 1
Multipla logistična regresija
• Več kot ena neodvisna spremenljivka
– Neodvisne spremenljivke so lahko dihotomne, opisne, zvezne …
e  1x1   k xk
PY  1 x1 ,, xk  
1  e  1x1   k xk
• Interpretacija i
– Povečanje logaritma obetov, če se xi poveča za eno enoto in so vsi
ostali xj konstantni.

– Bolj zanimivo: e je razmerje obetov med dvema skupinama, ki
se v xi ločita za 1.
Interakcije (spremembe učinka)
• Princip enak kot v linearni regresiji
• Razmerje obetov je seveda odvisno od vrednosti
druge spremenljivke
 P
ln    α  β1 x1  β2 x2  β3 x1  x2
 1-P 
Statistični testi
• Vprašanje
– Ali model z vključeno neodvisno spremenljivko pove več o
odvisni spremenljivki kot model brez te spremenljivke?
• Več testov
– Razmerje verjetij (Likelihood ratio statistic)
– Waldov test
– Zbirni (Score) test
Razmerje verjetij
• Primerjamo dva ugnezdena modela
log(obeti) =  + 1x1 + 2x2 + 3x3 + 4x4
log(obeti) =  + 1x1 + 2x2
(model 1)
(model 2)
• LR statistika (razmerje verjetij)
-2 log (verjetje modela 2 / verjetje modela 1) =
-2 (log (verjetje modela 2) - log (verjetje modela 1))
LR statistika je porazdeljena po porazdelitvi 2 s stopinjami
prostosti, ki so enake številu parametrov v modelu.
Primer
P
Vadi
Kadi
Verjetnost zaustavitve srca
1= ne vadi, 0 = vadi
1= da, 0= ne
 P 
ln 
  α  β1  Vadi  β2  Kadi
 1-P 
 0.7102  1.0047  Vadi  0.7005  Kadi
(SE 0.2614 ) (SE 0.2664 )
OR za pomanjkanj e vadbe  e1.0047  2.73 (kontrolira no na kajenje)
95% CI  e(1.0047 1.96 x 0.2614)  (1.64, 4.56)
Ali je interakcija med kajenjem in vadbo?
 P 
ln 
  α  β1  Vadi  β2  Kadi  β3  Kadi  Vadi
 1-P 
Koeficient pri produktu je 3 = - 0.4604 (SE 0.5332)
Waldov test = 0.75 (1df)
-2log(L) = 342.092 z interakcijo
= 342.836 brez interakcije
 LR statistika = 0.74 (1df), p = 0.39
 ni dokazov za interakcijo
Kodiranje spremenljivk
• Dihotomne spremenljivke: da = 1, ne = 0
• Zvezne spremenljivke
– Imejmo pred očmi: exp(β) pomeni razmerje obetov med
dvema skupinama, ki se v neodvisni spremenljivki ločita za
eno enoto.
– Logistični model je multiplikativen 
OR narašča eksponentno z x
» Če je OR = 2 in x naraste od 2 do 5: OR = 2 x 2 x 2 = 23 = 8
– Preverite, če OR narašča eksponentno z x. Če dvomite,
kategorizirajte (no, ja).
Zvezna spremenljivka?
• Povezanost med SKP > 160 mmHg in telesno težo (TT)
• Naj bo TT zvezna?
– Grupirajmo težo v razrede:
40-60 kg = 0, 60-80 kg = 1, 80-100 kg = 2
TT
primeri
kontrole
OR
0
1
2
20
22
12
40
30
11
1.0
1.5
2.2
– Združljivo s predpostavko o zvezni spremenljivki
– Če ni, uporabi indikatorske spremenljivke (no,ja)
1.52  2.2
Kodiranje spremenljivk (2)
• Opisne spremenljivke (več kategorij):
– Vrsta tobaka: ne=0, siv=1, rjav=2, svetel=3
– Če pustimo tako, smo privzeli, da je OR za svetel tobak
= OR za siv tobak3
– Bolje uporabiti indikatorske spremenljivke
Indikatorske spremenljivke: Vrsta tobaka
Indikatorske spremenljivke
Tobak
Ne
Siv
Rjav
Svetel
D1
D2
D3
0
1
0
0
0
0
1
0
0
0
0
1
• Tako nevtraliziramo umetno hierarhijo med vrednostmi
spremenljivke
• Ničesar ne privzamemo
• V modelu imamo zdaj 3 spremenljivke (3 sp!), ki vsebujejo isto
informacijo kot osnovna spremenljivka.
• OR za vsako vrsto tobaka prilagojen glede na ostale.
Primer: nizka porodna teža
• 189 enot
• Nizka porodna teža
NPT
da = teža < 2500g
ne = teža ≥ 2500g
•
•
•
•
Starost matere v letih
Teža matere
Rasa (1,2,3)
Obiskov zdravnika v zadnjih 3 mesecih
Starost
Teža
Rasa
Obiski
Literatura
Hosmer DW, Lemeshow S. Applied logistic regression.
Wiley & Sons, New York, 2000