Transcript PowerPoint

Statistik II
4. Lektion
Logistisk regression
Logistisk regression: Motivation


Generelt setup:
 Dikotom(binær) afhængig variabel
 Kontinuerte og kategoriske forklarende variable (som i
lineær reg.)
Eksempel:
 Afhængig:
Er du en god læser? (Ja/Nej)
 Forklarende:
Antal point i test (0..20)
Point
0 1 2 3
4 5
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Ja’er
5 0 0 3
9 4 14
13
27
24
46
72
98
120
135
136
173
174
142
93
29
Nej’er
2 2 1 2
2 5 2
10
11
9
11
11
14
16
14
21
10
6
4
4
2

Spørgsmål:
 Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’?
How not to do it…

Plot af andel ja’er mod antal point.


Hvorfor ikke bare gøre lidt som vi plejer?
Model:
P ( Svar  Ja )      Point

Dåååårlig ide!!!
Why not to do it…

Plot af andel ja’er mod antal point.

Linjen er fundet ved mindste kvadraters metode
Listen over problemer er lang….

Sandsynlighed og Odds

Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at
Svar = Ja skrives
0  P ( Svar  Ja )  1
P ( Svar  Ja )

Sandsynligheden for at Svar = Nej
P ( Svar  Nej )  1  P ( Svar  Ja )

Odds’et for at Svar = Ja er
Odds ( Svar  Ja ) 
P ( Svar  Ja )
1  P ( Svar  Ja )

P ( Svar  Ja )
P ( Svar  Nej )
0  Odds ( Svar  Ja )  

Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som
nej’er.
Logit

Logit for Svar = Ja :
 P ( Svar  Ja ) 

Logit (Svar  Ja )  ln Odds ( Svar  Ja)   ln 
 1  P ( Svar  Ja ) 
   Logit ( Svar  Ja )  

Bemærk:
 Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt.
 Logit kan tage alle værdier på den reelle akse.
Hen til Logit og tilbage igen…



Antag Y er en binær variabel, dvs. Y=0 eller Y=1.
Antag Logit (Y  1)  
sandsynligheden?
hvad er da Odds’et og
Vi har Logit (Y  1)  ln Odds (Y  1)  dvs.:
Odds (Y  1)  exp  Logit (Y  1)   exp(  )  e

Vi har Odds (Y  1)  P (Y  1) 1  P (Y  1)  omskrives til
P ( Y  1) 


Odds (Y  1)
1  Odds (Y  1)

e

1 e
Bemærk: Når logit vokser, vokser ssh’en.

Odds og odds-ratio

De to betingede odds:
Odds (Y  1 | X  0 ) 

p0
1  p0
Odds-ratio:
Oddsratio (Y  1) 

og Odds (Y  1 | X  1) 
Odds (Y  1 | X  1)
Odds (Y  1 | X  0 )

p 0 (1  p1 )
Odds (Y  1 | X  0 )  Odds (Y  1 | X  1)
Oddsratio (Y  1)  1
1  p1
p1 (1  p 0 )
Hvis X og Y uafhængige har vi
og
p1
Logit og logit-forskelle

De to betingede logits:
 p0
Logit (Y  1 | X  0 )  ln 
 1  p0

 p1
 og Logit (Y  1 | X  1)  ln 
1 p

1



Logit-forskel:

Hvis X og Y uafhængige har vi
 p1
Logit  forskel (Y  1)  ln 
 1  p1
 p0

  ln 

1 p
0



 p 1 (1  p 0 ) 
  ln 


 p (1  p ) 
1 

 0
Logit (Y  1 | X  0 )  Logit (Y  1 | X  1)
og
Logit  forskel (Y  1)  0




Logistisk regression


Antag at Y er en binær afhængig variabel og X er en
kontinuert forklarende variabel.
Da er en logistisk regressionsmodel givet ved
Logit (Y  1 | X  x )      x


Hvad betyder det sandsynligheden?
Udregninger som før giver
P (Y  1 | X  1) 
e
  x
1 e
  x
Logistiske funktion
e
x
1 e
x
e
1 .5  0 .5 x
1 e
1 .5  0 .5 x
Estimation




Lad ˆ og ˆ betegne estimaterne af de sande, men
ukendte parametre  og .
Parametrene  og  estimeres ved maximum-likelihood
metoden:
Vi vælger ˆ og ˆ som de værdier af  og , der gør
data mest ”sandsynlig” (likely).
Vi kalder ˆ og ˆ maximum-likelihood (ML) estimater.
SPSS Output
NB! Bemærk hvordan SPSS koder den afhængige
variabel. SPSS opskriver modellen som Logit(Y=1|…).
I dette tilfælde vil det sige Logit(Ja|…).

Estimerede model:
Logit ( Ja | Score  x )   0 . 402  0 . 189 x

Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare
ja, når antal point stiger.
Logit og Sandsynlighed
Logit ( Ja | x )   0 . 402  0 . 189 x
P ( Ja | x ) 
exp   0 . 402  0 . 189 x 
1  exp   0 . 402  0 . 189 x 
Estimaternes fordeling.


Antag  er den sande værdi og ˆ er et ML estimat.
Hvis vi har indsamlet data nok, så er
stikprøveforselingen af ˆ ca. normalfordelt:

ˆ ~ N  , SE ( ˆ )


2

Normal-fordeling med middelværdi
 og varians (SE( ˆ ))2
Dvs. ˆ i gennemsnit estimerer korrekt (central).
Standard fejlen SE( ˆ ) afhænger af mængden af data.
Konfidensinterval for 

Vi har altså at det sande  er indeholdt i intervallet
[ ˆ  1 . 96 SE ( ˆ ) ; ˆ  1 . 96 SE ( ˆ )]
med 95% sandsynlighed.



Sandsynligheden gælder vel at mærke et endnu
ikke udført eksperiment.
Når data er indsamlet og konfidensintervallet er
udregnet, så inderholder konfidensintervallet enten 
ellers så gør det ikke.
Derfor hedder det et 95% konfidens-interval og ikke et
95% sandsynligheds-interval.
Konfidens-interval for logit-forskel

Et 95% konfidens-interval for logit-forskel β:
[ ˆ  1 . 96 SE ( ˆ ) ; ˆ  1 . 96 SE ( ˆ )]


Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio =
exp(logit-forskel).
Et 95% konfidens-interval for odds-ratio:
[e
ˆ  1 . 96 SE ( ˆ )
;e
ˆ  1 . 96 SE ( ˆ )
]
SPSS Output

Z2


p-værdi
SE
e
95% konf-int. for exp
Estimerede model:
Logit ( Ja | Score  x )   0 . 402  0 . 189 x

95% konfidensintervallet for  er: [1.159 ; 1.260 ]
Signifikanstest

Hypoteser


H0: β = 0
H1: β = 0
(uafhængighed)
(afhængighed)

Teststørrelse: Z  ˆ SE ( ˆ )  (Wald teststør.)

Under H0 gælder: Z 2 ~  2 1

Store værdier af Z2 er ufordelagtige for H0.
2
2
Hypotesetest og Konfidensintervaller

Betragt følgende hypoteser
H0:  = K
H1:  ≠ K

Lad [a,b] være et 95% konfidens-interval for .


Hvis K er udenfor intervallet [a,b], så kan vi afvise H0
på signifikansniveau  = 0.05.

Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på
signifikansniveau  = 0.05.
SPSS Output

Z  ˆ SE ( ˆ )
2


2
 0 . 189 0 . 021   79 . 136
2
Estimerede model:
Logit ( Ja | Score  x )   0 . 402  0 . 189 x

Fortolkning: Da p-værdien er mindre end 0.0005 kan
vi afvise hypotesen om at   0. Dvs. at antal point har
en effekt på selvvurderingen.
Fortolkning: Odds

Odds:
Logit ( Ja | Score  x  1)  ln( Odds ( Ja | Score  x ))

Dvs.
Odds ( Ja | Score  x )  exp( Logit ( Ja | Score  x ))
 exp(    x )

Dvs. en stigning på et point giver et Odds-ratio:
Odds ( Ja | Score  x  1)
Odds ( Ja | Score  x )


e
    x 1 
e
  x
e

Så hver gang score stiger med 1 ændres Odds’et med en
faktor e.
SPSS Output

Estimerede model:
Logit ( Ja | Score  x )   0 . 402  0 . 189 x

Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor
exp() = 1,208, hver gang scoren stiger med 1.

Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er
for hvert Nej.
Modelkontrol: Hosmer-Lemeshows 2-test

Ide: Sammenlign observerede antal Ja’er og
forventede antal Ja’er i den tilpassede model.

Ox =

Nx =
Ex =

observerede antal personer med score x,
der svarer ”Ja”.
antal personer med score x.
forventede antal personer med score x, der
svarer ”Ja”.
E x  N x P ( Ja | Score  x )  N x
e
  x
1 e
  x
Modelkontrol: Hosmer-Lemeshows 2-test

Teststørrelse:
 
2

 E x  O x 2
Ex
x

Hvis vores værdier af a og b er korrekte gælder
 ~
2
2
df 
Hvor df = ”antal led i summen” –
”antal parametre i modellen”


Hvis 2 er for stor tror vi ikke på modellen.
Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen
kikset.
SPSS Output


Data inddelt i 10 grupper. Modellen har to parametre.
Dvs. df = 10 - 2 = 8.
Da p-værdien > 0.05 kan vi ikke afvise at modellen er
passende.
Logistisk Regression: Generel Form

Med en omkodning til binære dummy-variable kan den
logistiske regression skrives på den generelle form:
Logit (Y  1 | X )      i x i
i
    i xi
P (Y  1 | X ) 
e
1 e
i
    i xi
i

exp      i x i 
i




1  exp      i x i 
i


Kategorisk forklarende variabel


Eksempel:
Sammenhængen ml. læsehastighed og selvvurdering?
Total
Odds for
”Ja” givet
hastighed
Logit for
”Ja” givet
hastighed
Er du en god
læser
Nej
80
6.3%
1199
93.7%
1279
100.0%
1199/80 =
14.99
ln(14.99)
= 2.707
Langsom
80
28.1%
205
71.9%
285
100.0%
205/80 =
2.56
ln(2.56) =
0.94
Usikker
11
35.5%
20
64.5%
31
100.0%
20/11 =
1.81
ln(1.81) =
0.59
171
11.2%
1424
88.8%
1595
100.0%
Sætnings- Hurtig
læsning
Total
Ja
Sammenligning af mange Odds



Vi vælger en reference-kategori, fx. Læsehastighed =
Hurtig.
Vi sammenligner nu Odds for hver kategori med Odds
for reference-kategorien, vha. et Odds-ratio.
På den måde har vi kun (k-1) Odds-ratios.

Uafhængighed i den ideelle verden: Alle Odds er ens
og dermed er alle (k-1) Odds-ratios 1.

Tilsvarende er alle logit-forskelle = 0.
Hypotesetest

Model: Logit(Ja|Hastighed) =  + Hastighed

Uinteressant hypotse (hvorfor?)
 H0: Langsom = 0
 H1: Langsom ≠ 0

Interessant hypotese (hvorfor?)
 H0: Langsom = Usikker = 0
 H1: Langsom ≠ 0 og/eller Usikker ≠ 0

Teststørrelse: Wald ~ 2(df )
 df = antal parametre involveret i H0.
*Klik*
SPSS

”Fortæl” SPSS hvilke forklarende
variable der er kategoriske og hvilken
kategori er reference-kategorien.
SPSS Output
H0: Lansom = Usikker = 0
To parametre i H0:
Lansom og Usikker.
Lansom
Usikker
H0: Usikker = 0
Konklusion: Vi kan afvise H0, dvs. der er en effekt af
hastighed på selvvurdering.