Transcript PowerPoint
Statistik II
4. Lektion
Logistisk regression
Logistisk regression: Motivation
Generelt setup:
Dikotom(binær) afhængig variabel
Kontinuerte og kategoriske forklarende variable (som i
lineær reg.)
Eksempel:
Afhængig:
Er du en god læser? (Ja/Nej)
Forklarende:
Antal point i test (0..20)
Point
0 1 2 3
4 5
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Ja’er
5 0 0 3
9 4 14
13
27
24
46
72
98
120
135
136
173
174
142
93
29
Nej’er
2 2 1 2
2 5 2
10
11
9
11
11
14
16
14
21
10
6
4
4
2
Spørgsmål:
Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’?
How not to do it…
Plot af andel ja’er mod antal point.
Hvorfor ikke bare gøre lidt som vi plejer?
Model:
P ( Svar Ja ) Point
Dåååårlig ide!!!
Why not to do it…
Plot af andel ja’er mod antal point.
Linjen er fundet ved mindste kvadraters metode
Listen over problemer er lang….
Sandsynlighed og Odds
Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at
Svar = Ja skrives
0 P ( Svar Ja ) 1
P ( Svar Ja )
Sandsynligheden for at Svar = Nej
P ( Svar Nej ) 1 P ( Svar Ja )
Odds’et for at Svar = Ja er
Odds ( Svar Ja )
P ( Svar Ja )
1 P ( Svar Ja )
P ( Svar Ja )
P ( Svar Nej )
0 Odds ( Svar Ja )
Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som
nej’er.
Logit
Logit for Svar = Ja :
P ( Svar Ja )
Logit (Svar Ja ) ln Odds ( Svar Ja) ln
1 P ( Svar Ja )
Logit ( Svar Ja )
Bemærk:
Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt.
Logit kan tage alle værdier på den reelle akse.
Hen til Logit og tilbage igen…
Antag Y er en binær variabel, dvs. Y=0 eller Y=1.
Antag Logit (Y 1)
sandsynligheden?
hvad er da Odds’et og
Vi har Logit (Y 1) ln Odds (Y 1) dvs.:
Odds (Y 1) exp Logit (Y 1) exp( ) e
Vi har Odds (Y 1) P (Y 1) 1 P (Y 1) omskrives til
P ( Y 1)
Odds (Y 1)
1 Odds (Y 1)
e
1 e
Bemærk: Når logit vokser, vokser ssh’en.
Odds og odds-ratio
De to betingede odds:
Odds (Y 1 | X 0 )
p0
1 p0
Odds-ratio:
Oddsratio (Y 1)
og Odds (Y 1 | X 1)
Odds (Y 1 | X 1)
Odds (Y 1 | X 0 )
p 0 (1 p1 )
Odds (Y 1 | X 0 ) Odds (Y 1 | X 1)
Oddsratio (Y 1) 1
1 p1
p1 (1 p 0 )
Hvis X og Y uafhængige har vi
og
p1
Logit og logit-forskelle
De to betingede logits:
p0
Logit (Y 1 | X 0 ) ln
1 p0
p1
og Logit (Y 1 | X 1) ln
1 p
1
Logit-forskel:
Hvis X og Y uafhængige har vi
p1
Logit forskel (Y 1) ln
1 p1
p0
ln
1 p
0
p 1 (1 p 0 )
ln
p (1 p )
1
0
Logit (Y 1 | X 0 ) Logit (Y 1 | X 1)
og
Logit forskel (Y 1) 0
Logistisk regression
Antag at Y er en binær afhængig variabel og X er en
kontinuert forklarende variabel.
Da er en logistisk regressionsmodel givet ved
Logit (Y 1 | X x ) x
Hvad betyder det sandsynligheden?
Udregninger som før giver
P (Y 1 | X 1)
e
x
1 e
x
Logistiske funktion
e
x
1 e
x
e
1 .5 0 .5 x
1 e
1 .5 0 .5 x
Estimation
Lad ˆ og ˆ betegne estimaterne af de sande, men
ukendte parametre og .
Parametrene og estimeres ved maximum-likelihood
metoden:
Vi vælger ˆ og ˆ som de værdier af og , der gør
data mest ”sandsynlig” (likely).
Vi kalder ˆ og ˆ maximum-likelihood (ML) estimater.
SPSS Output
NB! Bemærk hvordan SPSS koder den afhængige
variabel. SPSS opskriver modellen som Logit(Y=1|…).
I dette tilfælde vil det sige Logit(Ja|…).
Estimerede model:
Logit ( Ja | Score x ) 0 . 402 0 . 189 x
Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare
ja, når antal point stiger.
Logit og Sandsynlighed
Logit ( Ja | x ) 0 . 402 0 . 189 x
P ( Ja | x )
exp 0 . 402 0 . 189 x
1 exp 0 . 402 0 . 189 x
Estimaternes fordeling.
Antag er den sande værdi og ˆ er et ML estimat.
Hvis vi har indsamlet data nok, så er
stikprøveforselingen af ˆ ca. normalfordelt:
ˆ ~ N , SE ( ˆ )
2
Normal-fordeling med middelværdi
og varians (SE( ˆ ))2
Dvs. ˆ i gennemsnit estimerer korrekt (central).
Standard fejlen SE( ˆ ) afhænger af mængden af data.
Konfidensinterval for
Vi har altså at det sande er indeholdt i intervallet
[ ˆ 1 . 96 SE ( ˆ ) ; ˆ 1 . 96 SE ( ˆ )]
med 95% sandsynlighed.
Sandsynligheden gælder vel at mærke et endnu
ikke udført eksperiment.
Når data er indsamlet og konfidensintervallet er
udregnet, så inderholder konfidensintervallet enten
ellers så gør det ikke.
Derfor hedder det et 95% konfidens-interval og ikke et
95% sandsynligheds-interval.
Konfidens-interval for logit-forskel
Et 95% konfidens-interval for logit-forskel β:
[ ˆ 1 . 96 SE ( ˆ ) ; ˆ 1 . 96 SE ( ˆ )]
Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio =
exp(logit-forskel).
Et 95% konfidens-interval for odds-ratio:
[e
ˆ 1 . 96 SE ( ˆ )
;e
ˆ 1 . 96 SE ( ˆ )
]
SPSS Output
Z2
p-værdi
SE
e
95% konf-int. for exp
Estimerede model:
Logit ( Ja | Score x ) 0 . 402 0 . 189 x
95% konfidensintervallet for er: [1.159 ; 1.260 ]
Signifikanstest
Hypoteser
H0: β = 0
H1: β = 0
(uafhængighed)
(afhængighed)
Teststørrelse: Z ˆ SE ( ˆ ) (Wald teststør.)
Under H0 gælder: Z 2 ~ 2 1
Store værdier af Z2 er ufordelagtige for H0.
2
2
Hypotesetest og Konfidensintervaller
Betragt følgende hypoteser
H0: = K
H1: ≠ K
Lad [a,b] være et 95% konfidens-interval for .
Hvis K er udenfor intervallet [a,b], så kan vi afvise H0
på signifikansniveau = 0.05.
Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på
signifikansniveau = 0.05.
SPSS Output
Z ˆ SE ( ˆ )
2
2
0 . 189 0 . 021 79 . 136
2
Estimerede model:
Logit ( Ja | Score x ) 0 . 402 0 . 189 x
Fortolkning: Da p-værdien er mindre end 0.0005 kan
vi afvise hypotesen om at 0. Dvs. at antal point har
en effekt på selvvurderingen.
Fortolkning: Odds
Odds:
Logit ( Ja | Score x 1) ln( Odds ( Ja | Score x ))
Dvs.
Odds ( Ja | Score x ) exp( Logit ( Ja | Score x ))
exp( x )
Dvs. en stigning på et point giver et Odds-ratio:
Odds ( Ja | Score x 1)
Odds ( Ja | Score x )
e
x 1
e
x
e
Så hver gang score stiger med 1 ændres Odds’et med en
faktor e.
SPSS Output
Estimerede model:
Logit ( Ja | Score x ) 0 . 402 0 . 189 x
Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor
exp() = 1,208, hver gang scoren stiger med 1.
Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er
for hvert Nej.
Modelkontrol: Hosmer-Lemeshows 2-test
Ide: Sammenlign observerede antal Ja’er og
forventede antal Ja’er i den tilpassede model.
Ox =
Nx =
Ex =
observerede antal personer med score x,
der svarer ”Ja”.
antal personer med score x.
forventede antal personer med score x, der
svarer ”Ja”.
E x N x P ( Ja | Score x ) N x
e
x
1 e
x
Modelkontrol: Hosmer-Lemeshows 2-test
Teststørrelse:
2
E x O x 2
Ex
x
Hvis vores værdier af a og b er korrekte gælder
~
2
2
df
Hvor df = ”antal led i summen” –
”antal parametre i modellen”
Hvis 2 er for stor tror vi ikke på modellen.
Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen
kikset.
SPSS Output
Data inddelt i 10 grupper. Modellen har to parametre.
Dvs. df = 10 - 2 = 8.
Da p-værdien > 0.05 kan vi ikke afvise at modellen er
passende.
Logistisk Regression: Generel Form
Med en omkodning til binære dummy-variable kan den
logistiske regression skrives på den generelle form:
Logit (Y 1 | X ) i x i
i
i xi
P (Y 1 | X )
e
1 e
i
i xi
i
exp i x i
i
1 exp i x i
i
Kategorisk forklarende variabel
Eksempel:
Sammenhængen ml. læsehastighed og selvvurdering?
Total
Odds for
”Ja” givet
hastighed
Logit for
”Ja” givet
hastighed
Er du en god
læser
Nej
80
6.3%
1199
93.7%
1279
100.0%
1199/80 =
14.99
ln(14.99)
= 2.707
Langsom
80
28.1%
205
71.9%
285
100.0%
205/80 =
2.56
ln(2.56) =
0.94
Usikker
11
35.5%
20
64.5%
31
100.0%
20/11 =
1.81
ln(1.81) =
0.59
171
11.2%
1424
88.8%
1595
100.0%
Sætnings- Hurtig
læsning
Total
Ja
Sammenligning af mange Odds
Vi vælger en reference-kategori, fx. Læsehastighed =
Hurtig.
Vi sammenligner nu Odds for hver kategori med Odds
for reference-kategorien, vha. et Odds-ratio.
På den måde har vi kun (k-1) Odds-ratios.
Uafhængighed i den ideelle verden: Alle Odds er ens
og dermed er alle (k-1) Odds-ratios 1.
Tilsvarende er alle logit-forskelle = 0.
Hypotesetest
Model: Logit(Ja|Hastighed) = + Hastighed
Uinteressant hypotse (hvorfor?)
H0: Langsom = 0
H1: Langsom ≠ 0
Interessant hypotese (hvorfor?)
H0: Langsom = Usikker = 0
H1: Langsom ≠ 0 og/eller Usikker ≠ 0
Teststørrelse: Wald ~ 2(df )
df = antal parametre involveret i H0.
*Klik*
SPSS
”Fortæl” SPSS hvilke forklarende
variable der er kategoriske og hvilken
kategori er reference-kategorien.
SPSS Output
H0: Lansom = Usikker = 0
To parametre i H0:
Lansom og Usikker.
Lansom
Usikker
H0: Usikker = 0
Konklusion: Vi kan afvise H0, dvs. der er en effekt af
hastighed på selvvurdering.