Transcript PowerPoint
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel: Afhængig: Er du en god læser? (Ja/Nej) Forklarende: Antal point i test (0..20) Point 0 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ja’er 5 0 0 3 9 4 14 13 27 24 46 72 98 120 135 136 173 174 142 93 29 Nej’er 2 2 1 2 2 5 2 10 11 9 11 11 14 16 14 21 10 6 4 4 2 Spørgsmål: Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’? How not to do it… Plot af andel ja’er mod antal point. Hvorfor ikke bare gøre lidt som vi plejer? Model: P ( Svar Ja ) Point Dåååårlig ide!!! Why not to do it… Plot af andel ja’er mod antal point. Linjen er fundet ved mindste kvadraters metode Listen over problemer er lang…. Sandsynlighed og Odds Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives 0 P ( Svar Ja ) 1 P ( Svar Ja ) Sandsynligheden for at Svar = Nej P ( Svar Nej ) 1 P ( Svar Ja ) Odds’et for at Svar = Ja er Odds ( Svar Ja ) P ( Svar Ja ) 1 P ( Svar Ja ) P ( Svar Ja ) P ( Svar Nej ) 0 Odds ( Svar Ja ) Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som nej’er. Logit Logit for Svar = Ja : P ( Svar Ja ) Logit (Svar Ja ) ln Odds ( Svar Ja) ln 1 P ( Svar Ja ) Logit ( Svar Ja ) Bemærk: Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt. Logit kan tage alle værdier på den reelle akse. Hen til Logit og tilbage igen… Antag Y er en binær variabel, dvs. Y=0 eller Y=1. Antag Logit (Y 1) sandsynligheden? hvad er da Odds’et og Vi har Logit (Y 1) ln Odds (Y 1) dvs.: Odds (Y 1) exp Logit (Y 1) exp( ) e Vi har Odds (Y 1) P (Y 1) 1 P (Y 1) omskrives til P ( Y 1) Odds (Y 1) 1 Odds (Y 1) e 1 e Bemærk: Når logit vokser, vokser ssh’en. Odds og odds-ratio De to betingede odds: Odds (Y 1 | X 0 ) p0 1 p0 Odds-ratio: Oddsratio (Y 1) og Odds (Y 1 | X 1) Odds (Y 1 | X 1) Odds (Y 1 | X 0 ) p 0 (1 p1 ) Odds (Y 1 | X 0 ) Odds (Y 1 | X 1) Oddsratio (Y 1) 1 1 p1 p1 (1 p 0 ) Hvis X og Y uafhængige har vi og p1 Logit og logit-forskelle De to betingede logits: p0 Logit (Y 1 | X 0 ) ln 1 p0 p1 og Logit (Y 1 | X 1) ln 1 p 1 Logit-forskel: Hvis X og Y uafhængige har vi p1 Logit forskel (Y 1) ln 1 p1 p0 ln 1 p 0 p 1 (1 p 0 ) ln p (1 p ) 1 0 Logit (Y 1 | X 0 ) Logit (Y 1 | X 1) og Logit forskel (Y 1) 0 Logistisk regression Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. Da er en logistisk regressionsmodel givet ved Logit (Y 1 | X x ) x Hvad betyder det sandsynligheden? Udregninger som før giver P (Y 1 | X 1) e x 1 e x Logistiske funktion e x 1 e x e 1 .5 0 .5 x 1 e 1 .5 0 .5 x Estimation Lad ˆ og ˆ betegne estimaterne af de sande, men ukendte parametre og . Parametrene og estimeres ved maximum-likelihood metoden: Vi vælger ˆ og ˆ som de værdier af og , der gør data mest ”sandsynlig” (likely). Vi kalder ˆ og ˆ maximum-likelihood (ML) estimater. SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). Estimerede model: Logit ( Ja | Score x ) 0 . 402 0 . 189 x Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger. Logit og Sandsynlighed Logit ( Ja | x ) 0 . 402 0 . 189 x P ( Ja | x ) exp 0 . 402 0 . 189 x 1 exp 0 . 402 0 . 189 x Estimaternes fordeling. Antag er den sande værdi og ˆ er et ML estimat. Hvis vi har indsamlet data nok, så er stikprøveforselingen af ˆ ca. normalfordelt: ˆ ~ N , SE ( ˆ ) 2 Normal-fordeling med middelværdi og varians (SE( ˆ ))2 Dvs. ˆ i gennemsnit estimerer korrekt (central). Standard fejlen SE( ˆ ) afhænger af mængden af data. Konfidensinterval for Vi har altså at det sande er indeholdt i intervallet [ ˆ 1 . 96 SE ( ˆ ) ; ˆ 1 . 96 SE ( ˆ )] med 95% sandsynlighed. Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten ellers så gør det ikke. Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval. Konfidens-interval for logit-forskel Et 95% konfidens-interval for logit-forskel β: [ ˆ 1 . 96 SE ( ˆ ) ; ˆ 1 . 96 SE ( ˆ )] Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). Et 95% konfidens-interval for odds-ratio: [e ˆ 1 . 96 SE ( ˆ ) ;e ˆ 1 . 96 SE ( ˆ ) ] SPSS Output Z2 p-værdi SE e 95% konf-int. for exp Estimerede model: Logit ( Ja | Score x ) 0 . 402 0 . 189 x 95% konfidensintervallet for er: [1.159 ; 1.260 ] Signifikanstest Hypoteser H0: β = 0 H1: β = 0 (uafhængighed) (afhængighed) Teststørrelse: Z ˆ SE ( ˆ ) (Wald teststør.) Under H0 gælder: Z 2 ~ 2 1 Store værdier af Z2 er ufordelagtige for H0. 2 2 Hypotesetest og Konfidensintervaller Betragt følgende hypoteser H0: = K H1: ≠ K Lad [a,b] være et 95% konfidens-interval for . Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau = 0.05. Hvis K ligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau = 0.05. SPSS Output Z ˆ SE ( ˆ ) 2 2 0 . 189 0 . 021 79 . 136 2 Estimerede model: Logit ( Ja | Score x ) 0 . 402 0 . 189 x Fortolkning: Da p-værdien er mindre end 0.0005 kan vi afvise hypotesen om at 0. Dvs. at antal point har en effekt på selvvurderingen. Fortolkning: Odds Odds: Logit ( Ja | Score x 1) ln( Odds ( Ja | Score x )) Dvs. Odds ( Ja | Score x ) exp( Logit ( Ja | Score x )) exp( x ) Dvs. en stigning på et point giver et Odds-ratio: Odds ( Ja | Score x 1) Odds ( Ja | Score x ) e x 1 e x e Så hver gang score stiger med 1 ændres Odds’et med en faktor e. SPSS Output Estimerede model: Logit ( Ja | Score x ) 0 . 402 0 . 189 x Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp() = 1,208, hver gang scoren stiger med 1. Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er for hvert Nej. Modelkontrol: Hosmer-Lemeshows 2-test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. Ox = Nx = Ex = observerede antal personer med score x, der svarer ”Ja”. antal personer med score x. forventede antal personer med score x, der svarer ”Ja”. E x N x P ( Ja | Score x ) N x e x 1 e x Modelkontrol: Hosmer-Lemeshows 2-test Teststørrelse: 2 E x O x 2 Ex x Hvis vores værdier af a og b er korrekte gælder ~ 2 2 df Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis 2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset. SPSS Output Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende. Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: Logit (Y 1 | X ) i x i i i xi P (Y 1 | X ) e 1 e i i xi i exp i x i i 1 exp i x i i Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Total Odds for ”Ja” givet hastighed Logit for ”Ja” givet hastighed Er du en god læser Nej 80 6.3% 1199 93.7% 1279 100.0% 1199/80 = 14.99 ln(14.99) = 2.707 Langsom 80 28.1% 205 71.9% 285 100.0% 205/80 = 2.56 ln(2.56) = 0.94 Usikker 11 35.5% 20 64.5% 31 100.0% 20/11 = 1.81 ln(1.81) = 0.59 171 11.2% 1424 88.8% 1595 100.0% Sætnings- Hurtig læsning Total Ja Sammenligning af mange Odds Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. På den måde har vi kun (k-1) Odds-ratios. Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. Tilsvarende er alle logit-forskelle = 0. Hypotesetest Model: Logit(Ja|Hastighed) = + Hastighed Uinteressant hypotse (hvorfor?) H0: Langsom = 0 H1: Langsom ≠ 0 Interessant hypotese (hvorfor?) H0: Langsom = Usikker = 0 H1: Langsom ≠ 0 og/eller Usikker ≠ 0 Teststørrelse: Wald ~ 2(df ) df = antal parametre involveret i H0. *Klik* SPSS ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien. SPSS Output H0: Lansom = Usikker = 0 To parametre i H0: Lansom og Usikker. Lansom Usikker H0: Usikker = 0 Konklusion: Vi kan afvise H0, dvs. der er en effekt af hastighed på selvvurdering.