Transcript Document
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten (y) mod fattigdomsraten (x): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Y Et scatterplot er et plot af to variable: x : forklarende variabel (xi,yi) yi (fattigdomsraten) y : respons-variabel (mordraten) For den i’te observation har vi xi (fattigdomsraten for i’te stat) yi (mordraten for i’te stat) Data: (x1,y1), (x2,y2),…, (xn,yn) x xi 3 Forventet respons: En ret linje Den rette linje a + bx beskriver den forventede (dvs. middel) respons: y UK: Expected E[y] = a + bx E[y] = a + bx Eksempel: E[y] = 210 + 25x b Fortolkning: Antag x = 4 (fattigdomsraten), 1 så er det forventede mordrate 210 + 25·4 = 310. a Hvis x øges med 1, så øges x den forventede værdi af y med 25. Hvis x = 0 , så er den forventede værdi af y = 210. 4 Fejlleddet De enkelte datapunkter (xi,yi) ligger typisk ikke præcist på regressionslinjen. yi Afvigelsen mellem punkt og linjen betegnes fejlleddet ei. y (xi,yi) a + bx ei Regressionsmodel: yi = a + bxi+ ei Bemærk: n fejlled e1, e2, ..., en. Flere detaljer og antagelser på næste slide… x xi 5 Simpel lineær regressionsmodel yi = a bxi e i Y X a b b1 iid e ei e i iid N (0, 2 ) - afhængige/respons variabel. - uafhængige/forklarende variabel – faste tal - skæringspunkt med y-aksen - det græske bogstav ”beta” - hældningskoefficient - UK: independent, identically distributed = uafhængig, identisk fordelte - det græske bogstav ”epsilon” - fejlled - det eneste stokastiske element i modellen 6 Lineær regressionsmodel: Figur Model: yi = a + bxi+ ei Yi = a bxi e i Y Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standardafvigelse Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Fordelingen af yi omkring regressionslinjen. iid normalfordelte fejlled X x1 x2 x3 x4 x5 Kontinuert forklarende variabel x 7 Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (x,y) – ser punkterne ud til at ligge langs en ret linje? y y x y x y x x 8 Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable x antages at være faste – dvs. ikke stokastiske. Mao. Antages x at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans. 9 Forudsætninger for SLR (3/3) Fejledene ei antages være uafhængige og normalfordelte med middelværdi 0 og konstant standardafvigelse . Indledende tjek: Se efter indlysende problemer i scatter plot af (x,y). y y x y x y x x 10 11 Er der en sammenhæng? Graphs → Chart builder → Scatter/Dot → Simple Scatter Outlier Scatterplot Samme plot uden outlier’eren Er antagelserne opfyldt? 12 En tilnærmet linje En estimeret regressionslinje er givet ved: yˆ = a + bx y Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y) Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - yˆi . (xi,yi) E[y] = a + bx yi ei yˆ = a + bx yˆi x xi 13 Mindste kvadraters metode y Summen af de kvadrede residualer betegnes: n (xi,yi) n 2 ˆ SSE = yi yi = ei yi UK: Sum of Squared Errors. yˆi SSE kan skrives som 2 i =1 ei i =1 n E[y] = a + bx yˆ = a + bx SSE = yi a bxi 2 i =1 Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode. x xi 14 Estimater af a , b og Mindste kvadraters metode giver følgende estimater Estimatet for b er n b= x x y i i =1 i y n 2 x x i i =1 Estimatet for a er a = y bx Estimat for er SSE s= n2 15 Mere om lineær regression Prædiktion: For en ny værdi x kan vi prædiktere værdien af y: yˆ = a bx y yˆ yˆ = a + bx Skæring i middel: Regressionslinjen skærer i ( x , y ) : yˆ = a bx = y bx bx = y Summen af residualer: Summen af alle residualer er nul: x x e =0 i i 16 Simpel lineær regression i SPSS Anazyze → Regression → Linear y x 17 SPSS: Resultat a b Den estimerede regressionslinje er altså: yˆ = -10,136 + 1,323 x Fortolkning Hver gang fattigdomsraten stiger et point stiger den forventede mordrate med 1,323 mord pr 100.000. Hvis der er nul procent fattige, så er den forventede mordrate -10,136… Hvis procent fattige er 16.2, så er den prædikterede mordrate: -10.136 + 1.323·16.2 = 11.30. 18 Regressionslinje i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter Outlier Efterfølgende dobbelt-klik på plottet og vælg: Elements → Fit line at total 19 Estimat af Simpel lineær regression i SPSS giver også følgende resultater: SSE n--2 SSE/(n-2) Estimat af : SSE 3904.252 s= = = 79.679 = 8.926 n2 51 2 Dvs. vi forventer at ca. 95% af punkterne ligger højst 2·8.9 enheder fra regressionslinjen. 20 Hypotesetest af b Nul-hypoteser: H0: b = 0 Alternativ-hypoteser: Ha: b 0 Ha: b > 0 Teststørrelse Hvis H0 er sand, så følger t en tfordeling med df = n-2 frihedsgrader b t= se Ha: b < 0 hvor se er standardfejlen: se = s x x 2 i i SSE ,hvor s = n2 21 Fortolkning af H0: β = 0 Er der en lineær sammenhæng mellem X og Y? H0: β = 0 Ha: β ≠ 0 ingen lineær sammenhæng lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Y Y X Ikke-lineær sammenhæng Y X X 22 Hypotesetest i SPSS b 1.323 t= = = 4.804 se 0.275 H0 : b = 0 vs t-fordeling med df = n-2 P-værdi Ha: b 0 Ifølge SPSS er P-værdien < 0.0005 -4.804 4.804 Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. fattigdoms- og mordraten. -3 -2 -1 0 1 2 3 23 Konfidensintervaller for b Konfidensintervallet for b følger det sædvanlige mønster: b ± tn-2,a/2 · se Standardfejlen se udregnes som før, og udregnes i praksis af SPSS. I dialogboksen for lineær regression tilvælges konfidensintervaller under ’statistics’ 95% konf. int.: 1.323 ± 2.01 · 0.275 = [ 0.770 ; 1.876 ] t49,0.025 = 2.01 24 Korrelationen r Graden af lineær sammenhæng mellem x og y kan måles ved korrelation r . Korrelationen kan udregnes som sx r = s y b Hvor sx og sy standardafvigelserne for hhv. x og y: sx = 2 x x i i n 1 og s y = 2 y y i i n 1 25 Korrelationen: Egenskaber Egenskaber ved korrelationen: -1 ≤ r ≤ 1 r har samme fortegn som b r = 0 : ingen lineær sammenhæng r = ± 1 : perfekt lineær sammenhæng Jo større absolut værdi, jo stærkere lineær sammenhæng 26 Illustration af korrelation Y r = -1 Y r=0 Y r=1 X Y r = -.8 X X Y r=0 Y r = .8 X X X 27 Korrelation i SPSS Som en del af output’et for lineær regression får man bl.a. følgende kasse: Korrelationen r Korrelationen er her r = 0.565, dvs. en middel lineær sammenhæng. 28 Forklaret og uforklaret afvigelse Yi’s afvigelse fra Y kan opdeles i to: Y yˆ = a bx yi Uforklaret afvigelse yˆi Totale afvigelse Forklaret afvigelse y x xi x Kvadratsummer Sums of squares: 2 TSS = y y Total sum of squares: i i TSS er den totale variation i yi’erne. SSE =i yi yˆ i = i ei2 2 Sum of squared errors: SSE er den uforklarede del af variationen i yi’erne. SSE ≤ TSS TSS – SSE ≥ 0 den forklarede variation. 30 Total og uforklaret variation - illustration TSS Den totale variation ses når vi ”kigger langs” x-aksen. SSE Den uforklarede variation ses når vi ”kigger langs” regressionslinjen. 31 Determinationskoefficienten r TSS TSS – SSE Determinationskoefficienten 2 Den totale variation Den forklarede variation TSS SSE r = TSS 2 Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret af xi’erne. 2 Fx: Hvis r = 0.62, så er 62% af variation i y forklaret af x. 32 Determinationskoefficienten i SPSS Som en del af output’et for lineær regression får man bl.a. følgende kasse: Determinationskoefficienten r2 Determinationskoefficienten er her r2 = 0.320, dvs. 32% af variationen i mordraten er forklaret af fattigdomsraten. 33 Determinationskoefficienten i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter r2 34