Transcript ppt
Anvendt Statistik Lektion 7 Simpel Lineær Regression Er der en sammenhæng? Plot af mordraten (y) mod fattigdomsraten (x): Scatterplot Er der en sammenhæng? Scatterplot Y Et scatterplot er et plot af to variable: x : forklarende variabel (xi,yi) yi (poverty rate) y : respons variabel (murder rate) For den i’te observation har vi xi (poverty rate for i’te stat) yi (murder rate for i’te stat) Data: (x1,y1), (x2,y2),…, (xn,yn) xi x Forventet respons: En ret linje Den rette linje a + bx beskriver den forventede (dvs. middel) respons: y UK: Expected E[y] = a + bx E[y] = a + bx Eksempel: E[y] = 210 + 25x b Fortolkning: Antag x = 4 (poverty rate), så er 1 det forventede murder rate 210 + 25·4 = 310 a Hvis x øges med 1, så øges x den forventede værdi af y med 25. Hvis x = 0 , så er den forventede værdi af y = 210. Fejlleddet De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen. yi Afvigelsen mellem punkt og linjen betegnes fejlleddet ei. y (xi,yi) a + bx ei Regressionsmodel: yi = a + bxi+ ei Bemærk: n fejlled e1, e2, ..., en. Flere detaljer og antagelser på næste slide… xi x Simpel lineær regressionsmodel yi = b0 b1xi e i •Y •X •β •β0 •β1 •iid •ε •εi e i iid N (0, 2 ) - den afhængige variabel. - den uafhængige variabel – faste - det græske bogstav ”beta” - skæringspunkt med y-aksen - hældningskoefficient - UK: independent, identically distributed = uafhængig, identisk fordelte - det græske bogstav ”epsilon” - det eneste stokastiske element i modellen Lineær regressionsmodel: Figur Model: yi = a + bxi+ ei Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standardafvigelse Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Yi = b0 b1 xi e i Y Fordelingen af yi omkring regressionslinjen. i.i.d. normalfordelte fejlled X x1 x2 x3 x4 x5 Kontinuert forklarende variabel x Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (x,y) – ser punkterne ud til at ligge langs en ret linje? y y x y x y x x Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable x antages at være faste – dvs. ikke stokastiske. Mao. Antages x at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans. Forudsætninger for SLR (3/3) Fejledene εi antages være uafhængige og normalfordelte med middelværdi 0 og konstant standardafvigelse σ. Indledende tjek: Se efter indlysende problemer i scatter plot af (x,y). y y x y x y x x En tilnærmet linje En estimeret regressionslinje er givet ved: yˆ = a + bx y Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y) Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - yˆi . (xi,yi) E[y] = a + bx yi ei yˆ = a + bx yˆi xi x Mindste kvadraters metode y Summen af de kvadrede residualer betegnes: n (xi,yi) n 2 ˆ SSE = yi yi = ei yi UK: Sum of Squared Errors. yˆi SSE kan skrives som 2 i =1 ei i =1 n yˆ = a + bx SSE = yi a bxi 2 i =1 E[y] = a + bx Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode. xi x Estimater af a , b og Mindste kvadraters metode giver følgende estimater Estimatet for b er n b= x x y y i i =1 n 2 x x i i =1 i Estimatet for a er a = y bx Estimat for er SSE s= n2 Mere om lineær regression Prædiktion: Hvis en ny værdi x kan vi prædiktere værdien af y: yˆ = a bx y yˆ yˆ = a + bx Skæring i middel: ( x, y) Regressionslinjen skærer i : yˆ = a bx = y bx bx = y Summen af residualer: Summen af alle residualer er nul: e =0 i i x x Simpel lineær regression i SPSS Anazyze → Regression → Linear x y SPSS: Resultat a b Den estimerede regressionslinje er altså: yˆ = -10,136 + 1,323 x Fortolkning Hver gang procent fattige stiger et point stiger den forventede mordrate med 1,323 mord pr 100.000. Hvis der er nul procent fattige, så er den forventede mordrate -10,136… Hvis procent fattige er 16.2, så er den prædikterede mordrate: -10.136 + 1.323·16.2 = 11.30. Regressionslinje i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter Outlier Efterfølgende dobbelt-klik på plottet og vælg: Elements → Fit line at total Estimat af Simpel lineær regression i SPSS giver også følgende resultater: SSE n--2 SSE/(n-2) Estimat af : SSE 3904.252 s= = = 79.679 = 8.926 n2 51 2 Dvs. vi forventer at ca. 95% af punkterne ligger højst 2·8.9 enheder fra regressionslinjen. Hypotesetest af b Nul-hypoteser: H0: b = 0 Alternativ-hypoteser: Ha: b 0 Ha: b > 0 Teststørrelse Hvis H0 er sand, så følger t en tfordeling med df=n-2 frihedsgrader b t= se Ha: b < 0 hvor se er standardfejlen: se = s x x 2 i i SSE ,hvor s = n2 Fortolkning af H0: β = 0 Er der en lineær sammenhæng mellem X og Y? H0: β1 = 0 Ha: β1 ≠ 0 ingen lineær sammenhæng lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Y Y X Ikke-lineær sammenhæng Y X X Hypotesetest i SPSS b 1.323 t= = = 4.804 se 0.275 H0: b = 0 vs t-fordeling med df = n-2 P-værdi Ha: b 0 Ifølge SPSS er P-værdien < 0.0005 -4.804 4.804 Dvs. vi afviser H0. Dvs. er er en lineær sammenhæng ml. poverty og murder. -3 -2 -1 0 1 2 3 Konfidensintervaller for b Konfidensintervallet for b følger det sædvanlige mønster: b ± tn-2,a/2 · se Standardfejlen se udregnes som før, og udregnes i praksis af SPSS. I dialogboksen for lineær regression tilvælges konfidensintervaller under ’statistics’ 95% konf. int.: 1.323 ± 2.01 · 0.275 = [ 0.770 ; 1.876 ] t49,0.025 = 2.01 Korrelationen r Graden af lineær sammenhæng mellem x og y kan måles ved korrelation r . Standard afvigelsen for hhv x og y er: sx = 2 x x i i n 1 og s y = Korrelationen kan udregnes som sx r = s y b 2 y y i i n 1 Korrelationen: Egenskaber Egenskaber ved korrelationen: -1 ≤ r ≤ 1 r har samme fortegn som b r = 0 : ingen lineær sammenhæng r = ± 1 : perfekt lineær sammenhæng Jo større absolut værdi, jo stærkere lineær sammenhæng Illustration af korrelation Y r = -1 Y r=0 Y r=1 X Y r = -.8 X X Y r=0 Y r = .8 X X X Korrelation i SPSS Som en del af output’et for lineær regression får man bl.a. følgende kasse: Korrelationen r Korrelationen er her r = 0.565, dvs. en middel lineær sammenhæng. Kvadratsummer Sums of square: 2 ˆ SSE = y y Sum of squared errors: i i i = i ei2 SSE er den uforklarede del af variationen i yi’erne. TSS =i yi y Total sum of squares: TSS er den totale variation i yi’erne. SSE ≤ TSS TSS – SSE ≥ 0 den forklarede variation. 2 Total og uforklaret variation - illustration TSS Den totale variation ses når vi ”kigger langs” x-aksen. SSE Den uforklarede variation ses når vi ”kigger langs” regressionslinjen. Determinationskoefficienten r TSS TSS – SSE Determinationskoefficienten 2 Den totale variation Den forklarede variation TSS SSE r = TSS 2 Fortolkning r2 er andelen af den totale variation i yi’erne der er forklaret af xi’erne. 2 Fx: Hvis r = 0.62, så er 62% af variation i y forklaret af x. Determinationskoefficienten i SPSS Som en del af output’et for lineær regression får man bl.a. følgende kasse: Determinationskoefficienten r2 Determinationskoefficienten er her r2 = 0.320, dvs. 32% af variationen i mordraten er forklaret af procentdel fattige. Determinationskoefficienten i SPSS Graphs → Chart builder → Scatter/Dot → Simple Scatter r2