Transcript ppt
Anvendt Statistik
Lektion 7
Simpel Lineær Regression
Er der en sammenhæng?
Plot af mordraten (y) mod fattigdomsraten (x):
Scatterplot
Er der en sammenhæng?
Scatterplot
Y
Et scatterplot er et plot af to
variable:
x : forklarende variabel
(xi,yi)
yi
(poverty rate)
y : respons variabel
(murder rate)
For den i’te observation har vi
xi
(poverty rate for i’te stat)
yi
(murder rate for i’te stat)
Data:
(x1,y1), (x2,y2),…, (xn,yn)
xi
x
Forventet respons: En ret linje
Den rette linje a + bx beskriver den
forventede (dvs. middel) respons: y
UK: Expected
E[y] = a + bx
E[y] = a + bx
Eksempel:
E[y] = 210 + 25x
b
Fortolkning:
Antag x = 4 (poverty rate), så er
1
det forventede murder rate 210
+ 25·4 = 310
a
Hvis x øges med 1, så øges
x
den forventede værdi af y med
25.
Hvis x = 0 , så er den forventede værdi af y = 210.
Fejlleddet
De enkelte datapunkter (xi,yi)
ligger ikke præcist på
regressionslinjen.
yi
Afvigelsen mellem punkt og linjen
betegnes fejlleddet ei.
y
(xi,yi)
a + bx
ei
Regressionsmodel:
yi = a + bxi+ ei
Bemærk: n fejlled e1, e2, ..., en.
Flere detaljer og antagelser på næste slide…
xi
x
Simpel lineær regressionsmodel
yi = b0 b1xi e i
•Y
•X
•β
•β0
•β1
•iid
•ε
•εi
e i iid N (0, 2 )
- den afhængige variabel.
- den uafhængige variabel – faste
- det græske bogstav ”beta”
- skæringspunkt med y-aksen
- hældningskoefficient
- UK: independent, identically distributed
= uafhængig, identisk fordelte
- det græske bogstav ”epsilon”
- det eneste stokastiske element i modellen
Lineær regressionsmodel: Figur
Model:
yi = a + bxi+ ei
Om fejlledene ei antager vi:
Normalfordelt
Middelværdi nul
Konstant standardafvigelse
Dvs. punkterne ligger
usystematisk spredt
omkring en ret linje, hvor
variationen er konstant.
Yi = b0 b1 xi e i
Y
Fordelingen af yi omkring
regressionslinjen.
i.i.d.
normalfordelte
fejlled
X
x1
x2
x3
x4
x5
Kontinuert forklarende variabel x
Forudsætninger for SLR (1/3)
Der er en lineær sammenhæng mellem X og Y.
Indledende tjek: Scatter plot af (x,y) – ser punkterne ud til
at ligge langs en ret linje?
y
y
x
y
x
y
x
x
Forudsætninger for SLR (2/3)
Værdierne af de uafhængige variable x antages at være
faste – dvs. ikke stokastiske. Mao. Antages x at være kendt
eller målt uden ”støj”/”målefejl”
Indledende tjek: Logisk sans.
Forudsætninger for SLR (3/3)
Fejledene εi antages være uafhængige og normalfordelte
med middelværdi 0 og konstant standardafvigelse σ.
Indledende tjek: Se efter indlysende problemer i scatter
plot af (x,y).
y
y
x
y
x
y
x
x
En tilnærmet linje
En estimeret regressionslinje er
givet ved:
yˆ = a + bx
y
Her er
a et estimat af a
b et estimat af b
”y hat” er estimat af E(y)
Afstanden fra punktet til den
estimerede regressionslinje
kaldes residualet ei = yi - yˆi .
(xi,yi)
E[y] = a + bx
yi
ei
yˆ = a + bx
yˆi
xi
x
Mindste kvadraters metode
y
Summen af de kvadrede
residualer betegnes:
n
(xi,yi)
n
2
ˆ
SSE = yi yi = ei
yi
UK: Sum of Squared Errors.
yˆi
SSE kan skrives som
2
i =1
ei
i =1
n
yˆ = a + bx
SSE = yi a bxi
2
i =1
E[y] = a + bx
Vi vælger a og b, så SSE er mindst mulig.
Dette kaldes mindste kvadraters metode.
xi
x
Estimater af a , b og
Mindste kvadraters metode giver følgende estimater
Estimatet for b er
n
b=
x x y y
i
i =1
n
2
x
x
i
i =1
i
Estimatet for a er
a = y bx
Estimat for er
SSE
s=
n2
Mere om lineær regression
Prædiktion:
Hvis en ny værdi x kan vi
prædiktere værdien af y:
yˆ = a bx
y
yˆ
yˆ = a + bx
Skæring i middel:
( x, y)
Regressionslinjen skærer i
:
yˆ = a bx = y bx bx = y
Summen af residualer:
Summen af alle residualer er nul:
e =0
i i
x
x
Simpel lineær regression i SPSS
Anazyze → Regression → Linear
x
y
SPSS: Resultat
a
b
Den estimerede regressionslinje er altså:
yˆ = -10,136 + 1,323 x
Fortolkning
Hver gang procent fattige stiger et point stiger den
forventede mordrate med 1,323 mord pr 100.000.
Hvis der er nul procent fattige, så er den forventede
mordrate -10,136…
Hvis procent fattige er 16.2, så er den prædikterede
mordrate: -10.136 + 1.323·16.2 = 11.30.
Regressionslinje i SPSS
Graphs → Chart builder → Scatter/Dot → Simple Scatter
Outlier
Efterfølgende dobbelt-klik på plottet og vælg:
Elements → Fit line at total
Estimat af
Simpel lineær regression i SPSS giver også følgende
resultater:
SSE
n--2
SSE/(n-2)
Estimat af :
SSE
3904.252
s=
=
= 79.679 = 8.926
n2
51 2
Dvs. vi forventer at ca. 95% af punkterne ligger højst 2·8.9
enheder fra regressionslinjen.
Hypotesetest af b
Nul-hypoteser:
H0: b = 0
Alternativ-hypoteser:
Ha: b 0
Ha: b > 0
Teststørrelse
Hvis H0 er sand, så følger t en tfordeling med df=n-2 frihedsgrader
b
t=
se
Ha: b < 0
hvor se er standardfejlen:
se =
s
x x
2
i
i
SSE
,hvor s =
n2
Fortolkning af H0: β = 0
Er der en lineær sammenhæng mellem X og Y?
H0: β1 = 0
Ha: β1 ≠ 0
ingen lineær sammenhæng
lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Konstant Y
Usystematisk variation
Y
Y
X
Ikke-lineær sammenhæng
Y
X
X
Hypotesetest i SPSS
b 1.323
t= =
= 4.804
se 0.275
H0: b = 0
vs
t-fordeling
med df = n-2
P-værdi
Ha: b 0
Ifølge SPSS er P-værdien < 0.0005
-4.804
4.804
Dvs. vi afviser H0.
Dvs. er er en lineær sammenhæng ml. poverty og murder.
-3
-2
-1
0
1
2
3
Konfidensintervaller for b
Konfidensintervallet for b følger det sædvanlige mønster:
b ± tn-2,a/2 · se
Standardfejlen se udregnes som før, og udregnes i praksis af
SPSS.
I dialogboksen for lineær regression tilvælges
konfidensintervaller under ’statistics’
95% konf. int.: 1.323 ± 2.01 · 0.275 = [ 0.770 ; 1.876 ]
t49,0.025 = 2.01
Korrelationen r
Graden af lineær sammenhæng mellem x og y kan måles ved
korrelation r .
Standard afvigelsen for hhv x og y er:
sx =
2
x
x
i i
n 1
og s y =
Korrelationen kan udregnes som
sx
r =
s
y
b
2
y
y
i i
n 1
Korrelationen: Egenskaber
Egenskaber ved korrelationen:
-1 ≤ r ≤ 1
r har samme fortegn som b
r = 0 : ingen lineær sammenhæng
r = ± 1 : perfekt lineær sammenhæng
Jo større absolut værdi, jo stærkere lineær sammenhæng
Illustration af korrelation
Y
r = -1
Y
r=0
Y
r=1
X
Y
r = -.8
X
X
Y
r=0
Y
r = .8
X
X
X
Korrelation i SPSS
Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Korrelationen r
Korrelationen er her r = 0.565, dvs. en middel lineær
sammenhæng.
Kvadratsummer
Sums of square:
2
ˆ
SSE
=
y
y
Sum of squared errors:
i i i = i ei2
SSE er den uforklarede del af variationen i yi’erne.
TSS =i yi y
Total sum of squares:
TSS er den totale variation i yi’erne.
SSE ≤ TSS
TSS – SSE ≥ 0 den forklarede variation.
2
Total og uforklaret variation - illustration
TSS
Den totale variation ses når
vi ”kigger langs” x-aksen.
SSE
Den uforklarede variation
ses når vi ”kigger langs”
regressionslinjen.
Determinationskoefficienten r
TSS
TSS – SSE
Determinationskoefficienten
2
Den totale variation
Den forklarede variation
TSS SSE
r =
TSS
2
Fortolkning
r2 er andelen af den totale variation i yi’erne der er forklaret
af xi’erne.
2
Fx: Hvis r = 0.62, så er 62% af variation i y forklaret af x.
Determinationskoefficienten i SPSS
Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Determinationskoefficienten r2
Determinationskoefficienten er her r2 = 0.320, dvs. 32% af
variationen i mordraten er forklaret af procentdel fattige.
Determinationskoefficienten i SPSS
Graphs → Chart builder → Scatter/Dot → Simple Scatter
r2