Transcript ppt

Anvendt Statistik
Lektion 7
Simpel Lineær Regression
Er der en sammenhæng?

Plot af mordraten (y) mod fattigdomsraten (x):
Scatterplot

Er der en sammenhæng?
Scatterplot
Y

Et scatterplot er et plot af to
variable:
 x : forklarende variabel
(xi,yi)
yi
(poverty rate)

y : respons variabel
(murder rate)


For den i’te observation har vi
 xi
(poverty rate for i’te stat)
 yi
(murder rate for i’te stat)
Data:
 (x1,y1), (x2,y2),…, (xn,yn)
xi
x
Forventet respons: En ret linje
Den rette linje a + bx beskriver den
forventede (dvs. middel) respons: y
UK: Expected
E[y] = a + bx
E[y] = a + bx
 Eksempel:
E[y] = 210 + 25x
b
 Fortolkning:
 Antag x = 4 (poverty rate), så er
1
det forventede murder rate 210
+ 25·4 = 310
a
 Hvis x øges med 1, så øges
x
den forventede værdi af y med
25.
 Hvis x = 0 , så er den forventede værdi af y = 210.

Fejlleddet



De enkelte datapunkter (xi,yi)
ligger ikke præcist på
regressionslinjen.
yi
Afvigelsen mellem punkt og linjen
betegnes fejlleddet ei.
y
(xi,yi)
a + bx
ei
Regressionsmodel:
yi = a + bxi+ ei

Bemærk: n fejlled e1, e2, ..., en.

Flere detaljer og antagelser på næste slide…
xi
x
Simpel lineær regressionsmodel
yi = b0  b1xi  e i
•Y
•X
•β
•β0
•β1
•iid
•ε
•εi
e i iid N (0, 2 )
- den afhængige variabel.
- den uafhængige variabel – faste
- det græske bogstav ”beta”
- skæringspunkt med y-aksen
- hældningskoefficient
- UK: independent, identically distributed
= uafhængig, identisk fordelte
- det græske bogstav ”epsilon”
- det eneste stokastiske element i modellen
Lineær regressionsmodel: Figur



Model:
yi = a + bxi+ ei
Om fejlledene ei antager vi:
 Normalfordelt
 Middelværdi nul
 Konstant standardafvigelse 
Dvs. punkterne ligger
usystematisk spredt
omkring en ret linje, hvor
variationen er konstant.
Yi = b0  b1 xi  e i
Y
Fordelingen af yi omkring
regressionslinjen.
i.i.d.
normalfordelte
fejlled
X
x1
x2
x3
x4
x5
Kontinuert forklarende variabel x
Forudsætninger for SLR (1/3)


Der er en lineær sammenhæng mellem X og Y.
Indledende tjek: Scatter plot af (x,y) – ser punkterne ud til
at ligge langs en ret linje?
y
y
x
y
x
y
x
x
Forudsætninger for SLR (2/3)


Værdierne af de uafhængige variable x antages at være
faste – dvs. ikke stokastiske. Mao. Antages x at være kendt
eller målt uden ”støj”/”målefejl”
Indledende tjek: Logisk sans.
Forudsætninger for SLR (3/3)


Fejledene εi antages være uafhængige og normalfordelte
med middelværdi 0 og konstant standardafvigelse σ.
Indledende tjek: Se efter indlysende problemer i scatter
plot af (x,y).
y
y
x
y
x
y
x
x
En tilnærmet linje

En estimeret regressionslinje er
givet ved:
yˆ = a + bx


y
Her er
 a et estimat af a
 b et estimat af b
 ”y hat” er estimat af E(y)
Afstanden fra punktet til den
estimerede regressionslinje
kaldes residualet ei = yi - yˆi .
(xi,yi)
E[y] = a + bx
yi
ei
yˆ = a + bx
yˆi
xi
x
Mindste kvadraters metode

y
Summen af de kvadrede
residualer betegnes:
n
(xi,yi)
n
2
ˆ
SSE =   yi  yi  =  ei
yi

UK: Sum of Squared Errors.
yˆi

SSE kan skrives som
2
i =1
ei
i =1
n
yˆ = a + bx
SSE =   yi  a  bxi 
2
i =1


E[y] = a + bx
Vi vælger a og b, så SSE er mindst mulig.
Dette kaldes mindste kvadraters metode.
xi
x
Estimater af a , b og 


Mindste kvadraters metode giver følgende estimater
Estimatet for b er
n
b=
 x  x  y  y 
i
i =1
n
2


x

x
 i
i =1


i
Estimatet for a er
a = y  bx
Estimat for  er
SSE
s=
n2
Mere om lineær regression

Prædiktion:
 Hvis en ny værdi x kan vi
prædiktere værdien af y:
yˆ = a  bx

y
yˆ
yˆ = a + bx
Skæring i middel:
( x, y)
 Regressionslinjen skærer i
:
yˆ = a  bx =  y  bx   bx = y

Summen af residualer:
 Summen af alle residualer er nul:
 e =0
i i
x
x
Simpel lineær regression i SPSS

Anazyze → Regression → Linear
x
y
SPSS: Resultat
a
b

Den estimerede regressionslinje er altså:
yˆ = -10,136 + 1,323 x

Fortolkning
 Hver gang procent fattige stiger et point stiger den
forventede mordrate med 1,323 mord pr 100.000.
 Hvis der er nul procent fattige, så er den forventede
mordrate -10,136…
 Hvis procent fattige er 16.2, så er den prædikterede
mordrate: -10.136 + 1.323·16.2 = 11.30.
Regressionslinje i SPSS

Graphs → Chart builder → Scatter/Dot → Simple Scatter
Outlier

Efterfølgende dobbelt-klik på plottet og vælg:
Elements → Fit line at total
Estimat af 

Simpel lineær regression i SPSS giver også følgende
resultater:
SSE


n--2
SSE/(n-2)
Estimat af  :
SSE
3904.252
s=
=
= 79.679 = 8.926
n2
51 2
Dvs. vi forventer at ca. 95% af punkterne ligger højst 2·8.9
enheder fra regressionslinjen.
Hypotesetest af b



Nul-hypoteser:
 H0: b = 0
Alternativ-hypoteser:
 Ha: b  0
Ha: b > 0
Teststørrelse
Hvis H0 er sand, så følger t en tfordeling med df=n-2 frihedsgrader
b
t=
se

Ha: b < 0
hvor se er standardfejlen:
se =
s
 x  x 
2
i
i
SSE
,hvor s =
n2
Fortolkning af H0: β = 0
Er der en lineær sammenhæng mellem X og Y?
H0: β1 = 0
Ha: β1 ≠ 0
ingen lineær sammenhæng
lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Konstant Y
Usystematisk variation
Y
Y
X
Ikke-lineær sammenhæng
Y
X
X
Hypotesetest i SPSS
b 1.323
t= =
= 4.804
se 0.275




H0: b = 0
vs
t-fordeling
med df = n-2
P-værdi
Ha: b  0
Ifølge SPSS er P-værdien < 0.0005
-4.804
4.804
Dvs. vi afviser H0.
Dvs. er er en lineær sammenhæng ml. poverty og murder.
-3
-2
-1
0
1
2
3
Konfidensintervaller for b

Konfidensintervallet for b følger det sædvanlige mønster:
b ± tn-2,a/2 · se

Standardfejlen se udregnes som før, og udregnes i praksis af
SPSS.

I dialogboksen for lineær regression tilvælges
konfidensintervaller under ’statistics’

95% konf. int.: 1.323 ± 2.01 · 0.275 = [ 0.770 ; 1.876 ]
t49,0.025 = 2.01
Korrelationen r


Graden af lineær sammenhæng mellem x og y kan måles ved
korrelation r .
Standard afvigelsen for hhv x og y er:
sx =

2


x

x
i i
n 1
og s y =
Korrelationen kan udregnes som
 sx
r =
s
 y

b


2


y

y
i i
n 1
Korrelationen: Egenskaber

Egenskaber ved korrelationen:
 -1 ≤ r ≤ 1
 r har samme fortegn som b
 r = 0 : ingen lineær sammenhæng
 r = ± 1 : perfekt lineær sammenhæng
 Jo større absolut værdi, jo stærkere lineær sammenhæng
Illustration af korrelation
Y
r = -1
Y
r=0
Y
r=1
X
Y
r = -.8
X
X
Y
r=0
Y
r = .8
X
X
X
Korrelation i SPSS

Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Korrelationen r

Korrelationen er her r = 0.565, dvs. en middel lineær
sammenhæng.
Kvadratsummer

Sums of square:
2
ˆ


SSE
=
y

y
 Sum of squared errors:
i i i = i ei2
 SSE er den uforklarede del af variationen i yi’erne.
TSS =i  yi  y 

Total sum of squares:
TSS er den totale variation i yi’erne.

SSE ≤ TSS

TSS – SSE ≥ 0 den forklarede variation.

2
Total og uforklaret variation - illustration
TSS
Den totale variation ses når
vi ”kigger langs” x-aksen.
SSE
Den uforklarede variation
ses når vi ”kigger langs”
regressionslinjen.
Determinationskoefficienten r

TSS
TSS – SSE

Determinationskoefficienten

2
Den totale variation
Den forklarede variation
TSS  SSE
r =
TSS
2

Fortolkning
 r2 er andelen af den totale variation i yi’erne der er forklaret
af xi’erne.
2
 Fx: Hvis r = 0.62, så er 62% af variation i y forklaret af x.
Determinationskoefficienten i SPSS

Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Determinationskoefficienten r2

Determinationskoefficienten er her r2 = 0.320, dvs. 32% af
variationen i mordraten er forklaret af procentdel fattige.
Determinationskoefficienten i SPSS

Graphs → Chart builder → Scatter/Dot → Simple Scatter
r2