Transcript Document

Anvendt Statistik
Lektion 7
Simpel Lineær Regression
1
Er der en sammenhæng?

Plot af mordraten (y) mod fattigdomsraten (x):
Scatterplot

Afhænger mordraten af fattigdomsraten?
2
Scatterplot
Y

Et scatterplot er et plot af to
variable:
 x : forklarende variabel
(xi,yi)
yi
(fattigdomsraten)

y : respons-variabel
(mordraten)


For den i’te observation har vi
 xi
(fattigdomsraten for i’te stat)
 yi
(mordraten for i’te stat)
Data:
 (x1,y1), (x2,y2),…, (xn,yn)
x
xi
3
Forventet respons: En ret linje
Den rette linje a + bx beskriver den
forventede (dvs. middel) respons: y
UK: Expected
E[y] = a + bx
E[y] = a + bx
 Eksempel:
E[y] = 210 + 25x
b
 Fortolkning:
 Antag x = 4 (fattigdomsraten),
1
så er det forventede mordrate
210 + 25·4 = 310.
a
 Hvis x øges med 1, så øges
x
den forventede værdi af y med
25.
 Hvis x = 0 , så er den forventede værdi af y = 210.

4
Fejlleddet



De enkelte datapunkter (xi,yi)
ligger typisk ikke præcist på
regressionslinjen.
yi
Afvigelsen mellem punkt og linjen
betegnes fejlleddet ei.
y
(xi,yi)
a + bx
ei
Regressionsmodel:
yi = a + bxi+ ei

Bemærk: n fejlled e1, e2, ..., en.

Flere detaljer og antagelser på næste slide…
x
xi
5
Simpel lineær regressionsmodel
yi = a  bxi  e i


Y
X

a
b
b1

iid




e
ei
e i iid N (0, 2 )
- afhængige/respons variabel.
- uafhængige/forklarende variabel – faste tal
- skæringspunkt med y-aksen
- det græske bogstav ”beta”
- hældningskoefficient
- UK: independent, identically distributed
= uafhængig, identisk fordelte
- det græske bogstav ”epsilon”
- fejlled - det eneste stokastiske element i modellen
6
Lineær regressionsmodel: Figur

Model:
yi = a + bxi+ ei
Yi = a  bxi  e i
Y


Om fejlledene ei antager vi:
 Normalfordelt
 Middelværdi nul
 Konstant standardafvigelse 
Dvs. punkterne ligger
usystematisk spredt
omkring en ret linje, hvor
variationen er konstant.
Fordelingen af yi omkring
regressionslinjen.
iid
normalfordelte
fejlled
X
x1
x2
x3
x4
x5
Kontinuert forklarende variabel x
7
Forudsætninger for SLR (1/3)


Der er en lineær sammenhæng mellem X og Y.
Indledende tjek: Scatter plot af (x,y) – ser punkterne ud til
at ligge langs en ret linje?
y
y
x
y
x
y
x
x
8
Forudsætninger for SLR (2/3)


Værdierne af de uafhængige variable x antages at være
faste – dvs. ikke stokastiske. Mao. Antages x at være kendt
eller målt uden ”støj”/”målefejl”
Indledende tjek: Logisk sans.
9
Forudsætninger for SLR (3/3)


Fejledene ei antages være uafhængige og normalfordelte
med middelværdi 0 og konstant standardafvigelse .
Indledende tjek: Se efter indlysende problemer i scatter
plot af (x,y).
y
y
x
y
x
y
x
x
10
11
Er der en sammenhæng?

Graphs → Chart builder → Scatter/Dot → Simple Scatter
Outlier
Scatterplot
Samme plot uden outlier’eren

Er antagelserne opfyldt?
12
En tilnærmet linje

En estimeret regressionslinje
er givet ved:
yˆ = a + bx


y
Her er
 a et estimat af a
 b et estimat af b
 ”y hat” er estimat af E(y)
Afstanden fra punktet til den
estimerede regressionslinje
kaldes residualet ei = yi - yˆi .
(xi,yi)
E[y] = a + bx
yi
ei
yˆ = a + bx
yˆi
x
xi
13
Mindste kvadraters metode

y
Summen af de kvadrede
residualer betegnes:
n
(xi,yi)
n
2
ˆ
SSE =   yi  yi  =  ei
yi

UK: Sum of Squared Errors.
yˆi

SSE kan skrives som
2
i =1
ei
i =1
n
E[y] = a + bx
yˆ = a + bx
SSE =   yi  a  bxi 
2
i =1


Vi vælger a og b, så SSE er mindst mulig.
Dette kaldes mindste kvadraters metode.
x
xi
14
Estimater af a , b og 


Mindste kvadraters metode giver følgende estimater
Estimatet for b er
n
b=
 x  x  y
i
i =1
i
 y
n
2


x

x
 i
i =1


Estimatet for a er
a = y  bx
Estimat for  er
SSE
s=
n2
15
Mere om lineær regression

Prædiktion:
 For en ny værdi x kan vi
prædiktere værdien af y:
yˆ = a  bx

y
yˆ
yˆ = a + bx
Skæring i middel:
 Regressionslinjen skærer i ( x , y ) :
yˆ = a  bx =  y  bx   bx = y

Summen af residualer:
 Summen af alle residualer er nul:
x
x
 e =0
i i
16
Simpel lineær regression i SPSS

Anazyze → Regression → Linear
y
x
17
SPSS: Resultat
a
b

Den estimerede regressionslinje er altså:
yˆ = -10,136 + 1,323 x

Fortolkning
 Hver gang fattigdomsraten stiger et point stiger den
forventede mordrate med 1,323 mord pr 100.000.
 Hvis der er nul procent fattige, så er den forventede
mordrate -10,136…
 Hvis procent fattige er 16.2, så er den prædikterede
mordrate: -10.136 + 1.323·16.2 = 11.30.
18
Regressionslinje i SPSS

Graphs → Chart builder → Scatter/Dot → Simple Scatter
Outlier

Efterfølgende dobbelt-klik på plottet og vælg:
Elements → Fit line at total
19
Estimat af 

Simpel lineær regression i SPSS giver også følgende
resultater:
SSE


n--2
SSE/(n-2)
Estimat af  :
SSE
3904.252
s=
=
= 79.679 = 8.926
n2
51 2
Dvs. vi forventer at ca. 95% af punkterne ligger højst 2·8.9
enheder fra regressionslinjen.
20
Hypotesetest af b



Nul-hypoteser:
 H0: b = 0
Alternativ-hypoteser:
 Ha: b  0
Ha: b > 0
Teststørrelse
Hvis H0 er sand, så følger t en tfordeling med df = n-2 frihedsgrader
b
t=
se

Ha: b < 0
hvor se er standardfejlen:
se =
s
 x  x 
2
i
i
SSE
,hvor s =
n2
21
Fortolkning af H0: β = 0
Er der en lineær sammenhæng mellem X og Y?
H0: β = 0
Ha: β ≠ 0
ingen lineær sammenhæng
lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Konstant Y
Usystematisk variation
Y
Y
X
Ikke-lineær sammenhæng
Y
X
X
22
Hypotesetest i SPSS
b 1.323
t= =
= 4.804
se 0.275




H0 : b = 0
vs
t-fordeling
med df = n-2
P-værdi
Ha: b  0
Ifølge SPSS er P-værdien < 0.0005
-4.804
4.804
Dvs. vi afviser H0.
Dvs. er er en lineær sammenhæng ml. fattigdoms- og mordraten.
-3
-2
-1
0
1
2
3
23
Konfidensintervaller for b

Konfidensintervallet for b følger det sædvanlige mønster:
b ± tn-2,a/2 · se

Standardfejlen se udregnes som før, og udregnes i praksis af
SPSS.

I dialogboksen for lineær regression tilvælges
konfidensintervaller under ’statistics’

95% konf. int.: 1.323 ± 2.01 · 0.275 = [ 0.770 ; 1.876 ]
t49,0.025 = 2.01
24
Korrelationen r

Graden af lineær sammenhæng mellem x og y kan måles ved
korrelation r .

Korrelationen kan udregnes som
 sx
r =
s
 y


b


Hvor sx og sy standardafvigelserne for hhv. x og y:
sx =
2


x

x
i i
n 1
og s y =
2


y

y
i i
n 1
25
Korrelationen: Egenskaber

Egenskaber ved korrelationen:
 -1 ≤ r ≤ 1
 r har samme fortegn som b
 r = 0 : ingen lineær sammenhæng
 r = ± 1 : perfekt lineær sammenhæng
 Jo større absolut værdi, jo stærkere lineær sammenhæng
26
Illustration af korrelation
Y
r = -1
Y
r=0
Y
r=1
X
Y
r = -.8
X
X
Y
r=0
Y
r = .8
X
X
X
27
Korrelation i SPSS

Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Korrelationen r

Korrelationen er her r = 0.565, dvs. en middel lineær
sammenhæng.
28
Forklaret og uforklaret afvigelse

Yi’s afvigelse fra Y kan opdeles i to:
Y
yˆ = a  bx
yi
Uforklaret afvigelse
yˆi
Totale afvigelse
Forklaret afvigelse
y
x
xi
x
Kvadratsummer

Sums of squares:
2


TSS
=
y

y
 Total sum of squares:
i i
 TSS er den totale variation i yi’erne.
SSE =i  yi  yˆ i  = i ei2
2

Sum of squared errors:
SSE er den uforklarede del af variationen i yi’erne.

SSE ≤ TSS

TSS – SSE ≥ 0 den forklarede variation.

30
Total og uforklaret variation - illustration
TSS
Den totale variation ses når
vi ”kigger langs” x-aksen.
SSE
Den uforklarede variation
ses når vi ”kigger langs”
regressionslinjen.
31
Determinationskoefficienten r

TSS
TSS – SSE

Determinationskoefficienten

2
Den totale variation
Den forklarede variation
TSS  SSE
r =
TSS
2

Fortolkning
 r2 er andelen af den totale variation i yi’erne der er forklaret
af xi’erne.
2
 Fx: Hvis r = 0.62, så er 62% af variation i y forklaret af x.
32
Determinationskoefficienten i SPSS

Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Determinationskoefficienten r2

Determinationskoefficienten er her r2 = 0.320, dvs. 32% af
variationen i mordraten er forklaret af fattigdomsraten.
33
Determinationskoefficienten i SPSS

Graphs → Chart builder → Scatter/Dot → Simple Scatter
r2
34