Transcript Document

Statistik
Lektion 3
Simpel Lineær Regression
Kriminalitet og uddannelse i Florida:
Er der en sammenhæng?

Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x):
Scatterplot

Er der en sammenhæng?
Scatterplot
Y

Et scatterplot er et plot af to
variable:
 x : forklarende variabel
(xi,yi)
yi
(percent high school)

y : respons variabel
(crime rate)


For den i’te observation har vi
 xi
(crime rate for i’te distrikt)
 yi
(% high school for i’te distrikt)
Data:
 (x1,y1), (x2,y2),…, (xn,yn)
xi
x
Forventet respons: En ret linje
Den rette linje a + bx beskriver den
forventede (dvs. middel) respons: y
UK: Expected
E[y] = a + bx
E[y] = a + bx
 Eksempel:
E[y] = 210 + 2,5x
b
 Fortolkning:
 Antag x = 40 (% high school),
1
så er den forventede crime rate
210 + 2,5·40 = 310
a
 Hvis x øges med 1, så øges
x
den forventede værdi af y med
2,5.
 Hvis x = 0 , så er den forventede værdi af y = 210.

Fejlleddet



De enkelte datapunkter (xi,yi)
ligger ikke præcist på
regressionslinjen.
yi
Afvigelsen mellem punkt og linjen
betegnes fejlleddet ei.
y
(xi,yi)
a + bx
ei
Regressionsmodel:
yi = a + bxi+ ei

Bemærk: n fejlled e1, e2, ..., en.

Flere detaljer og antagelser på næste slide…
xi
x
Simpel lineær regressionsmodel
y i = b 0  b 1 xi  e i
•Y
•X
•β
•β0
•β1
•iid
•ε
•εi
e i iid N ( 0 ,  )
2
- den afhængige variabel.
- den uafhængige variabel – faste
- det græske bogstav ”beta”
- skæringspunkt med y-aksen
- hældningskoefficient
- UK: independent, identically distributed
= uafhængig, identisk fordelte
- det græske bogstav ”epsilon”
- det eneste stokastiske element i modellen
Lineær regressionsmodel: Figur



Model:
yi = a + bxi+ ei
Om fejlledene ei antager vi:
 Normalfordelt
 Middelværdi nul
 Konstant standardafvigelse 
Dvs. punkterne ligger
usystematisk spredt
omkring en ret linje, hvor
variationen er konstant.
Yi = b 0  b 1 x i  e i
Y
Fordelingen af yi omkring
regressionslinjen.
i.i.d.
normalfordelte
fejlled
X
x1
x2
x3
x4
x5
Kontinuert forklarende variabel x
Visuelt check af antagelser

Lav et scatter plot
y
√
y
%
x
x
√
y
x
%
y
x
En tilnærmet linje

En estimeret regressionslinje er
givet ved:
yˆ = a + bx


y
Her er
 a et estimat af a
 b et estimat af b
 ”y hat” er estimat af E(y)
Afstanden fra punktet til den
estimerede regressionslinje
kaldes residualet ei = yi - yˆ i .
(xi,yi)
E[y] = a + bx
yi
ei
yˆ = a + bx
yˆ i
xi
x
Mindste kvadraters metode

y
Summen af de kvadrede
residualer betegnes:
n
SSE =

 y i  yˆ i  =
2
i =1
(xi,yi)
n
e
2
yi
i
ei
i =1

UK: Sum of Squared Errors.

SSE kan skrives som
E[y] = a + bx
yˆ = a + bx
yˆ i
n
SSE =
2




y

a

bx
 i
i
i =1


Vi vælger a og b, så SSE er mindst mulig.
Dette kaldes mindste kvadraters metode.
xi
x
Simpel lineær regression i SPSS

Analyze → General Linear Model → Univariate
y
x
SPSS: Resultat
a
b


Den estimerede regressionslinje er altså:
yˆ = -51,806 + 1,501 x
Fortolkning
 Hver gang procent high school stiger et point stiger den
forventede crime rate med 1,501 mord pr 100.000.
 Hvis der er nul procent high school, så er den forventede
crime rate -51,806…
 Hvis procent high school er 71,2, så er den prædikterede
crime rate: -51,806 + 1,501·71,2 = 55,07.
Regressionslinje i SPSS

Graphs → Chart builder → Scatter/Dot → Simple Scatter

Efterfølgende dobbelt-klik på plottet og vælg:
Elements → Fit line at total
Hypotesetest af b



Nul-hypoteser:
 H0: b = 0
Alternativ-hypoteser:
 Ha: b  0
Ha: b > 0
Ha: b < 0
Teststørrelse
Hvis H0 er sand, så følger t en tfordeling med df=n-2 frihedsgrader
b
t =
se
 hvor se er standardfejlen:
s
SSE
se =
,hvor s =
2
n2


x

x
i i
Fortolkning af H0: β = 0
Er der en lineær sammenhæng mellem X og Y?
H0: β1 = 0
Ha: β1 ≠ 0
ingen lineær sammenhæng
lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Konstant Y
Usystematisk variation
Y
Y
X
Ikke-lineær sammenhæng
Y
X
X
Hypotesetest i SPSS
t=
b
se




H0: b = 0
=
1 . 501
= 4 . 156
0 . 361
vs
t-fordeling
med df = n-2
P-værdi
Ha: b  0
Ifølge SPSS er P-værdien < 0.0005
0
-4.156
4.156
Dvs. vi afviser H0.
Dvs. er er en lineær sammenhæng ml. crime og high school.
-3
-2
-1
0
1
2
3
Total og uforklaret variation - illustration
TSS
Den totale variation ses når
vi ”kigger langs” x-aksen.
SSE
Den uforklarede variation
ses når vi ”kigger langs”
regressionslinjen.
Determinationskoefficienten r

TSS
TSS – SSE

Determinationskoefficienten

2
Den totale variation
Den forklarede variation (totale – uforklarede)
r =
2
TSS  SSE
TSS

Fortolkning
2
 r er andelen af den totale variation i yi’erne der er forklaret
af xi’erne.
 Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.
Determinationskoefficienten i SPSS

Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Determinationskoefficienten r2

Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af
variationen i crime rate er forklaret af % high school.
Determinationskoefficienten i SPSS

Graphs → Chart builder → Scatter/Dot → Simple Scatter
r2
Multipel Lineær Regression (MLR)





Antag vi har
y
 y : afhængig variabel
 x1 : første forklarende var.
 x2 : anden forklarende var.
MLR model:
yi = a + b1x1,i+b2x2,i+e
Her:
 x1,i er værdien af x1 for i’te ”person”.
Forventede værdi:
E[y] = a + b1x1+b2x2
Dvs. regressionsplanet angiver
gennemsnittet for responsen
a + b1x1+b2x2
yi
ei
x2
x2,i
x1,i
x1
Fortolkning af bi


Antag vi har k forklarende variable:
yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i e
Fortolkningen af bj:
 Hvis x1 øges med 1, så øges den forventede værdi af y
med b1, hvis x2, x3, …, xk forbliver uændrede.
Eksempel: Kriminalitet i Florida (fortsat)



Teori: Kriminalitet afhænger også af graden af ubanisering.
Multipel lineær regression af Crime rate (y) mod både
Uddannelser (x1) og Urbanisering (x2).
Prædiktionsligning:
yˆ = 56 . 8  0 . 54  x1  0 . 673  x 2

Bemærk: Effekten af uddannelser er nu negativ og ikke
længere signifikant (P-værdi >> 5%).
Eksempel: Kriminalitet i Florida (fortsat)
yˆ = 90 . 4  0 . 54  x1

( x 2 = 50 )
Prædiktionsligning:
yˆ = 56 . 8  0 . 54  x1  0 . 673  x 2

Effekten af x1 (uddannelse) er den
samme for alle værdier af x2
yˆ = 83 . 7  0 . 54  x
( x = 40 )
(ubanisering).
For hver ekstra procent-point
uddannede falder crime rate med 0.54.
Bemærk at effekten af x1 (Uddannelse) ændrede sig markant,
da vi tilføjede x2 (ubarnisering). Det tyder på at der er en
stærk sammenhæng mellem x1 og x2.
1


2
Simpsons paraksok - igen





Sammenhæng mellem crime
rate og uddannelse
Sort linje:
 SLR for alle data
Blå linje:
 SLR kun for områder med
høj grad af urbanisering.
Grøn linje:
 SLR kun for områder med
lav urbanisering.
Bemærk hvor forskellig sammenhængen
er i de to grupper.
Eksempel: Kriminalitet i Florida (fortsat)
yˆ = 90 . 4  0 . 54  x1

( x 2 = 50 )
Prædiktionsligning:
yˆ = 56 . 8  0 . 54  x1  0 . 673  x 2



Effekten af x1 (uddannelse) er den
samme for alle værdier af x2
(ubanisering).
For hver ekstra procent-point
uddannede falder crime rate med 0.54.
yˆ = 83 . 7  0 . 54  x1
( x 2 = 40 )
Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant,
da vi tilføjede x2 (ubarnisering). Det tyder på at der er en
stærk sammenhæng mellem x1 og x2.
Hypotesetest for MLR: F-test





MLR model:
y = a + b1x1+b2x2+ ··· +bkxk e
Er der mindst en af xj’erne der har en lineær sammenhæng
med y?
Nul-hypotese:
y har ingen lineær sammenhæng
med et eneste xj.
 H0: b1 = b2 = … = bk = 0
Alternativ-hypotese:
y har en lineær sammenhæng
med med mindst et af xj’erne.
 Ha: Mindst et bj  0
Teststørrelse:

F =
R
2
k
1  R  n  ( k  1) 
2
0
Jo større F jo mindre tror vi på H0.
F-testet




Hvis H0 er sand, så følger F en Ffordeling.
Som c2-fordelingen kan Ffordelingen kun tage positive
værdier.
P-værdien finder vi vha. SPSS
(næste slide).
Hvis P-værdien < 0.05 afviser vi
H0, dvs. y har en lineær
sammenhæng med mindst en af
de forklarende variable.
P-værdi
Observeret F
F-test i SPSS

I eksemplet:

Konklusion?
Nyl-hypotesen
vedrører to b ’er.
F-værdi
P-værdi
P-værdi
9.495