Transcript Document
Statistik
Lektion 3
Simpel Lineær Regression
Kriminalitet og uddannelse i Florida:
Er der en sammenhæng?
Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x):
Scatterplot
Er der en sammenhæng?
Scatterplot
Y
Et scatterplot er et plot af to
variable:
x : forklarende variabel
(xi,yi)
yi
(percent high school)
y : respons variabel
(crime rate)
For den i’te observation har vi
xi
(crime rate for i’te distrikt)
yi
(% high school for i’te distrikt)
Data:
(x1,y1), (x2,y2),…, (xn,yn)
xi
x
Forventet respons: En ret linje
Den rette linje a + bx beskriver den
forventede (dvs. middel) respons: y
UK: Expected
E[y] = a + bx
E[y] = a + bx
Eksempel:
E[y] = 210 + 2,5x
b
Fortolkning:
Antag x = 40 (% high school),
1
så er den forventede crime rate
210 + 2,5·40 = 310
a
Hvis x øges med 1, så øges
x
den forventede værdi af y med
2,5.
Hvis x = 0 , så er den forventede værdi af y = 210.
Fejlleddet
De enkelte datapunkter (xi,yi)
ligger ikke præcist på
regressionslinjen.
yi
Afvigelsen mellem punkt og linjen
betegnes fejlleddet ei.
y
(xi,yi)
a + bx
ei
Regressionsmodel:
yi = a + bxi+ ei
Bemærk: n fejlled e1, e2, ..., en.
Flere detaljer og antagelser på næste slide…
xi
x
Simpel lineær regressionsmodel
y i = b 0 b 1 xi e i
•Y
•X
•β
•β0
•β1
•iid
•ε
•εi
e i iid N ( 0 , )
2
- den afhængige variabel.
- den uafhængige variabel – faste
- det græske bogstav ”beta”
- skæringspunkt med y-aksen
- hældningskoefficient
- UK: independent, identically distributed
= uafhængig, identisk fordelte
- det græske bogstav ”epsilon”
- det eneste stokastiske element i modellen
Lineær regressionsmodel: Figur
Model:
yi = a + bxi+ ei
Om fejlledene ei antager vi:
Normalfordelt
Middelværdi nul
Konstant standardafvigelse
Dvs. punkterne ligger
usystematisk spredt
omkring en ret linje, hvor
variationen er konstant.
Yi = b 0 b 1 x i e i
Y
Fordelingen af yi omkring
regressionslinjen.
i.i.d.
normalfordelte
fejlled
X
x1
x2
x3
x4
x5
Kontinuert forklarende variabel x
Visuelt check af antagelser
Lav et scatter plot
y
√
y
%
x
x
√
y
x
%
y
x
En tilnærmet linje
En estimeret regressionslinje er
givet ved:
yˆ = a + bx
y
Her er
a et estimat af a
b et estimat af b
”y hat” er estimat af E(y)
Afstanden fra punktet til den
estimerede regressionslinje
kaldes residualet ei = yi - yˆ i .
(xi,yi)
E[y] = a + bx
yi
ei
yˆ = a + bx
yˆ i
xi
x
Mindste kvadraters metode
y
Summen af de kvadrede
residualer betegnes:
n
SSE =
y i yˆ i =
2
i =1
(xi,yi)
n
e
2
yi
i
ei
i =1
UK: Sum of Squared Errors.
SSE kan skrives som
E[y] = a + bx
yˆ = a + bx
yˆ i
n
SSE =
2
y
a
bx
i
i
i =1
Vi vælger a og b, så SSE er mindst mulig.
Dette kaldes mindste kvadraters metode.
xi
x
Simpel lineær regression i SPSS
Analyze → General Linear Model → Univariate
y
x
SPSS: Resultat
a
b
Den estimerede regressionslinje er altså:
yˆ = -51,806 + 1,501 x
Fortolkning
Hver gang procent high school stiger et point stiger den
forventede crime rate med 1,501 mord pr 100.000.
Hvis der er nul procent high school, så er den forventede
crime rate -51,806…
Hvis procent high school er 71,2, så er den prædikterede
crime rate: -51,806 + 1,501·71,2 = 55,07.
Regressionslinje i SPSS
Graphs → Chart builder → Scatter/Dot → Simple Scatter
Efterfølgende dobbelt-klik på plottet og vælg:
Elements → Fit line at total
Hypotesetest af b
Nul-hypoteser:
H0: b = 0
Alternativ-hypoteser:
Ha: b 0
Ha: b > 0
Ha: b < 0
Teststørrelse
Hvis H0 er sand, så følger t en tfordeling med df=n-2 frihedsgrader
b
t =
se
hvor se er standardfejlen:
s
SSE
se =
,hvor s =
2
n2
x
x
i i
Fortolkning af H0: β = 0
Er der en lineær sammenhæng mellem X og Y?
H0: β1 = 0
Ha: β1 ≠ 0
ingen lineær sammenhæng
lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Konstant Y
Usystematisk variation
Y
Y
X
Ikke-lineær sammenhæng
Y
X
X
Hypotesetest i SPSS
t=
b
se
H0: b = 0
=
1 . 501
= 4 . 156
0 . 361
vs
t-fordeling
med df = n-2
P-værdi
Ha: b 0
Ifølge SPSS er P-værdien < 0.0005
0
-4.156
4.156
Dvs. vi afviser H0.
Dvs. er er en lineær sammenhæng ml. crime og high school.
-3
-2
-1
0
1
2
3
Total og uforklaret variation - illustration
TSS
Den totale variation ses når
vi ”kigger langs” x-aksen.
SSE
Den uforklarede variation
ses når vi ”kigger langs”
regressionslinjen.
Determinationskoefficienten r
TSS
TSS – SSE
Determinationskoefficienten
2
Den totale variation
Den forklarede variation (totale – uforklarede)
r =
2
TSS SSE
TSS
Fortolkning
2
r er andelen af den totale variation i yi’erne der er forklaret
af xi’erne.
Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.
Determinationskoefficienten i SPSS
Som en del af output’et for lineær regression får man bl.a.
følgende kasse:
Determinationskoefficienten r2
Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af
variationen i crime rate er forklaret af % high school.
Determinationskoefficienten i SPSS
Graphs → Chart builder → Scatter/Dot → Simple Scatter
r2
Multipel Lineær Regression (MLR)
Antag vi har
y
y : afhængig variabel
x1 : første forklarende var.
x2 : anden forklarende var.
MLR model:
yi = a + b1x1,i+b2x2,i+e
Her:
x1,i er værdien af x1 for i’te ”person”.
Forventede værdi:
E[y] = a + b1x1+b2x2
Dvs. regressionsplanet angiver
gennemsnittet for responsen
a + b1x1+b2x2
yi
ei
x2
x2,i
x1,i
x1
Fortolkning af bi
Antag vi har k forklarende variable:
yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i e
Fortolkningen af bj:
Hvis x1 øges med 1, så øges den forventede værdi af y
med b1, hvis x2, x3, …, xk forbliver uændrede.
Eksempel: Kriminalitet i Florida (fortsat)
Teori: Kriminalitet afhænger også af graden af ubanisering.
Multipel lineær regression af Crime rate (y) mod både
Uddannelser (x1) og Urbanisering (x2).
Prædiktionsligning:
yˆ = 56 . 8 0 . 54 x1 0 . 673 x 2
Bemærk: Effekten af uddannelser er nu negativ og ikke
længere signifikant (P-værdi >> 5%).
Eksempel: Kriminalitet i Florida (fortsat)
yˆ = 90 . 4 0 . 54 x1
( x 2 = 50 )
Prædiktionsligning:
yˆ = 56 . 8 0 . 54 x1 0 . 673 x 2
Effekten af x1 (uddannelse) er den
samme for alle værdier af x2
yˆ = 83 . 7 0 . 54 x
( x = 40 )
(ubanisering).
For hver ekstra procent-point
uddannede falder crime rate med 0.54.
Bemærk at effekten af x1 (Uddannelse) ændrede sig markant,
da vi tilføjede x2 (ubarnisering). Det tyder på at der er en
stærk sammenhæng mellem x1 og x2.
1
2
Simpsons paraksok - igen
Sammenhæng mellem crime
rate og uddannelse
Sort linje:
SLR for alle data
Blå linje:
SLR kun for områder med
høj grad af urbanisering.
Grøn linje:
SLR kun for områder med
lav urbanisering.
Bemærk hvor forskellig sammenhængen
er i de to grupper.
Eksempel: Kriminalitet i Florida (fortsat)
yˆ = 90 . 4 0 . 54 x1
( x 2 = 50 )
Prædiktionsligning:
yˆ = 56 . 8 0 . 54 x1 0 . 673 x 2
Effekten af x1 (uddannelse) er den
samme for alle værdier af x2
(ubanisering).
For hver ekstra procent-point
uddannede falder crime rate med 0.54.
yˆ = 83 . 7 0 . 54 x1
( x 2 = 40 )
Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant,
da vi tilføjede x2 (ubarnisering). Det tyder på at der er en
stærk sammenhæng mellem x1 og x2.
Hypotesetest for MLR: F-test
MLR model:
y = a + b1x1+b2x2+ ··· +bkxk e
Er der mindst en af xj’erne der har en lineær sammenhæng
med y?
Nul-hypotese:
y har ingen lineær sammenhæng
med et eneste xj.
H0: b1 = b2 = … = bk = 0
Alternativ-hypotese:
y har en lineær sammenhæng
med med mindst et af xj’erne.
Ha: Mindst et bj 0
Teststørrelse:
F =
R
2
k
1 R n ( k 1)
2
0
Jo større F jo mindre tror vi på H0.
F-testet
Hvis H0 er sand, så følger F en Ffordeling.
Som c2-fordelingen kan Ffordelingen kun tage positive
værdier.
P-værdien finder vi vha. SPSS
(næste slide).
Hvis P-værdien < 0.05 afviser vi
H0, dvs. y har en lineær
sammenhæng med mindst en af
de forklarende variable.
P-værdi
Observeret F
F-test i SPSS
I eksemplet:
Konklusion?
Nyl-hypotesen
vedrører to b ’er.
F-værdi
P-værdi
P-værdi
9.495