Föreläsning 3 Tommy
Download
Report
Transcript Föreläsning 3 Tommy
Föreläsning 3
732G05
Regressions- och tidsserieanalys
Multipel linjär regression
En påbyggnad på enkel linjär regression
Beskriva en beroende variabel y utifrån k stycken förklarande
variabler x1, x2, …, xk
y 0 1 x1 2 x2 k xk
Där ε är feltermen (error term), som står för den del av
variationen i y som inte kan förklaras av modellen. Feltermen
antas:
Ha medelvärde 0
Ha konstant varians σ2
Vara normalfördelad
Vara oberoende av andra ε
2
Multipel linjär regression
Kvadratsummor och varians
Samma beräkningar för SST och SSR
Kvadratsummeuppdelning SST = SSR + SSE gäller fortfarande
SSE beräknas på samma sätt som innan:
n
SSE yi b0 b1 x1i b2 x2i bk xki 2
i 1
ˆi
y
Variansen (σ2) skattas med MSE:
s
Standardavvikelsen (σ) skattas med:
2
SSE
n (k 1)
s
2
3
Multipel linjär regression
Hur utreda om modellen är bra?
1. F-test (Overall F-test, testar hela modellen)
•
H0: Alla parametrar (β1, β2,…, βk) är lika med noll
•
Ha: Minst en av parametrarna är skild från noll
SSR k
MSR
F
SSE n k 1 MSE
•
Där k är antalet parametrar i modellen
•
Detta värde jämförs med Fα med k och n-k-1 frihetsgrader
2.
T-test (testar varje enskild variabel)
•
Beräknas på samma sätt som i enkel linjär regression
•
Skillnad är att t-fördelning med n-k-1 frihetsgrader används
4
Multipel linjär regression
Hur utreda om modellen är bra?
3. Förklaringsgrad (R2)
Beräknas och tolkas på samma sätt som i enkel linjär
regression
2
4. Justerad förklaringsgrad ( R )
R2 ökar alltid när en ny förklarande variabel läggs till i
modellen
Den justerade förklaringsgraden tar hänsyn till antalet
förklarande variabler
Denna ska användas vid jämförelse av modeller med
olika antal förklarande variabler
2
R
k
n 1
2
R
n 1 n (k 1)
5
Multipel linjär regression
Exempel 1
Ett datamaterial bestående av 150 slumpmässigt valda
husförsäljningar i USA
Name
Price
Area
Acres
Rooms
Baths
Antal
150
150
150
150
150
Beskrivning
Pris
Area i kvadratfot
Tomtyta i tunnland
Antal rum
Antal badrum
Modell
y
x1
x2
x3
x4
Vi vill undersöka hur priset beror på de förklarande variablerna
6
Multipel linjär regression
Exempel 1
Pris mot bostadsyta
Price
300000
200000
100000
500
1500
2500
3500
Area
7
Multipel linjär regression
Exempel 1
Pris mot tomtyta
Price
300000
200000
100000
0
10
20
Acres
8
Multipel linjär regression
Exempel 1
Pris mot antal rum
Price
300000
200000
100000
3
8
13
Rooms
9
Multipel linjär regression
Exempel 1
Pris mot antal badrum
Price
300000
200000
100000
1
2
3
4
Baths
10
Multipel linjär regression
Exempel 1
Minitab: Stat → Regression → Regression
11
Multipel linjär regression
Exempel 1
Regression Analysis: Price versus Area; Rooms
The regression equation is
Price = 64221 + 49,7 Area - 141 Rooms
Predictor
Constant
Area
Rooms
Coef
64221
49,673
-141
SE Coef
12766
7,507
2934
T
5,03
6,62
-0,05
P
0,000
0,000
0,962
S = 30047,0 R-Sq = 48,6% R-Sq(adj) = 47,9%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
2
147
149
SS
1,25273E+11
1,32715E+11
2,57989E+11
MS
62636682991
902824574
F
69,38
P
0,000
12
Multipel linjär regression
Punktskattningar
En vanlig tillämpning av multipel linjär regression är att man vill
skatta (prediktera) värden för nya observationer
Punktskattning (punktprediktion beräknas på samma sätt):
yˆ b0 b1 x1 b2 x2 bk xk
Punktskattning (point estimate):
Det skattade medelvärdet på y för alla observationer med
de givna värdena på x
Punktprediktion (point prediction):
Värdet en individuell observation väntas ha på y med de
givna värdena på x
13
Multipel linjär regression
Intervallskattningar
Konfidensintervall (hör till punktskattning)
Ett intervall för medelvärdet på y med de givna värdena på x
yˆ 0 t(n/2k1) s " Distancevalue"
Prediktionsintervall (hör till punktprediktion)
Ett intervall för värdet på y för en individuell observation med
de givna värdena på x
yˆ 0 t(n/2k1) s 1" Distancevalue"
”Distance value” fås från datorutskrift
Minitab: SE Fit =
s " Distancevalue"
14
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
Ett intervall för hus med area 3000 kvadratfot och 6 rum
Minitab: Stat → Regression → Regression → Options
15
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
Predicted Values for New Observations
New
Obs
1
Fit
212396
SE Fit
12307
95% CI
(188076; 236717)
95% PI
(148229; 276564)XX
XX denotes a point that is an extreme outlier in the predictors.
16
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
Predicted Values for New Observations
New
Obs
1
Fit
212396
SE Fit
12307
95% CI
(188076; 236717)
95% PI
(148229; 276564)XX
XX denotes a point that is an extreme outlier in the predictors.
Minitab indikerar att vår prediktion inte är helt pålitlig
Vad kan detta bero på?
17
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
300000
200000
Price
Price
300000
100000
200000
100000
500
1500
2500
Area
3500
3
8
13
Rooms
18
Multipel linjär regression
Exempel
Kombination 3000 kvadratfot och 6
rum finns ej i datamaterialet
Är vår modell giltig för den prediktion
vi ville genomföra?
Pris
Area
Rum
117000
1008
6
108000
1036
6
126500
1092
6
133000
1100
6
116000
1100
6
98000
1165
6
129000
1200
6
126000
1232
6
117000
1248
6
110000
1289
6
117500
1300
6
121900
1300
6
100000
1338
6
128500
1344
6
135000
1400
6
140000
1403
6
152000
1450
6
110000
1450
6
142500
1552
6
150000
1564
6
120500
1600
6
141900
1632
6
145900
1680
6
144900
1900
6
19
Multipel linjär regression
Kvadratiska och kubiska termer
Det kan vara ett annat samband än linjärt mellan den beroende
variabeln och en förklarande variabel
Då kan man inkludera en kvadratisk eller kubisk term i
regressionsmodellen
Antal rum kan tyckas ha ett kvadratiskt samband med pris, en
modell där pris förklaras av antal rum och antal rum i kvadrat
har följande utseende:
y=β0 + β3·x3 + β5·x32 + ε
20
Multipel linjär regression
Exempel kvadratiska och kubiska termer
Regression Plot
Price = -45919.6 + 39679.9 Rooms
S = 33631.2
- 1606.41 Rooms**2
R-Sq = 35.6 %
R-Sq(adj) = 34.7 %
Price
300000
200000
100000
3
4
5
6
7
8
9
10
11
12
13
Rooms
21
Multipel linjär regression
Exempel kvadratiska och kubiska termer
Regression Analysis: Price versus Rooms; Rooms**2
The regression equation is
Price = - 45920 + 39680 Rooms - 1606 Rooms**2
Predictor
Constant
Rooms
Rooms**2
Coef
-45920
39680
-1606,4
SE Coef
38935
10477
698,8
T
-1,18
3,79
-2,30
P
0,240
0,000
0,023
S = 33631,2 R-Sq = 35,6% R-Sq(adj) = 34,7%
Ingen praktisk tolkning av b2
Kan även användas kubiska termer
Originalvariabeln behålls alltid i modellen!
22
Multipel linjär regression
Samspelstermer (interaktionstermer)
Det behöver inte vara ett kvadratiskt samband mellan den
oberoende variabeln och den förklarande variabeln
Det kan vara så att den förklarande variabeln samspelar med
en annan förklarande variabel
Relationen mellan den oberoende variabeln och en förklarande
variabel kan vara beroende på värdet på en annan förklarande
variabel
Då bildar man en samspelsterm (interaktionsterm), vilket
beskrivs i kommande exempel
23
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
Vi bygger vidare på modellen där pris förklaras av area och
antal rum
Antal rum i kvadrat och interaktionstermen läggs till i modellen:
y = β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3 + ε
24
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
Regression Analysis: Price versus Area; Rooms; Rooms**2
The regression equation is
Price = - 15812 + 49,3 Area + 22544 Rooms - 1529 Rooms**2
Predictor
Constant
Area
Rooms
Rooms**2
Coef
-15812
49,326
22544
-1529,1
SE Coef
34481
7,379
9549
613,6
T
-0,46
6,68
2,36
-2,49
P
0,647
0,000
0,020
0,014
S = 29528,4 R-Sq = 50,7% R-Sq(adj) = 49,6%
Alla variabler signifikanta när vi anpassar med den kvadratiska
termen
25
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
Regression Analysis: Price versus Area; Rooms; Rooms**2; Area*Rooms
The regression equation is
Price = 862 + 163 Area - 9248 Rooms + 2161 Rooms**2 - 14,0 Area*Rooms
Predictor
Constant
Area
Rooms
Rooms**2
Area*Rooms
Coef
862
162,78
-9248
2161
-14,002
SE Coef
34085
39,23
14262
1390
4,759
T
0,03
4,15
-0,65
1,56
-2,94
P
0,980
0,000
0,518
0,122
0,004
S = 28783,4 R-Sq = 53,4% R-Sq(adj) = 52,2%
När vi anpassar en modell med både kvadrattermen och
interaktionstermen blir bara interaktionstermen signifikant. Den
har ”tagit över” kvadrattermens roll.
26
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
Regression Analysis: Price versus Area; Rooms; Area*Rooms
The regression equation is
Price = - 28051 + 109 Area + 11862 Rooms - 7,32 Area*Rooms
Predictor
Constant
Area
Rooms
Area*Rooms
Coef
-28051
108,55
11862
-7,321
SE Coef
28707
18,06
4401
2,058
T
-0,98
6,01
2,70
-3,56
P
0,330
0,000
0,008
0,001
S = 28922,9 R-Sq = 52,7% R-Sq(adj) = 51,7%
Vid anpassning med interaktionstermen blir alla signifikanta och
vi får en högre förklaringsgrad.
27
Multipel linjär regression
Se upp med!
Det kan vara lockande att ha så många variabler som möjligt i
modellen för att förklara variansen i datamaterialet bra
Dock kan detta leda till överanpassning, det vill säga att
modellen blir ”för bra” anpassad till datamaterialet och att
prediktionerna då blir felaktiga
Hitta en balans mellan antalet variabler och förklaringsgrad
28