Föreläsning 3 Tommy

Download Report

Transcript Föreläsning 3 Tommy

Föreläsning 3
732G05
Regressions- och tidsserieanalys
Multipel linjär regression
 En påbyggnad på enkel linjär regression
 Beskriva en beroende variabel y utifrån k stycken förklarande
variabler x1, x2, …, xk
y  0  1  x1  2  x2   k  xk  
 Där ε är feltermen (error term), som står för den del av
variationen i y som inte kan förklaras av modellen. Feltermen
antas:
 Ha medelvärde 0
 Ha konstant varians σ2
 Vara normalfördelad
 Vara oberoende av andra ε
2
Multipel linjär regression
Kvadratsummor och varians
 Samma beräkningar för SST och SSR
 Kvadratsummeuppdelning SST = SSR + SSE gäller fortfarande
 SSE beräknas på samma sätt som innan:
n
SSE    yi  b0  b1  x1i  b2  x2i    bk  xki 2
i 1
ˆi
y
 Variansen (σ2) skattas med MSE:
s
 Standardavvikelsen (σ) skattas med:
2

SSE
n  (k  1)
s
2
3
Multipel linjär regression
Hur utreda om modellen är bra?
1. F-test (Overall F-test, testar hela modellen)
•
H0: Alla parametrar (β1, β2,…, βk) är lika med noll
•
Ha: Minst en av parametrarna är skild från noll
SSR k
MSR
F

SSE n  k  1 MSE
•
Där k är antalet parametrar i modellen
•
Detta värde jämförs med Fα med k och n-k-1 frihetsgrader
2.
T-test (testar varje enskild variabel)
•
Beräknas på samma sätt som i enkel linjär regression
•
Skillnad är att t-fördelning med n-k-1 frihetsgrader används
4
Multipel linjär regression
Hur utreda om modellen är bra?
3. Förklaringsgrad (R2)

Beräknas och tolkas på samma sätt som i enkel linjär
regression
2
4. Justerad förklaringsgrad ( R )

R2 ökar alltid när en ny förklarande variabel läggs till i
modellen

Den justerade förklaringsgraden tar hänsyn till antalet
förklarande variabler

Denna ska användas vid jämförelse av modeller med
olika antal förklarande variabler
2
R

k 
n 1
2



R 

n  1  n  (k  1) 


5
Multipel linjär regression
Exempel 1
 Ett datamaterial bestående av 150 slumpmässigt valda
husförsäljningar i USA
Name
Price
Area
Acres
Rooms
Baths
Antal
150
150
150
150
150
Beskrivning
Pris
Area i kvadratfot
Tomtyta i tunnland
Antal rum
Antal badrum
Modell
y
x1
x2
x3
x4
 Vi vill undersöka hur priset beror på de förklarande variablerna
6
Multipel linjär regression
Exempel 1
Pris mot bostadsyta
Price
300000
200000
100000
500
1500
2500
3500
Area
7
Multipel linjär regression
Exempel 1
Pris mot tomtyta
Price
300000
200000
100000
0
10
20
Acres
8
Multipel linjär regression
Exempel 1
Pris mot antal rum
Price
300000
200000
100000
3
8
13
Rooms
9
Multipel linjär regression
Exempel 1
Pris mot antal badrum
Price
300000
200000
100000
1
2
3
4
Baths
10
Multipel linjär regression
Exempel 1
 Minitab: Stat → Regression → Regression
11
Multipel linjär regression
Exempel 1
Regression Analysis: Price versus Area; Rooms
The regression equation is
Price = 64221 + 49,7 Area - 141 Rooms
Predictor
Constant
Area
Rooms
Coef
64221
49,673
-141
SE Coef
12766
7,507
2934
T
5,03
6,62
-0,05
P
0,000
0,000
0,962
S = 30047,0 R-Sq = 48,6% R-Sq(adj) = 47,9%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
2
147
149
SS
1,25273E+11
1,32715E+11
2,57989E+11
MS
62636682991
902824574
F
69,38
P
0,000
12
Multipel linjär regression
Punktskattningar
 En vanlig tillämpning av multipel linjär regression är att man vill
skatta (prediktera) värden för nya observationer
 Punktskattning (punktprediktion beräknas på samma sätt):
yˆ  b0  b1  x1  b2  x2    bk  xk
 Punktskattning (point estimate):
 Det skattade medelvärdet på y för alla observationer med
de givna värdena på x
 Punktprediktion (point prediction):
 Värdet en individuell observation väntas ha på y med de
givna värdena på x
13
Multipel linjär regression
Intervallskattningar
 Konfidensintervall (hör till punktskattning)
 Ett intervall för medelvärdet på y med de givna värdena på x
yˆ 0  t(n/2k1)  s  " Distancevalue"
 Prediktionsintervall (hör till punktprediktion)
 Ett intervall för värdet på y för en individuell observation med
de givna värdena på x
yˆ 0  t(n/2k1)  s  1" Distancevalue"
 ”Distance value” fås från datorutskrift
 Minitab: SE Fit =
s  " Distancevalue"
14
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
 Ett intervall för hus med area 3000 kvadratfot och 6 rum
 Minitab: Stat → Regression → Regression → Options
15
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
Predicted Values for New Observations
New
Obs
1
Fit
212396
SE Fit
12307
95% CI
(188076; 236717)
95% PI
(148229; 276564)XX
XX denotes a point that is an extreme outlier in the predictors.
16
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
Predicted Values for New Observations
New
Obs
1
Fit
212396
SE Fit
12307
95% CI
(188076; 236717)
95% PI
(148229; 276564)XX
XX denotes a point that is an extreme outlier in the predictors.
 Minitab indikerar att vår prediktion inte är helt pålitlig
 Vad kan detta bero på?
17
Multipel linjär regression
Exempel punktskattningar och intervallskattningar
300000
200000
Price
Price
300000
100000
200000
100000
500
1500
2500
Area
3500
3
8
13
Rooms
18
Multipel linjär regression
Exempel
 Kombination 3000 kvadratfot och 6
rum finns ej i datamaterialet
 Är vår modell giltig för den prediktion
vi ville genomföra?
Pris
Area
Rum
117000
1008
6
108000
1036
6
126500
1092
6
133000
1100
6
116000
1100
6
98000
1165
6
129000
1200
6
126000
1232
6
117000
1248
6
110000
1289
6
117500
1300
6
121900
1300
6
100000
1338
6
128500
1344
6
135000
1400
6
140000
1403
6
152000
1450
6
110000
1450
6
142500
1552
6
150000
1564
6
120500
1600
6
141900
1632
6
145900
1680
6
144900
1900
6
19
Multipel linjär regression
Kvadratiska och kubiska termer
 Det kan vara ett annat samband än linjärt mellan den beroende
variabeln och en förklarande variabel
 Då kan man inkludera en kvadratisk eller kubisk term i
regressionsmodellen
 Antal rum kan tyckas ha ett kvadratiskt samband med pris, en
modell där pris förklaras av antal rum och antal rum i kvadrat
har följande utseende:
y=β0 + β3·x3 + β5·x32 + ε
20
Multipel linjär regression
Exempel kvadratiska och kubiska termer
Regression Plot
Price = -45919.6 + 39679.9 Rooms
S = 33631.2
- 1606.41 Rooms**2
R-Sq = 35.6 %
R-Sq(adj) = 34.7 %
Price
300000
200000
100000
3
4
5
6
7
8
9
10
11
12
13
Rooms
21
Multipel linjär regression
Exempel kvadratiska och kubiska termer
Regression Analysis: Price versus Rooms; Rooms**2
The regression equation is
Price = - 45920 + 39680 Rooms - 1606 Rooms**2
Predictor
Constant
Rooms
Rooms**2
Coef
-45920
39680
-1606,4
SE Coef
38935
10477
698,8
T
-1,18
3,79
-2,30
P
0,240
0,000
0,023
S = 33631,2 R-Sq = 35,6% R-Sq(adj) = 34,7%
 Ingen praktisk tolkning av b2
 Kan även användas kubiska termer
 Originalvariabeln behålls alltid i modellen!
22
Multipel linjär regression
Samspelstermer (interaktionstermer)
 Det behöver inte vara ett kvadratiskt samband mellan den
oberoende variabeln och den förklarande variabeln
 Det kan vara så att den förklarande variabeln samspelar med
en annan förklarande variabel
 Relationen mellan den oberoende variabeln och en förklarande
variabel kan vara beroende på värdet på en annan förklarande
variabel
 Då bildar man en samspelsterm (interaktionsterm), vilket
beskrivs i kommande exempel
23
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
 Vi bygger vidare på modellen där pris förklaras av area och
antal rum
 Antal rum i kvadrat och interaktionstermen läggs till i modellen:
y = β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3 + ε
24
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
Regression Analysis: Price versus Area; Rooms; Rooms**2
The regression equation is
Price = - 15812 + 49,3 Area + 22544 Rooms - 1529 Rooms**2
Predictor
Constant
Area
Rooms
Rooms**2
Coef
-15812
49,326
22544
-1529,1
SE Coef
34481
7,379
9549
613,6
T
-0,46
6,68
2,36
-2,49
P
0,647
0,000
0,020
0,014
S = 29528,4 R-Sq = 50,7% R-Sq(adj) = 49,6%
 Alla variabler signifikanta när vi anpassar med den kvadratiska
termen
25
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
Regression Analysis: Price versus Area; Rooms; Rooms**2; Area*Rooms
The regression equation is
Price = 862 + 163 Area - 9248 Rooms + 2161 Rooms**2 - 14,0 Area*Rooms
Predictor
Constant
Area
Rooms
Rooms**2
Area*Rooms
Coef
862
162,78
-9248
2161
-14,002
SE Coef
34085
39,23
14262
1390
4,759
T
0,03
4,15
-0,65
1,56
-2,94
P
0,980
0,000
0,518
0,122
0,004
S = 28783,4 R-Sq = 53,4% R-Sq(adj) = 52,2%
 När vi anpassar en modell med både kvadrattermen och
interaktionstermen blir bara interaktionstermen signifikant. Den
har ”tagit över” kvadrattermens roll.
26
Multipel linjär regression
Exempel samspelstermer (interaktionstermer)
Regression Analysis: Price versus Area; Rooms; Area*Rooms
The regression equation is
Price = - 28051 + 109 Area + 11862 Rooms - 7,32 Area*Rooms
Predictor
Constant
Area
Rooms
Area*Rooms
Coef
-28051
108,55
11862
-7,321
SE Coef
28707
18,06
4401
2,058
T
-0,98
6,01
2,70
-3,56
P
0,330
0,000
0,008
0,001
S = 28922,9 R-Sq = 52,7% R-Sq(adj) = 51,7%
 Vid anpassning med interaktionstermen blir alla signifikanta och
vi får en högre förklaringsgrad.
27
Multipel linjär regression
Se upp med!
 Det kan vara lockande att ha så många variabler som möjligt i
modellen för att förklara variansen i datamaterialet bra
 Dock kan detta leda till överanpassning, det vill säga att
modellen blir ”för bra” anpassad till datamaterialet och att
prediktionerna då blir felaktiga
 Hitta en balans mellan antalet variabler och förklaringsgrad
28