Statistik Lektion 17 Multipel Lineær Regression

Download Report

Transcript Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17
Multipel Lineær Regression
Polynomiel regression
Ikke-lineære modeller og transformation
Multi-kolinearitet
Auto-korrelation og Durbin-Watson test
Multipel lineær regression
x1,x2,…,xk uafhængige variable (forklarende variable).
Model:
Yi   0  1 x1i   2 x2i   3 x3i     k xki   i
 i i.i.d. N (0,  ), i  1,, n
2
Dagens spørgsmål
 Hvad kan man gøre hvis sammenhængen mellem Y
og X ikke er beskrevet ved en ret linie?
 I tilfælde af heteroskedasdiske data – hvad kan man
da gøre?
 Er residualerne data auto-korrelerede?
Polynomiel regression


Nogle gange er sammenhængen mellem Y og en
enkelt forklarende variabel X utilstrækkeligt
beskrevet ved en ret linie, men bedre ved et
polynomie.
I disse tilfælde bruger vi polynomiel regression,
hvor modellen er på formen
Y   0  1 X   2 X 2   3 X 3     m X m  
(Et m’te grads polynomie)

Modellen er stadig lineær!!!
 ~ N (0,  )
2
Polynomiel Regression: Illustration
2. grads polynomie
3. grads polynomie
Y
Y
yˆ  b0  b1 x
yˆ  b0  b1 x  b2 x 2
X1


yˆ  b0  b1 x
yˆ  b0  b1 x  b2 x 2  b3 x 3
X1
Brug kun polynomiel regression, hvis der er et godt
argument for det – fx relevant baggrundsviden.
Brug helst ikke over 2. grads polynomie (dvs X2) og
aldrig mere end 6. grads polynomie (dvs X6) .
Polynomiel Regression som Modelkontrol

Vi har en forventning om lineær sammenhængen
mellem Y og X.

Et simpelt tjek er at tilføje det kvadratiske led X2 til
modellen.

Hvis X2 ledet ikke er signifikant har vi lidt mere grund
til at tro på antagelsen om lineær sammenhæng.
Polynomiel regression: Eksempel

Body Mass Index:
BMI  v h 2
hvor v er vægten målt i kg og h er højden målt i meter.
Omskrivning: v = BMI ∙ h2.

Model:

Yi   0  1 X i   2 X   i
2
i
 i ,,  i iid  i ~ N (0,  )
2

hvor Y er vægten og X er højden.
I SPSS skabes en ny variabel X2 vha.
Transform→Compute…
Skabe

2
X
i SPSS
På baggrund af variablen ’hojdeim’
skabes
 hoejdeim2 = hojdeim*hojdeim
Scatterplot og estimater
Et 2. grads polynomie
tilpasset data →
Coefficientsa
Model
1
(Cons tant)
hojdeim
hojdeim2
Uns tandardized
Coefficients
B
Std. Error
147,068
53,380
-176,180
61,599
76,273
17,739
a. Dependent Variable: vægt
Standardized
Coefficients
Beta
-1,223
1,839
t
2,755
-2,860
4,300
Sig.
,006
,004
,000
Model Summary
Model
1
R
R Square
a
,618
,382
Adjus ted
R Square
,381
Std. Error of
the Es timate
10,9271
a. Predictors : (Constant), hojdeim2, hojdeim
Modellen forklarer kun ca 38% af variationen – ikke
imponerende.
ANOVA
b
Model
1
Regress ion
Res idual
Total
Sum of
Squares
190616,2
308411,6
499027,8
df
2
2583
2585
Mean Square
95308,098
119,401
F
798,222
a. Predictors : (Constant), hojdeim2, hojdeim
b. Dependent Variable: vægt
…men modellen er stadig ”besværet værd”.
Sig.
,000 a
Polynomiel regression med mere end en
variabel


Det er muligt at
anvende polynomier
bestående af mere
end en variabel.
Fx to variable X1 og X2
– herved kan
regressions fladen fx
få form som en
paraboloide.
Y   0  1 X 1   2 X 2   3 X   4 X   5 X 1 X 2  
2
1
2
2
Ikke-lineære modeller og transformation


For nogle ikke-lineære modeller er det muligt
at transformere modellen, så den bliver
lineær.
Vi skal se på
 Den multiplikative model
 Den eksponentielle model
 Den reciprokke model
Den Multiplikative Model

Den multiplikative model
Y   0 X 11 X 2 2 X 33 



hvor  er et fejlled.
Logaritme-transformation: Vi tager (den
naturlige) logaritme på begge sider af ligningen:
log Y  log  0  1log X 1   2log X 2  3log X 3  log 
Vi har nu en lineær model!
Hvis log ~ N(0,2) så kan vi udføre multipel lineær
regression som sædvanligt! Vi skal bare logaritmetransformere vores variable først.
Den Multiplikative Model

Den multiplikative model kan skrives som
~
~
~
~ ~
Y  0  1 X1  2 X 2  3 X 3  
~
~
hvor Y  log Y , X 1  log X 1 osv.

Eksempel: Vi kan omskrive BMI formlen (igen):
v  BMI  h 2
log v  log BMI  2 log h
■ Model:

Y   0  1 X  
hvor Y = log v og X = log h.
Er mon β0 ≈ log(23) og β1 ≈ 2 ?

Resultat


β0 = 3,069
β1 = 2,156
Fortolkning:

Bemærk: E(v|h)  21.52 h2,156

”Forventet” β0 = ln(23)=3,13
”Forventet” β1 = 2
v = e3,069h2,156 = 21.52 h2,156
Den Eksponentielle Model

Den eksponentielle model
Y   0 e 1 X 1   2 X 2 

En logaritme transformation senere:
log Y  log  0  1 X 1   2 X 2  log 

Vi antager log ~ N(0,σ2)

Vi logaritme-transformerer kun Y, men ikke X1 og X2!

Derefter kan vi foretage almindelig multipel lineær
regression.
Den Eksponentielle Model - fortolkning

Antag vi har estimeret
log Y  2.1  1.1X 1    3.2 X k

Fortolkning af bk = 3.2:
Hvis xk stiger med 1 (og alle andre x’er holdes
fast), så stiger Y med en faktor e3.2.
Den Reciprokke Model

Hvis
1
Y
 0  1 X 1     k X k  
så er


1
  0  1 X 1     k X k  
Y
Tag reciprokværdien af Y og lad X’erne være.
Kør derefter multipel lineære regression som
sædvanligt.
Variansstabiliserende transformationer




y
I tilfælde, hvor residualerne ser
heteroskedastiske ud, kan man
forsøge sig med følgende
transformationer:
Kvadratrods-transformation:
Y
god når variansen er proportional med
middelværdien.
log Y
Logaritme-transformation:
god når variansen er proportional med
middelværdien i 2.
Reciprokke-transformation:
1Y
god når variansen er proportional med
middelværdien i 4.
x
Multikolinearitet

To variable X1 og X2 er perfekt kolineære, hvis
X1  a  bX 2
for to reelle tal a og b. Corr(X1,X2) = 1 (eller -1)

Eksempel: Perfekt kolinearitet (sjældent problem)
 X1 = Indkomst i kr. og X2 = Indkomst i $

Eksempel: Ret kolineære variable (reelt problem)
 X1 = Alder og X2 = Anciennitet
Konsekvenser af Multikolinearitet





Variansen af regressions-koefficienterne (bj’erne)
”eksploderer”.
Størrelsen på regressions-koefficienterne kan
afvige meget fra hvad man ville forvente.
Tilføje/fjerne variable resulterer i store ændringer i
regressions-koefficienterne.
Fjerne et data-punkt kan resultere i store
forandringer i regressions-koefficienterne.
I nogle tilfælde er F-testet signifikant mens ingen ttest er.
Variance Inflation Factor (VIF)






Antag vores regressionsmodel allerede indeholder de
forklarende variable X1,…,Xk.
Hvor meget ekstra kolinearitet introduceres, hvis
medtager en ekstra forklarende variabel Xh?
Foretag en multipel lineær regression med Xh som
afhængig variable og X1,…,Xk som forklarende.
Lad Rh2 være den tilsvarende determinations koefficient.
Da er VIF givet ved
1
VIF ( X h ) 
1 R
2
h
1
Jo mere Xh er kolinear med X1,…,Xk , jo højere Rh2 og jo
højere VIF.
VIF: Eksempel


Model:
Y   0  1 X 1   2 X   3 X 2  
2
1
hvor X1 er højde og X2 er alder.
I SPSS: I ’Linear Regression’ vælger man
’Statistics…’ og der ’Colinearity diagnostics’.
Coefficientsa
Model
1
(Cons tant)
hojdeim
hojdeim2
alder
Uns tandardized
Coefficients
B
Std. Error
95,290
51,885
-132,179
59,791
65,943
17,207
,160
,012
a. Dependent Variable: vægt

Standardized
Coefficients
Beta
-,917
1,589
,213
t
1,837
-2,211
3,832
13,689
Sig.
,066
,027
,000
,000
Collinearity Statis tics
Tolerance
VIF
,001
,001
,927
769,193
768,441
1,079
X1 og X12 ser ud til at være (indbyrdes) kolineare,
mens X2 (som forventet) ikke ser ud til at være det.
VIF: Eksempel - fortsat

Scatter-plot af X 12 mod X1
Multikolinearitet: Løsninger

Fjern en kolineær variabel fra modellen.
Auto-korrelation




Antag at Xi svarer til i’te måling af variabel X, fx
temperaturen kl. 12 på den i’te, fx dag.
Lag-h auto-korrelationen er defineret ved
r h  Corr ( X i , X i  h )
dvs. korrelationen mellem temperaturer målt med h
dages mellemrum.
Bemærk: Vi har antaget at fejlledene er
uafhængige, dvs. rh = Corr(i , i+h) = 0 for alle h.
Dvs. vi forventer rh = Corr(ei , ei+h) ≈ 0 for alle h.

Eksempler hvor
residualerne udviser

Stærk autokorrelation (øverst)
Data

Ringe autokorrelation (nederst)
Residualer
Durbin-Watson Test

Test for om lag-1 auto-korrelationen er nul
 H0: r1 = 0
 H1: r1  0

Teststørrelsen er
2
(
e

e
)
i2 i i1
n
d

2
e
i1 i
n
Bemærk at d ikke er et stikprøve-estimatet af lag-1
auto-korrelationen
Kritiske værdier for Durbin-Watson



Efter at have udregnet d finder vi dL og dU i Tabel 7 i
Appendix C.
Derefter sammenligner vi d med punkterne i
skemaet nedenfor.
Er d i det grønne område forkaster vi H0.
Positiv
Autokorrelation
0
dL
Test uden
Konklusion
dU
Ingen
Autokorrelation
Test uden
Konklusion
4-dU
Negativ
Autokorrelation
4-dL
4
d
Durbin-Watson: Eksempel
For n=100 og h=1 giver tabelopslag dL=1,65 og dU=1,69.
2,35
2,31
Predictors : (Cons tant), x
Hera. afviser
vi H0 – dvs. ρ1≠0, altså auto-korrelation.
0
20
40
100
0
20
40
y
20
40
0
80
100
20
40
0
e
20 10
Auto-correlation: -0.03193
0
20
40
60
80
100
60
80
100
x
60
x
100
x
x
0
80
20
40
60 -0.03193
80
100
Auto-correlation:
20
60
60
x
-10 10
y
-10
Predictors : (Cons tant), x
Hera. kan
vi ikke afvise H0 – dvs. igen auto-korrelation.
b. Dependent Variable: y2
0
e
20
DurbinWatson
2,053
20 10
Std. Error of
the Es timate
10.49927
0
R
R Square
a
,030
,001
80
x
0 -10 10
Model
1
Adjus ted
R Square
-,009
60
Auto-correlation: 0.62466
-40
x
b. Dependent Variable: y1 Model Summaryb
4
e
e
20
DurbinWatson
,965
40
60
80
100
-20 -40
-20 20
y
R
R Square
a
,325
,105
Std. Error of
the Es timate
13.44421 0
-20
Model
1
Adjus ted
R Square
,096
Auto-correlation: 0.62466
0 -20
10 20 30
0 10 20 30
4-dL
d
0
1,69
Model
Summaryb
Negativ
Autokorrelation
4-dU
y
1,65
dU
Test uden
Konklusion
-10
dL
Ingen
Autokorrelation
20
0
Test uden
Konklusion
0
Positiv
Autokorrelation
0

80
100
0
20
40
x