Regressions modeller * Hvad regresserer vi på og hvorfor?

Download Report

Transcript Regressions modeller * Hvad regresserer vi på og hvorfor?

Regressions modeller –
Hvad regresserer vi på og hvorfor?
Anders Stockmarr
Axelborg statistikgruppe
6/11 2012
1
Generel Regression
• Yt= f(Xt) +εt, t=1,…,n
• f er en UKENDT funktion, der beskriver
relationen mellem den uafhængige
variabel X, og den afhængige variabel Y.
• Vi vil gerne afdække hvorledes X og Y er
relateret (dvs. undersøge egenskaber ved
f), gennem analyser af parrede
observationer (Xt,Yt)t=1,…,n
2
Lineær Regression
• Antag at f ∊ C ∞(R)
• Så er
f ( x) 


n
an x ,
n0
( 0 ) / n!.
hvor
• Dermed er
an  f
(n)
f ( x )  a 0  a1 x  o ( x ),
hvor o(x)=xε(x).
3
Lineær Regression – funktioner af
flere variable
• 1. ordens Taylor-udvikling: I modeltermer erstattes f i
Yi= f(Xi) +εi, i=1,…,n
Med
f ( x )  f (0) 
f
 x
i
def
( 0 ) x i  o (|| x ||)  a 0 
i
a
1,i
x i  o (|| x ||)
i
hvor restleddet sættes til nul, og hvor a0, a1 er ukendte,
dvs. den multiple regressionsmodel
Yt= α+β1X1,t +…+ βkXk,t + εt, t=1,…,n.
4
Lineær Regression –funktioner af
flere variable
• 2. ordens Taylor-udvikling:
f ( x )  f (0) 
f
 x
i
(0 ) xi 
 f
2
1

2
x x
i, j
i
i
( 0 ) x i x j  o (|| x || )
2
j
• I modeltermer erstattes
Yt= f(Xt) +εt, t=1,…,n
Med
Yt   

i
i
X i ,t    i , j X i ,t X
j ,t
  t , t  1,  , n .
i, j
5
Lineær Regression –funktioner af
flere variable
• 2. ordens Taylor-udvikling:
f ( x )  f (0) 
f
 x
i
(0 ) xi 
i
1
2
 f
2
 x x
i, j
• I modeltermer erstattes
i
( 0 ) x i x j  o (|| x || )
2
j
Yt= f(Xt) +εt, t=1,…,n
Med
Yt   

i
i
X i ,t    i , j X i ,t X
j ,t
  t , t  1,  , n .
i, j
Lineær regressionsmodel med 1. ordens interaktioner (og kvadratiske
effekter; udelades ofte).
6
Polynomiel regression af højere orden
• Princip:
n
o
(||
x
||
) mindskes til en pris
• Ynøjagtigheden
af introduktion af flere forklarende variable;
n
o
(||
x
||
) er af en
• Når ynøjagtigheden
størrelsesorden så den kan inkorporeres i
residualvariansen ε, er modellen tilstrækkelig
i modelleringsforstand.
7
Polynomiel regression af højere orden
• Princip:
n
o
(||
x
||
) mindskes til en pris
• Ynøjagtigheden
af introduktion af flere forklarende variable;
n
o
(||
x
||
) er af en
• Når ynøjagtigheden
størrelsesorden så den kan inkorporeres i
residualvariansen ε, er modellen tilstrækkelig
i modelleringsforstand.
• Det kan i praksis kræve mange led:
• Eksempel
f ( x )  exp(  x )
8
Skalering
• Højere ordens regression ønsker vi ikke; meget
vanskeligt at fortolke og kommunikere.
• Løsningen er data-transformation.
• Vi anstrenger os en del for at finde skalaer, hvor
sammenhængen kan beskrives med en Taylorapproksimation af lav orden;
”sammenhængen er approksimativt lineær”
• log-transformation,
Box-Cox transformation,
kvadratrods-tranformation, etc.
9
Agenda
• Vi vil gerne erstatte ukendte funktioner med andre ukendte, som
dog har en kendt struktur; polynomier.
• Formålet er selvfølgelig, som al modellering, at forenkle
virkeligheden så man kan regne på den uden at begå for grove fejl.
• Men samtidigt skal vi også gerne kunne se og kommunikere
logikken i vores approksimation, så den må ikke være for
kompliceret.
• Subjektiv konklusion:
• Vi bør approksimere med en Taylor-udvikling der er af 1. eller 2.
orden, nogen gange 3. orden og aldrig over 4. Data skal skaleres, så
dette kan lade sig gøre.
10
Ortogonalisering
Modellen
Yt   

i
X i ,t    i , j X i ,t X
i
  t , t  1,  , n .
i, j
Er af formen
Yt   
j ,t

i
X i , t   t , t  1,  , n ,
i
hvor vi blot lader XiXj optræde som en
selvstændig kovariat. Dette gør den lineære
regressionsmodel meget generel.
11
Ortogonalisering II
I modellen
Yt   
Som vi skriver

i
X i , t   t , t  1,  , n ,
i
Y t   X t   t , t  1,  , n
T
på sædvanlig vis, benytter vi ML/LS/PE-estimatoren
ˆ  ( A A ) A Y ,
T
1
T
hvor A er matricen A   X 1 :  : X k  bestående af
søjlerne med værdierne for de enkelte kovariater.
12
Ortogonalisering II
Med normalfordelte støjled er ˆ normalfordelt;
ˆ ~ N (  ,  ( A A ) ).
2
T
1
Men nu er
 || X 1|| 2

  X 1, X 2 
T
A A


 X , X 
1
k

hvorfor ˆ i uafh. af
ˆ j
 X 1, X 2 





 X 1, X k  






2

|| X k ||

hviss <Xi,Xj>=0.
13
Ortogonalisering III
Modellen
Y t   X t   t , t  1,  , n
T
udtrykker jo blot at Y på nær støj er en
linear-kombination af søjlerne i matricen
A.
MAO: Finder vi en anden måde at
udtrykke linearkombinationer af søjlerne i
A, ændrer vi ikke modellen.
14
Ortogonalisering IV
• Ønsker vi stokastisk uafhængige estimater,
kan vi derfor lave en ny design matrix B,
således at søjlerne i B er ortogonale, og
således at søjlerne i B og A udspænder det
samme rum.
15
Ortogonalisering V
• Dette gøres rekursivt:
B1  A1 ;
i 1
B i  Ai 

j 1
 Ai , B j 
|| B j ||
2
Bj
16
Ortogonalisering VI
• Eksempel:
Yt   0   1 x t   2 x t   t , t  1,  , n
2
A1  1, A2  x t , A3  x t :
2
B1  1,
B 2  xt  x ,
B3  x  x 
2
t
2
SPD
x,x
SSD
2
( x t  x ).
x
17
Ortogonalisering VII
• I modellen
Yt   0   1 ( x t  x )   2 ( x  x 
2
t
2
SPD
x,x
SSD
2
( x t  x ))   t ,
x
t  1,  , n
er estimaterne derfor stokastisk uafhængige.
Tilbageregning:
2   2;
1   1   2
SPD
x,x
SSD
2
;
x
0   0  1x   2(
SPD
x,x
SSD
x
2
xx )
2
18
Ortogonalisering VIII
• Hvilke fordele ser I??
19
Regression på andet end polynomier
• Grunden til at vi kan bruge polynomier er
at polynomierne udgør en basis for C ∞(R),
udstyret med topologien for uniform
konvergens på kompakte mængder;
• Men man kan forestille sig situationer,
hvor det er mere naturligt at forlange, at f
tilhører en anden klasse end C ∞(R), og
hvor man derfor skal kigge på andre baser.
20
Regression på andet end polynomier
II
Eksempel:
Periodiske funktioner (de-trendede sæsondata).
Her udgør funktionerne
h n ( x )  sin(
2n

x)
hvor ω er perioden, en basis for en passende gruppe af funktioner;
man kan derfor modellere a la
2 i
Yt      i sin(
x t )   t , t  1,  , n ,

i
hvor disse sinusfunktioner kan ortogonaliseres ligesom tidligere.
21
Regression hvor den afhængige
variabel er stokastisk
• En forudsætning for at estimaterne i
modellen
Y t   X t   t , t  1,  , n
T
• er uafhængige, er at design-matricen er en
diagonal-matrix.
• Men en anden, implicit, forudsætning er,
at Xt er deterministisk. Hvis Xt er
stokastisk, er sagen generelt en anden.
22
Regression hvor den afhængige
variabel er stokastisk II
• Antag at både X og Y er stokastiske variable, med
en kausal relation imellem sig givet ved at
Y t   X t   t , t  1,  , n
T
• Her hvis gælder f.eks. at X t ~ N (  ,  2 ) , er f.eks
E(X )     ,
2
2
2
og dermed er det ikke oplagt at sædvanlige polynomier er den fornuftigste vej at gå, hvis man
f.eks. interesserer sig for hvad effekten af X er i
termer af potenser af μ.
23
Regression hvor den afhængige
variabel er stokastisk III
• Samtidig kan man interessere sig for en
helt anden form for ortogonalitet; nemlig
om de uafhængige variable som man
regresserer på, er uafhængige, eller i det
mindste ukorrelerede.
• Dette er en ganske anden ortogonalitet
end geometrisk ortogonalitet af n observationer, altså ortogonalitet i Rn.
24
Regression hvor den afhængige
variabel er stokastisk IV
Hvis X er normeret normalfordelt, er 2
funktioner f og g af X ukorrelerede, hvis


2
f ( x ) g ( x )e
x /2
dx  0

Definerer vi det indre produkt
def
 f , g 1 


2
f ( x ) g ( x )e
x /2
dx ,

er dette kriterium præcis ortogonalitet i L2forstand.
25
Regression hvor den afhængige
variabel er stokastisk V
En følger af funktioner der opfylder dette,
er Hermite polynomierne Hen, givet ved
He 0 ( x )  1;
He 1 ( x )  x ;
He 2 ( x )  x  1;
2
He 3 ( x )  x  3 x ;
3

He n ( x )  xHe n 1 ( x )  ( n  1) He n  2 ( x ).
26
Egenskaber ved Hermitepolynomierne I
•
Hermite-polynomierne udgør en basis
for vektorrummet
{ f : R  R : E | f ( X ) |
2
  , X
~ N ( 0 ,1)}
Dermed kan de fleste funktioner
approksimeres med summer af Hermite
polynomier.
27
Egenskaber ved Hermitepolynomierne II
def

2
x /2
 He ( x ) He ( x ) e dx  0
hvis n≠m, således at Hen(X) og Hem(X) er
ukorrelerede, hvis X er normeret normal-fordelt.
Hvis X ~ N (  ,1), er E ( He n ( x ))   n .
def
[ ]
Defineres He n ( x )    n / 2 He n ( x /  ), er He n[ ] ( X ) og
 He n , He m  1 
n
m

2
2
ortogonale/ukorrelerede for n ≠ m, hvis
X er normalfordelt (0,σ2).
[ ]
m
2
He
(X )
28
Egenskaber ved Hermitepolynomierne III
• Hermite-polynomier er altså skræddersyede til situationen, hvor man modellerer
dynamiske systemer uden feed-back
mellem uafhængige og afhængige variable.
• Hermite polynomier har orden n, så
Hermite polynomier op til orden n
modellerer præcis også Taylorudvikling op
til orden n (i 1 dimension).
29
Hermite-polynomier
• Hvad er jeres erfaringer?
30
Tak for opmærksomheden
•
31