Multivariate Statistische Verfahren

Download Report

Transcript Multivariate Statistische Verfahren

Multivariate Statistische Verfahren
Multiple Korrelation und das Problem der Kollinearitäten
Universität Mainz
Institut für Psychologie
WS 2011/2012
Uwe Mortensen
Multiple Regression
Yi  b0  b1 X i1  b2 X i 2 
 bp X ip  ei , i  1,
,m
Yi  Studienerfolg (Abschlußnote)
b0 , b1 ,
X i1  Abiturnote
zu bestimmen sind, dass Vorhersage
möglichst fehlerfrei.
X i 2  Ergebnis eines Mathe-Tests
, bp freie Parameter, die so
X i 2  Ergebnis Motivationstest
Bestimmung der b0 , b1 ,
X ip  Ergebnis Ausdauertest
Methode der Kleinsten Quadrate.
, bp )   Yi  b0  b1 X i1 
m
Q(b0 , b1 ,
, bp :
i 1
 bp X ip 
2
soll als Funktion der freien Parameter minimiert werden.
Multiple Regression
m
yx
i 1
i i1
m
yx
i 1
i i2
m
m
 b1  x  b 2  xi1 xi 2 
i 1
2
i1
i 1
m
m
 b1  xi1 xi 2  b 2  x 
i 1
i 1
2
i2
m
 b p  xi1 xip
i 1
m
 b p  xi 2 xip
i 1
p Gleichungen in p
Unbekannten
m
yx
i 1
i ip
m
m
i 1
i 1
 b1  xi1 xip  b 2  xi 2 xip 
b0  Y  b1 X 1  b2 X 2 
bp X p
Kompakte Darstellung der Lösung:
b  ( X ' X ) 1 X ' Y
m
 b p  xip2
i 1
Multiple Regression
Standardisierung:
z 0i 
X  xj
Yi  y
, zij  ij

sy
sj
ry1   1   2 r12 
  p r1 p
ry 2   1r21   2 
  p r2 p
Idealfall: Prädiktoren sind unkorreliert:
rij  0 für alle i  j. Dann folgt
 j  ryj .
Was bedeutet es, wenn Prädiktoren
korreliert sind?
ryp   1rp 21   2 r2 p 
 j  bj
sj
sy
Rxy  R     R 1Rxy
p
Gelegentlich: Suppressoreffekte - ein Prädiktor
korreliert zwar nicht mit dem Kriterium, aber mit
anderen Prädiktoren und unterdrückt irrelevante
Aspekte in den Prädiktoren.
Multiple Regression: Eigenschaften der Schätzungen
Y  Xb  e  Y  e  e  Y  Y  e ' e  (Y  y)'(Y  Y )
Minimalisierung  b  ( X ' X )1 X ' Y
Wie gut sind die Schätzungen?
E (b)  b
Kov(b)   2 ( X ' X ) 1 (Kovarianz zwischen Komponenten von b)
se2 
1
(Y  X b) '(Y  X b)
nm
Satz von Gauß-Markov:
Die KQ-Schätzung b für b hat die kleinste Varianz unter allen
linearen, verzerrungsfreien Schätzern für b.
Multiple Regression: Eigenschaften der Schätzungen
l j  b j  b j (Abweichung Schätzung - "wahrer" Wert)
L  (l1 ,
,lp ) '
E ( L)   2 sp( X ' X ) 1 (sp=Summe der Diagonalelemente)
E (b ' b)  b ' b   2 sp( X ' X ) 1 (Der geschätzte Vektor ist länger als der wahre)
Details:
X ' X  PP ', P Eigenvektoren,  Eigenwerte
Dann folgt ( X ' X )
1
1
 P P ' 
n

k 1
'
Pk Pk
k
, wie umseitig gezeigt wird.
Es folgt weiter: Da Kov(b)   2 ( X ' X ) 1  Varianzen/Kovarianzen zwischen
Schätzungen werden groß, wenn zumindest einige Eigenwerte klein werden!
Zwischenbetrachtung: Vektormultiplikation
 x1 
 
 x2  ( y , y ,
  1 2
 
 xn 
 x1 y1 , x1 y2 , , x1 ym 


x
y
,
x
y
,
,
x
y
2 m 
, ym )   2 1 2 2




 xn y1 , xn y2 , , xn ym 
Spaltenvektor mal Zeilenvektor ergibt eine Matrix, deren Elemente keine
Skalarprodukte sind, sondern einfach Produkte von Komponenten!
Diese Art des Produkts kann auf die Darstellung von Matrizen, insbesondere
symmetrischer Matrizen angewendet werden:
X ' X  V V ', V Eigenvektoren,  Eigenwerte
PP '  [ P1 , P2 ,
'
 1 , 0, , 0   P1 

 ' 
0,

,
,
0
 p2 
2


, Pn ]

 

  ' 
 0, 0, , n   Pn 
Zwischenbetrachtung: Vektormultiplikation
'
 1 , 0, , 0   P1 

 ' 
0, 2 , , 0   p2 
, Pn ] 

 

  ' 
 0, 0, , n   Pn 
PP '  [ P1 , P2 ,
PP '  [1P1 , 2 P2 ,
 P1' 
 '
p 
'
'
, n Pn ]  2   1 PP


P
P
1 2
2 2 2 
 
 P' 
 n
n
  P P    j Pj Pj'
X ' X   PP   P P 
'
1 1 2
1
'
2 2 2
1
( X ' X )  P P ' 
'
1 2
PP
1
 n Pn Pn'
'
n n n

'
2 2
PP
2

j 1

'
n n
PP
n
'
j
n
Pj P
j 1
j

Matrizen!
Summe von Matrizen!
Zwischenbetrachtung: Vektormultiplikation
 p12j , p1 j p2 j , , p1 j pnj 


2
n
 p2 j p1 j , p2 j , , p2 j pnj 
'
'
2
Pj Pj  
,
Spur
=
sp
(
P
P
)

p

j j
kj

k

1


 p p , p p , , p2 
nj 
 nj 1 j nj 2 j
Spur = Summe der Diagonalmatrix
n P P' 

j j
sp ( X ' X ) 1  sp ( P 1 P ')  sp  
 j 1  
j 

Konsequenzen: nächste Folie!
Multiple Regression: Eigenschaften der Schätzungen
Da Kov(b)   2 ( X ' X ) 1  Varianzen/Kovarianzen zwischen Schätzungen
werden groß, wenn zumindest einige Eigenwerte klein werden!
 pk21
sp( X ' X )   


k 1 
1
2
2  pk 1
Var (b k )   


 1
1
n
pk22

pk22

2
2
pkn2 


n 
pkn2 


n 
Zur Interpretation: hinter dieser Aussage verbirgt sich ein mathematischer
Sachverhalt, der für die Interpretation von Ergebnissen von Bedeutung ist.
Ist X‘X eine n-mal-n-Matrix, so gibt es maximal n von Null verschiedene Eigenwerte.
Läßt sich kein (Zeilen- oder Spalten-)Vektor von X durch die anderen Vektoren
„vorhersagen‘ (dh als Linearkombination berechnen), so sind alle Eigenwerte von
Null verschieden, andernfalls ist mindestens einer von ihnen gleich Null.
(Einen Nachweis dieser Behauptung findet man im Skript über Vektoren+Matrizen)
Multiple Regression: Eigenschaften der Schätzungen
Bei einer Datenmatrix läßt sich wegen der „Messfehler“ niemals ein Vektor exakt
durch andere voraussagen, also sind stets alle Eigenwerte ungleich Null. Aber es
kann Abhängigkeiten geben, die sich durch Regressionsgleichungen beschreiben
lassen („Kollinearitäten“). Diese Abhängigkeiten bewirken, dass einige Eigenwerte
zwar nicht exakt gleich Null, aber eben klein werden lassen.
Beispiel:
xi 2   xi1   i dh zwischen zwei Prädiktoren bestehe lineare Regression
( entspricht hier einer Korrelation!)
Dann
1  1 - 
1  
1
,
(
X
'
X
)




1   2   1 
  1
(X ' X )  
Multiple Regression: Eigenschaften der Schätzungen
Also
1  1 - 
1  
1
,
(
X
'
X
)




1   2   1 
  1
(X ' X )  
 2  1 - 
 Kov(b) 


1   2  - 1 
dh ausgeschrieben:
2
Var (b1 )  Var (b1 ) 
1 2
Je größer der Wert von  (  1), desto größer
werden die Varianzen und der Begtrag der Kovarianzen, die
überdies noch negativ sind, dh die verschiedenen Regressionsgewichte alternieren im Vorzeichen!
Multiple Regression: Eigenschaften der Schätzungen
Standardisierte Gewichte bei hohen Prädiktorkorrelationen und geringer Fallzahl (0h, 154 Fälle):
Koeffizienten (Gewichte) werden (Absolutbetrag) zu groß!
Entzerrung der Schätzungen: Regularisierung
Tychonoff-Regularisierung
b  ( X ' X ) 1 X ' Y = "normale" KQ-Lösung
b  ( X ' X   ' ) 1 X ' Y  Tyhonoff-Ansatz
Hoerl &Kennard (1970) :   hI , h reelle Zahl, I Einheitsmatrix
 Ridge-Regression
p
bh  
j 1
j
j  h
2
Pj Q 'jY
bewirkt Verkleinerung („Shrinkage“) der verzerrten Schätzungen!
Alternative Shrinkage-Methode: PCA-Regression