Multivariate Statistische Verfahren

Download Report

Transcript Multivariate Statistische Verfahren

Multivariate Statistische
Verfahren
Universität Mainz
Institut für Psychologie
WS 2011/2012
Uwe Mortensen
Wozu multivariate Statistik, und was ist das überhaupt?
Multivariate Verfahren
2
Georg Wilhelm Friedrich Hegel
27. August 1770 – 14.November 1831
Das Wahre ist das Ganze.
Das Ganze aber ist nur das durch seine Entwicklung sich vollendende Wesen.
Es ist von dem Absoluten zu sagen, dass es wesentlich Resultat, dass es erst am Ende das ist,
was es in Wahrheit ist; und hierin eben besteht seine Natur, Wirkliches, Subjekt oder
Sichselbstwerden zu sein.
(Aus der Vorrede zur Phänomenologie des Geistes)
Multivariate Verfahren
3
„Variablen“
„objektive“
„subjektive“
„physikalische“ Umgebung
Psychischer Zustand
Sozio-ökonomische Bedingung
Fähigkeit
Physiologische Größen
Ansichten, Meinungen
etc
etc
Multivariate Verfahren
4
Verfahren
explorieren
„schließen“
Klassifizieren/diskriminieren
„Strukturen“
Multivariate Verfahren
5
Multiple Regression
y  b0  b1 x1  b2 x2 
Faktorenanalyse/
Hauptachsentransformation
Kanonische
Korrelation
 bp x p  e
Diskrimination-Klassifikation
Korrespondenzanalyse
(Kontingenztabellen)
Multivariate Verfahren
6
Überblick
1. Multiple Regression:
Gegeben ist eine Menge von etwa p Prädiktorvariablen, anhand derer eine abhängige
Variable y „vorhergesagt“ werden soll
2. Faktorenanalyse
Ziel: Die Beziehungen (Kovarianzen zwischen einer größeren Anzahl gemessener
Variablen durch die Wirkung einer kleineren Anzahl „latenter“, voneinander
unabhängiger Variablen zu erklären.
3. Diskriminanzanalyse
Ziel: Suche nach einer Gewichtung beobachtbarer Merkmale („Symptome“) zum Zweck
optimaler Kategorisierung.
4. Kanonische Korrelation
Ziel: Die Kanonische Korrelation ist eine Verallgemeinerung der multiplen Regression; es sollen
die latenten Strukturen zweier verschiedener Variablensätze (oder des gleichen Variablensatzes
in einer Vorher-Nachher-Messung) miteinander verglichen werden.
5. Korrespondenzanalyse
Ziel: Die Identifikation latenter Strukturen, die die Zusammenhänge in einer Kontingenztabelle
erklären („Faktorenanalyse von Häufigkeiten“)
Multivariate Verfahren
7
Multiple Regression
Yi  b0  b1 X i1  b2 X i 2 
 bp X ip  ei , i  1,
,m
Yi  Studienerfolg (Abschlußnote)
b0 , b1 ,
X i1  Abiturnote
zu bestimmen sind, dass Vorhersage
möglichst fehlerfrei.
X i 2  Ergebnis eines Mathe-Tests
, bp freie Parameter, die so
X i 2  Ergebnis Motivationstest
Bestimmung der b0 , b1 ,
X ip  Ergebnis Ausdauertest
Methode der Kleinsten Quadrate.
, bp )   Yi  b0  b1 X i1 
m
Q(b0 , b1 ,
, bp :
i 1
 bp X ip 
2
soll als Funktion der freien Parameter minimiert werden.
Multivariate Verfahren
8
Multiple Regression
m
yx
i 1
i i1
m
yx
i 1
i i2
m
m
 b1  x  b 2  xi1 xi 2 
i 1
2
i1
i 1
m
m
 b1  xi1 xi 2  b 2  x 
i 1
i 1
2
i2
m
 b p  xi1 xip
i 1
m
 b p  xi 2 xip
i 1
p Gleichungen in p
Unbekannten
m
yx
i 1
i ip
m
m
i 1
i 1
 b1  xi1 xip  b 2  xi 2 xip 
b0  Y  b1 X 1  b2 X 2 
m
 b p  xip2
i 1
bp X p
Multivariate Verfahren
9
Multiple Regression
Standardisierung:
z 0i 
X  xj
Yi  y
, zij  ij

sy
sj
ry1   1   2 r12 
  p r1 p
ry 2   1r21   2 
  p r2 p
Idealfall: Prädiktoren sind unkorreliert:
rij  0 für alle i  j. Dann folgt
 j  ryj .
Was bedeutet es, wenn Prädiktoren
korreliert sind?
ryp   1rp 21   2 r2 p 
 j  bj
sj
sy
p
Gelegentlich: Suppressoreffekte - ein Prädiktor
korreliert zwar nicht mit dem Kriterium, aber mit
anderen Prädiktoren und unterdrückt irrelevante
Aspekte in den Prädiktoren.
Multivariate Verfahren
10
Multiple Regression
ry1   1   2 r12 
  p r1 p
Nicht alle rij  0;
ry 2   1r21   2 
  p r2 p
existiert stets eine Lösung (  1 ,
,  p ) '?
sind Lösungen eindeutig?
ryp   1rp 21   2 r2 p 
p
Welchen Effekt haben korrelierende Prädiktoren auf die Eigenschaften
der Schätzungen (  1 ,
,  p ) ' der Regressionsgewichte, d.h. auf deren
Varianzen und Kovarianzen?
Insbesondere hohe Korrelationen bewirken eine große
Varianz der Schätzungen sowie negative Kovarianzen zwischen
den Schätzungen. (Dieser Sachverhalt wird noch explizit gemacht!)
Korrelationen zwischen den Prädiktoren  Multikollinearitäten
Multivariate Verfahren
11
Vorbereitende Betrachtungen zur Motivation
Ein simples Beispiel: Körpergewicht als Funktion der Körperlänge:
Das übliche Regressionsmodell:
K-Gewicht = a K-Länge + b + e
e = „Fehler“ (unabhängig von der K-Länge)
Aber das Gewicht hängt sicher noch von weiteren
Faktoren ab:
- Stoffwechsel (genetisch, epigenetisch. etc)
- Bewegung
- Essgewohnheiten (kulturelle, psychische Einflüsse
Alle diese Effekte (plus reine Messfehler, etwa beim Ablesen der Waage) definieren
den „Fehler“.
Gibt es eine Möglichkeit, die physische Erscheinung eines Menschen durch eine
minimale Menge voneinander unabhängiger Eigenschaften auszudrücken?
Multivariate Verfahren
12
Vorbereitende Betrachtungen zur Motivation
Übergang von korrelierenden Koordinaten
(Körperlänge, Körpergewicht) zu nicht
korrelierenden Koordinaten (Körpergrösse,
Stoffwechsel)
Formal: Koordinatentransformation bzw.
Rotation des ursprünglichen
Koordinatensystems!
Multivariate Verfahren
13
Vektoren und Matrizen I
Vektoren:
n-dimensionaler Vektor:
 x1 
 
x
x   2  , gestürzt oder transponiert: x '  ( x1 , x2 ,
 
 
 xn 
x  ( x1 , x2 , , xn ) '
, xn )
Skalarprodukt zweier Vektoren:
x'y = ( x1 , x2 ,
 y1 
 
y2 

, xn )
x y x y 
  1 1 2 2
 
 yn 
 xn yn  x, y 
Multivariate Verfahren
14
Vektoren und Matrizen I
Der Korrelationskoeffizient ist ein Skalarprodukt zweier Vektoren:
1 m ( xi  x) ( yi  y )
1
rxy = 
= ( z x1 , z x 2 ,
m i 1 sx
sy
m
ry1   1   2 r12 
  p r1 p
ry 2   1r21   2 
  p r2 p
 z y1 


z
 y2  1
, z xm ) 
  m ( z x1 z y1 


z 
 ym 
(r11 , r12 ,
ryp   1rp 21   2 r2 p 
p
Multivariate Verfahren
 z xm z ym )
 1 
 
2 
, r1 p ) '    ry1
 
  
 p
15
Vektoren und Matrizen I
(r11 , r12 ,
 1 
 
2 
, r1 p ) '    ry1
 
  
 p
 r11 , r12 , , r1 p   1   ry1 

   
 r21 , r22 , , r2 p    2   ry 2 

    

   
 r , r , , r      r 
pp 
yp
 p1 p 2
 p  
Matrix
Vektor
R  
Multivariate Verfahren
16
Vektoren und Matrizen I
Vektoren:
Länge eines Vektors:
x'x = ( x1 , x2 ,
 x1 
 
x2 

, xn )
xx x x 
  1 1 2 2
 
 xn 
 xn xn  x
2
(Pythagoras)
Länge = x  x ' x .
Multiplikation mit einem Skalar (= reelle Zahl):
 x1    x1 
  

x

x
x =   2    2 
  

  

x

x
 n  n
Multivariate Verfahren
17
Vektoren und Matrizen I
Vektoren:
Normierung eines Vektors auf die Länge 1:
Multiplikation mit   1/ x  x
yi 
1
.
xi
, i  1, , n
x
y y y 
2
2
1
=
2
2
1
x
2
y 
( x12  x22 
2
n
x12
x
2

x22
x
 xn2 ) 
x
x
2


xn2
x
2

2
2
 1.
Multivariate Verfahren
18
Vektoren und Matrizen I
Standardisierung:
zi 
z
2
xi  x
, i  1, , n; Vektor z  ( z1 , z2 ,
sx
 z12  z22 
 zn2 

d.h.
, zm ) '

1
2
2
(
x

x
)

(
x

x
)

1
2
2
sx
 ( xm  x ) 2

1
m s 2x =m.
2
sx
1
z ' z  1. (  Maximalwert eines Korrelationskoeffizienten)
m
Multivariate Verfahren
19
Vektoren und Matrizen I
Skalarprodukt und der Winkel zwischen den Vektoren
cos  
x' y
x y
(Folgerung aus dem Kosinussatz)
Orthogonale Vektoren:
   / 2 (= 900 )  cos   0  x ' y  0.
x und y heißen dann 'orthogonal' (rechtwinklig),
- sie stehen senkrecht aufeinander.
Anmerkung: Repräsentiert man Merkmale durch
Vektoren, so geben die Längen und die Winkel zwischen ihnen
Hinweise auf die Korrelationen zwischen ihnen!
Multivariate Verfahren
20
Bestimmung der Parameter IIIa
Wechseln zu Vektoren und Matrizen !
Multivariate Verfahren
21
Faktorenanalyse – Hauptachsentransformation (PCA) als Approximation
Yi  b0  b1 X i1  b2 X i 2 
X ij  a1 j Fi1  a2 j Fi 2 
Fi1 , Fi 2 ,
 bn X in  eij , r  n
 arj Fir  eij
(multiple Regression)
(Faktorenmodell)
, Fir hypothetisch, paarweise unabhängig.
Multivariate Verfahren
22
Multivariate Verfahren
23
Beispiel: Evaluation einer Vorlesung
Multivariate Verfahren
24
Zusammenfassung der Daten in einer Matrix
Fragen: Spalten
Zeilen:
Personen
 x11 , x12 ,

x21 , x22 ,

X


 xm1 , xm 2 ,
, x1n 

, x2 n 


, xm 2 
Korrelationen:
 r11 , r12 ,

r21 , r22 ,

R


 rn1 , rn 2 ,
, r1n 

, r2 n 
, mit rij  rji (Symmetrie)


, rn 2 
Multivariate Verfahren
25
Faktorenanalyse: Hauptkomponenten
Multivariate Verfahren
26
Faktorenanalyse: Hauptkomponenten
Start- bzw. Standardlösung
Rotation (Interpretation)
(WS 2003/2004)
Multivariate Verfahren
27
WS 2004/2005
Multivariate Verfahren
28
Weiteres zum Faktorenmodell: die PCA-Approximation
Das Faktorenmodell:
X ij  a1 j Fi1  a2 j Fi 2 
 arj Fir  eij
i – Person
j – Test, gemessene Variable
Die a1i ,
, arj sowie die Fi1 ,
, Fir , eij sind unbekannte
(= "freie") Parameter, - wie kann man sie bestimmen, und wie
werden sie interpretiert?
Multivariate Verfahren
29
Approximation: die Hauptachsentransformation
(Principal Component Analysis – PCA)
Plausibilitätsbetrachtungen I:
zwei Variable – Körperlänge (X1) und Körpergewicht (X2)
X 2   X 1     ij
X 1 = Körperlänge, X 2 = Körpergewicht
Deutung der Regression: beide Variablen
erfassen gemeinsam eine "latente" Variable L :
X1 = a1L  b1  e1
X 2  a2 L  b2  e2
 
L = "Größe"
a2
b b
e e
,  2  1,  2  1
a1
a2 a1
a2 a1
Aber was ist mit dem Fehler  ?
Multivariate Verfahren
30
Multivariate Verfahren
31
Plausibilitätsbetrachtungen II:
1. Abweichungen des Gewichts von der Vorhersage ist „zufällig“:
• Menge der Nahrungsaufnahme am Vortag
• Zeitpunkt der Messung (vor oder nach dem Frühstück)
• Sport am Vortag oder kein Sport
• etc etc etc
2. Aber es gibt auch systematische Aspekte:
unabhängig von der Körperlänge variieren
• Stoffwechselintensität
• Sozioökonomischer Status, formale Bildung: Fritten versus haute cuisine
• etc etc
Multivariate Verfahren
32
Plausibilitätsbetrachtungen III:
Es war:
X1 = a1L  b1  e1
X 2  a2 L  b2  e2
Ansatz:
X 1  a11 L1  a12 L2
X 2  a21 L1  a22 L2
d.h. L  L1 ,
b1  e1  a12 L2
b2  e2  a22 L2
Der „Fehler“ wird durch die zufällige Variation der latenten
Variablen L2 erklärt.
(Hinweis: mehr als zwei latente Variable können hier nicht
betrachtet werden, obwohl mehr als zwei solche Variable wirksam
sein können. )
Multivariate Verfahren
33
Bestimmung der Parameter I
Ansatz (Modell):
X 1  a11 L1  a12 L2
X 2  a21 L1  a22 L2
Vorhersage der gemessenen Variablen anhand der
(hypothetischen) latenten Variablen.
Aber die latenten Variablen müssen ja anhand der gemessenen Variablen
berechnet werden! Daher:
Ansatz:
b11 X1  b12 X 2  L1
b21 X1  b22 X 2  L2
Frage:
Wie kann man die b jk bestimmen?
Und in welcher Beziehung stehen die
b jk und die a jk zueinander?
Die Antwort findet man leicht, wenn man den Marizenkalkül heranzieht!
Multivariate Verfahren
34
Bestimmung der Parameter II
X 1 , X 2 , L1 und L2 sind Vektoren, die zu Matrizen zusammengefasst
werden können:
 x11 , x12 
 l11 , l12 




x
,
x
l
,
l
 21 22 
 21 22 




X   X1, X 2   
 , L   L1 , L2   

x
,
x
l
,
l
 i1 i 2 
 i1 i 2 








 xm1 , xm 2 
 lm1 , lm 2 
Ebenso können die Koeffizienten b jk zu einer
Matrix B zusammengefasst werden:
 b11 , b12 
B
.
 b21 , b22 
Multivariate Verfahren
35
Bestimmung der Parameter III
Dann kann der Ansatz
b11 X 1  b12 X 2  L1
b21 X 1  b22 X 2  L2
in der einfachen Matrixgleichung
XB  L
angeschrieben werden.
Für den Ansatz
X 1  a11 L1  a12 L2
X 2  a21 L1  a22 L2
ergibt sich analog
 a11 , a12 
X  LA, wobei A  
.
 a21 , a22 
Multivariate Verfahren
36
Bestimmung der Parameter IV
Es war
b11 X 1  b12 X 2  L1
b21 X 1  b22 X 2  L2
d.h.
Die Vektoren in L werden als orthogonal
 ,0 
vorausgesetzt: L ' L     1  .
 0, 2 
 j ist das Quadrat der Länge von L j .
XB  L.
Dann folgt aber auch
L ' L  B ' X ' XB  .
Damit weiß man: die Spaltenvektoren
von B müssen die Eigenvektoren von X ' X
sein, und die Eigenwerte i sind gleich den
Quadraten der Längen von Li .
Damit ist das Problem, die latenten Variablen zu
bestimmen, im Prinzip gelöst.
Multivariate Verfahren
37
Zusammenfassung der Überlegungen:
Gesucht: Voneinander unabhängige "latente" Variablen, die die
Beziehungen zwischen den beobachteten Variablen "erklären" die beobachteten Variablen als Linearkombinationen der latenten Variablen.
Latente Variablen: Matrix L, die Spalten von L enthalten die Werte
der Personen (allgemein "Fälle") auf diesen Variablen..
L muß aus der beobachteten Matrix X berechnet werden:
L  XB
unbekannt
L unabhängig  L orthogonal  L ' L  D diagonal
L  XB  L ' L  B '( X ' X ) B  D  X ' X symmetrisch  B ' Eigenvektoren von X ' X ,
D Eigenwerte von X ' X  B und D können aus X ' X berechnet werden!
Multivariate Verfahren
38
L ' L  D (oder L ' L , i  1),  man kann die Vektoren in L normieren:
LD1/2  Q  Vektoren in Q haben die Länge 1.
L
L



L
11
LD
1/ 2
21
, L12 ,
, L22 ,
m1
, Lm 2 ,
LD
1/ 2
, L1 n
, L2 n
, Lmn


 








1
0
1
0


 L
 
 L

 
 L
 


11
1
0
0
2
0
21
1
0
 Q  L= QD
1/ 2
n
m1
/
1
L12 /
2
L1 n /
n
/
1
L22 /
2
L2 n /
n
/
1
Lm 2 /
2
Lmn /
n







und X  LB '  X  QD B ',
1/ 2
oder, in üblicher Schreibweise:
X  QD P '.
1/ 2
Dies ist die Singularwertzerlegung von X (Singular Value Decomposition, SVD).
Multivariate Verfahren
39
Interpretation der SVD
X  QD P '.
1/ 2
A  PD1/ 2 .  ( a jk ), j  1,
, n, k  1,
,n
a jk ist "Ladung" des j -ten "Tests" auf der k -ten latenten Dimension (Faktor).
X  QA ' . Q  Zeilen "Faktor-Scores" der i-ten Person auf den latenten Dimensionen.
xij = qi1ak1  qi 2 a j 2 
Ausprägung der i-ten Person
auf den latenten Dimensionen.
 qin a jn
Ausprägung des j-ten Tests
auf den latenten Dimensionen.
Merke: es gibt keinen Fehlerterm!!!
Multivariate Verfahren
40
Bestimmung der Parameter IV
XB  L, B orthonormal (da Eigenvektoren einer symmetrischen Matrix)
 XBB '  X  LB ', also A  B 1  B '.
(Die Eigenvektoren und die zugehörigen Eigenwerte werden
numerisch bestimmt!)
Man berechnet also die Eigenvektoren und Eigenwerte von X‘X und bestimmt
damit die latenten Vektoren L. Die Transformationen von X nach L und umgekehrt
von L nach X werden durch zueinander inverse Matrizen bewirkt.
Fragen:
(1) Welche Eigenschaften hat die Lösung (Eindeutigkeit etc), und
(2) Wie ist diese Lösung zu interpretieren?
Multivariate Verfahren
41
Diskussion der Lösung: Rotation und Reduktion
Das Modell: Daten in X werden durch
latente Variablen L erklärt.
 x11 , x12   l11 , l12 

 

x
,
x
l
,
l
 21 22   21 22 

 
  a11 , a12 
X 

 

  LA
 xi1 , xi 2   li1 , li 2   a21 , a22 

 


 

x
,
x
l
,
l
 m1 m 2   m1 m 2 
Berechnung der latenten Variablen aus
den Daten.
 x11 , x12 
 l11 , l12 




x
,
x
l
,
l
 21 22 
 21 22 
1

  a11 , a12 


1
XA  

L
 
x
,
x
l
,
l
a
,
a
 i1 i 2   21 22 
 i1 i 2 








 xm1 , xm 2 
 lm1 , lm 2 
1
 a11 , a12 
 xi1 , xi 2    li1 , li 2  

 a21 , a22 
 a11 , a12 
x
,
x
 i1 i 2  
   li1 , li 2 
 a21 , a22 
Multivariate Verfahren
42
Diskussion der Lösung: Rotation und Reduktion
I - Rotation
Konfiguration der Personen im
(Zahlen) Raum der korrelierten
gemessenen Variablen.
Konfiguration der Personen im Raum der
unkorrelierten latenten Variablen.
Rotation
Man beachte: maximale Ausdehnung der Konfiguration längs der ersten Achse L1,
zweitgrößte Ausdehnung bezüglich L2!
Multivariate Verfahren
43
Diskussion der Lösung: Rotation und Reduktion
II - Reduktion
Ist die Variation der Punkte bezüglich
der L2-Achse klein, kann man
annehmen, dass diese Variation nur
„Fehler“ repräsentiert. Dann muß nur
eine latente Variable, L1, angenommen werden.
Dies ist die „Reduktion“.
Anmerkung: L1 ist nicht notwendig identisch mit der Regressionsgraden!
Multivariate Verfahren
44
Diskussion der Lösung: formale Bedeutung der Eigenvektoren I
Ellipsen.
ax12  bx22  2cx1x2  k konstant
ay12  by22  k konstant
 a, c   x1 
 x1 , x2       k
 c, b  x2 
 a, 0   y1 
y
,
y
 1 2     k
 0, b   y2 
x ' Mx  k
y ' Ny  k
Multivariate Verfahren
45
Diskussion der Lösung: formale Bedeutung der Eigenvektoren II
Rotation von Ellipsen
Nicht achsenparallel:
achsenparallel:
x ' Mx  k
y ' Ny  k
Gesucht: Transformationsmatrix T derart, dass x = Ty
x  Ty
x ' Mx  k  y ' T ' MTy  y ' Ny  k
Aber die Vektoren y definieren eine
achsenparallele Ellipse, also muß
T‘MT = N eine Diagonalmatrix sein!
Dann folgt aber, dass T die Matrix
der Eigenvektoren von M ist, und N
enthält die zugehörigen Eigenwerte!
Welche Orientierung haben die
Eigenvektoren?
Multivariate Verfahren
46
Diskussion der Lösung: formale Bedeutung der Eigenvektoren III
Orientierung der Eigenvektoren von M:
 x01, x02 
 y01,0
T
Ty  x, T Eigenvektoren von M .
 t11 , t12  y01   t11 y01   x01 
     x0

   
t
,
t
t
y
0
 21 22     21 01   x02 
Orientierung von x0 :
tan  
x02 y02t21 t21


x01 y02t11 t11
Die Eigenvektoren der symmetrischen Matrix M haben die gleiche
Orientierung wie die Hauptachsen der durch M definierten Ellipse!
Daher die Rede von der ‚Hauptachsentransformation‘.
Multivariate Verfahren
47
Transformationsmatrix im Fall einer Ellipse (2-dimensionaler Fall)
 t11 , t12   cos  ,  sin  
T 


t
,
t
sin

,
cos



 21 22 
Kennt man den Winkel, kann man T explizit angeben.
Andererseits ist der Winkel im Allgemeinen nicht bekannt.
Multivariate Verfahren
48
Diskussion der Lösung: formale Bedeutung der Eigenvektoren VI
C = X‘X bzw. R = Z‘Z sind symmetrische Matrizen und definieren deshalb stets ein
Ellipsoid!
Die Orientierung der Eigenvektoren von C bzw. R entsprechen den
Orientierungen der durch C bzw. R definierten Ellipsoide.
Die Matrix der Eigenvektoren von C bzw. R definiert die Transformation (Rotation)
des achsenparallelen in ein nicht achsenparalleles Ellipsoid.
Multivariate Verfahren
49
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen I
Vorbetrachtung: Die Singularwertzerlegung (SVD) von X.
Modell:
 1 , 0, 0, , 0 
 0,  , 0, , 0 
2

X LP ', mit L ' L    




0,
0,
0,
,


n 
und X ' X  PL ' LP '  PP ', P Eigenvektoren vonX ' X .
Die  j sind die Quadrate der Längen der Spalten von L.
Normierung der Spalten von L :
Q  L 1/ 2 ,  1/ 2
 1 / 1 , 0, , 0 


1/ 2

  L  Q


0,
0,
,1
/

n 

Multivariate Verfahren
50
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen II
L  Q1/2 in X  LP ' eingesetzt ergibt
Die SVD:
X = Q1/2 P '.
Die SVD ist ein Satz der linearen Algebra mit zentraler Bedeutung für die multivariate
Statistik. Jede Matrix X kann in dieser Weise zerlegt werden.
Implikationen für die Analyse
psychologischer Daten?
Die Spaltenvektoren von Q sind die Eigenvektoren von XX‘, d.h. sie sind orthogonal
und auf die Länge 1 normiert.
Die Spaltenvektoren von Q charakterisieren die Personen, die von P
charakterisieren die gemessenen Variablen (wie gleich gezeigt wird).
Multivariate Verfahren
51
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIa
Die Datenmatrix: Rohwerte, Abweichungen vom Mittelwert
(Kovarianzen), oder z-Werte (Korrelationen)
X = Q1/2 P ' gilt für beliebige Matrizen X mit reellen Elementen.
Sind die Elemente von X Rohwerte - also untransformierte Messwerteso ist nicht klar, was die Elemente von X ' X bedeuten!
Sind die Elemente von X Abweichungen vom Mittelwert - also
xij  X ij  x j - so enthält die Matrix C = X ' X Kovarianzen, also
m
c jk   ( X ij  x j )( X ik  x k ).
i 1
Problem: die verschiedenen Variablen haben oft verschiedene Maßeinheiten!
Multivariate Verfahren
52
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIb
Man geht deshalb im Allgemeinen von standardisierten Variablen
aus: zij 
X ij  X j
sj
(Spaltennormierung). Man hat dann die SVD
Z = Q1/2 P ', mit Z  ( zij ).
Es sei wieder Q1/2  L, d.h. Z  LP '.
Dann gilt für zij :
zij  Li1 p j1  Li 2 p j 2 
cos 
zij
Li Pj
 Lin p jn , d.h. zij ist ein Skalarprodukt mit
.
Multivariate Verfahren
53
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIc
Was ist (i) der maximal mögliche Wert für zij , (ii) was bedeutet
zij  0?
Maximaler Wert durch cos   1 definiert:
zij
cos  1 
 max zij  Li Pj . (  0, d.h. die beiden
Li Pj
Vektoren haben dieselbe Richtung!)
Li repräsentiert die Gesamtausstattung der i-ten
Person mit den gemessenen Merkmalen, Pj repräsentiert
ein Gesamtmaß, mit dem die j-te Variable die interessierenden
Merkmale mißt.
Multivariate Verfahren
54
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IId
Der Fall  = 900 : cos   0  zij  0, d.h.
die beiden Vektoren Li und Pj sind orthogonal!
zij  0 heißt aber xij  X j , d.h. der Messwert entspricht
genau dem Mittelwert!
Dieser Befund hilft, den Biplot zu interpretieren:
stehen ein Item/Variablenvektor und ein Personenvektor
senkrecht aufeinander, so entspricht der Messwert dieser Person bei
dieser Variablen dem Mittelwert; je kleiner der Winkel zwischen den
Vektoren, desto mehr weicht der Messwert vom Mittelwert ab.
Multivariate Verfahren
55
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen III
Die Korrelation  jk  r (V j , Qk ) zwischen einer Variablen V j und
der k-ten Dimension Qk heißt Ladung der Variablen auf dem k-ten
Faktor.
Es ist  jk  r ( Z j , Qk ) Z 'j Qk  p jk k .
Die Ladung  jk ist die j-te Komponente des k-ten Eigenvektors
von R=Z ' Z , skaliert mit
k .
 jk reflektiert den Anteil, mit dem die k -te latente Variable
in der j -ten gemessenen Variablen enthalten ist.
Multivariate Verfahren
56
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IV
Die Ladungen dienen als Koordinaten der Variablen im Raum der
latenten Variablen, - die latenten Variablen werden über Cluster von
Variablen interpretiert.
Beispiel: Evaluation
Multivariate Verfahren
57
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VI
Ladungen, Korrelationen, und die Schätzung der Anzahl latenter Variablen
R
1
1
1
Z ' Z  P1/2Q ' Q1/2 P  AA '
m
m
m
(A  P1/2 )
1 n
rjk   a jr akr  cos 
m r 1
Gibt es n Variablen, werden immer n Eigenvektoren und damit n latente
Variablen berechnet. Die „wahre“ Anzahl latenter Variablen wird im Allgemeinen
Aber kleiner sein: s < n, und die n – s mit den kleineren Eigenwerten repräsentieren nur Fehler oder „Rauschen“. Man hat dann die folgende Abschätzung
Für die Korrelationen:
r jk 
1
s
a

m
r 1
a
jr kr
Für |rjk  r jk |  ist s eine Abschätzung für die Anzahl
der latenten Variablen.
Multivariate Verfahren
58
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen
VII
Zur Bedeutung der Eigenwerte:
Es sei
Z  LP ', L  Q1/ 2
Man betrachte die Varianz der Projektionen der Personenkoordinaten auf die k-te latente Variable, d.h. die Varianz
der l1k , l2 k ,
 
2
k
1
m
, lmk :
m
l 
2
ik
i 1
k
m
m
q 
2
ik
i 1
k
m
m
.
(  qik2  1 wegen der Normiertheit)
i 1
Analog dazu im Variablenraum: Quadratsumme der Ladungen auf
der k-ten latenten Variablen:
m

i 1
m
2
ik
 k  p  k .
2
ik
i 1
m
( pik2  1 wegen der Normiertheit)
i 1
Multivariate Verfahren
59
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen
VIII
Zur Bedeutung der Eigenwerte:
Ein Eigenwert repräsentiert die Varianz der Projektionen der Personen bzw der
Variablen auf die entsprechende Dimension.
Summe der Eigenwerte:
n
m
n
 l
2
ik
k 1 i 1
m
n
  k  q   k
2
ik
k 1
i 1
k 1
entspricht der Gesamtvarianz der Projektionen
auf alle Dimensionen (lat. Variablen). Dann ist
k 
k
n

der Anteil der Varianz, der durch die
k
k 1
k-te Dimension erklärt wird.
Multivariate Verfahren
60
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX
Eigenwerte und Anzahl der latenten Dimensionen:
s
Die Summe   k , s  n, gibt an, wie groß der Anteil der
r 1
durch s latente Dimensionen erklärten Varianz ist.
Damit hat man eine Möglichkeit, die Anzahl der wirksamen
latenten Dimensionen zu schätzen.
Scree-Test:
1. Rangordnung der k bzw.  k
2. Plot der k bzw.  k versus Rangplatz
3. Wähle s, wenn k bzw.  k wenn die ersten s groß gegen die
restlichen sind.
Multivariate Verfahren
61
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX
Personen im Raum der
lat. Variablen
Scree-Test:
Multivariate Verfahren
62
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X
Latente Variablen – eindeutig bis auf Rotation
Die Singularwertzerlegung
Z  Q1/2 P '
liefert eine mögliche Lösung: die Varianz der Projektionen der Personen
auf die erste Achse (= lat. Variable) ist maximal, die der Projektionen auf
die zweite Achse ist die zweitgrößte etc.
Es sei T eine Transformations(Rotations-)Matrix, mit TT '  I , I
die Einheitsmatrix.
Betrachte die Transformation Q  Q  QT , A  A  AT .
Dann ist Z  Q A '  QTT ' A '  QA '  Q1/2 P '.
D.h. die Faktorscores QT und die Faktorladungen AT sind ebenfalls
Lösungen für das Problem, Daten durch latente Variable zu erklären.
Multivariate Verfahren
63
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X
Kriteriumsrotationen
„Anschaulichkeit“ als Anker für die
Interpretation.
„Kompetenz“ und „Stoffmenge“
als Anker für die Interpretation.
Multivariate Verfahren
64
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(a)
Kreisförmige Punktekonfiguration und Anzahl der Dimensionen
Multivariate Verfahren
65
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(aa)
Wahre Beziehung zwischen den Punkten
(Skalen) und dem Kreis, auf dem die Punkte
liegen müssten, wäre die Lösung tatsächlich nur
2-dimensional.
Die Punkte liegen alle innerhalb des Kreises, -Ausdruck der Tatsache, dass die Skalen durch
weitere latente Dimensionen definiert werden.
Multivariate Verfahren
66
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X
Kriterium
Varimax
WS 2001/2002
Multivariate Verfahren
67
Zusammenfassung (1):
Es werden n (= viele) Variablen an den gleichen Personen bzw.
Objekten gemessen; die Variablen korrelieren paarweise.
Es wird angenommen, dass sie Korrelationen auf der Wirkung von r <= n
„latenten Variablen‘‘ beruhen; das Ziel der Analyse ist, Art und Anzahl
dieser Variablen zu bestimmen.
Es wird angenommen, dass die latenten Variablen voneinander unabhängig
sind, - andernfalls müsste man latente Variablen für die latenten Variablen
fordern.
Es wird angenommen, dass beobachtete und latente Variablen durch
lineare Gleichungen aufeinander bezogen sind.
Multivariate Verfahren
68
Zusammenfassung (2):
Ansatz (Modell):
X 1  a11 L1  a12 L2
X 2  a21 L1  a22 L2
Vorhersage der gemessenen Variablen anhand
der (hypothetischen) latenten Variablen.
Die latenten Variablen sind unbekannt, also müssen sie aus den
beobachteten Daten geschätzt (= ausgerechnet) werden.
Ansatz:
Frage:
b11 X1  b12 X 2  L1
Wie kann man die b jk bestimmen?
b21 X1  b22 X 2  L2
Und in welcher Beziehung stehen die
b jk und die a jk zueinander?
Multivariate Verfahren
69
Zusammenfassung (3):
Übergang zur Matrixnotation:
Ansatz:
b11 X1  b12 X 2  L1
b21 X1  b22 X 2  L2
XB  L.
 x11 , x12 
 l11 , l12 




x
,
x
l
,
l
 21 22 
 21 22 




 b11 , b12 
X 
, B  

, L

 xi1 , xi 2 
 li1 , li 2 
 b21 , b22 








 xm1 , xm 2 
 lm1 , lm 2 
 1 0 
L ' L  B ' X ' XB    

0


2
Implikation der Annahme, dass die
latenten Variablen unkorreliert sein sollen.
X ' X symmetrisch  B Eigenvektoren von X ' X
und  Eigenwerte von X ' X .
Multivariate Verfahren
70
Zusammenfassung (4):
Transformation X  L  XB  L.
Transformation L  X  X  LA.
A  B 1  B '
Denn B ist Matrix der Eigenvektoren einer
symmetrischen Matrix (X'X)!
Die Lösung ergibt sich aus allgemeinen Resultaten der Vektor- und
Matrixrechnung!
Normierung von L : Q  L1/2  X  Q1/2 P '
X ' X  P P '
XX '  QQ '
Q  Personen
P  Tests/Variablen
(Singularwertzerlegung!)
A  P1/2 Ladungen der Variablen
(Korrelation Variable - Lat. Variable)
Multivariate Verfahren
71
Zusammenfassung (5):
Cattell: R-Analyse – Analyse der Variablen, Q-Analyse (Analyse der Personen, d.h.
Typen)
X ' X  PP ' bzw. Z ' Z PP ' (Spaltennormierung  R-Analyse)
Korrelationen zwischen Tests/Variablen
XX '  QQ ' bzw. ZZ '  QQ ' (ebenfalls bei Spaltennormierung)
Keine Korrelationen zwischen Personen!
SVD: Z  Q1/ 2 P ' =BP ', Q Faktorwerte/Faktorscores,
B  Q1/ 2 "Ladungen" für Personen,
entspricht den Cattellschen Q-Faktoren ("Typen").
Test/Variablen-Dimensionen sind die gleichen wir die „Personenfaktoren“
Multivariate Verfahren
72
Zusammenfassung (6):
Die SVD: Z  Q1/2 P ' ist nur eindeutig bis auf eine
Rotation!
T sei Rotationsmatrix; QT  QT , AT  P1/2T
Dann
Z  QT AT' =QTT ' 1/2 P '  Q1/2 P '.
Bestimmung der Anzahl der zu
berücksichtigenden latenten Dimensionen:
Nach Maßgabe der Eigenwerte.
Multivariate Verfahren
73
Beispiele:
Erinnerung an Albert Wellek [1904 (Wien) – 1972 (Mainz)]
Studium der Musik, Literaturwissenschaft, Philologie, 1938 Habilitation in Psychologie
(„Typologie der Musikbegabung im Deutschen Volk“, ab 1946 Ordinarius für
Psychologie in Mainz (bis 1969).
Das Polaritätsprinzip meint ''die Entfaltung einer Wesenheit nach zwei
entgegengesetzten, doch aber sich gegenseitig bedingenden und ergänzenden
Richtungen hin'‚ (nach Schischkoff, 1957). Dieses Prinzip soll insbesondere für Goethe
und die Denker der Romantik (z.B. Schelling) eine Art fundamentales Axiom für
Erklärung des Weltgeschehens gewesen sein.
Multivariate Verfahren
74
A. Wellek (Fortsetz.)
Hauptwerk: „Die Polarität im Aufbau des Charakters.“
Der Begriff der Polarität sei „… in der positivistischen Ära der
empirischen Naturforschung als unwissenschaftlich verpönt…“, aber „das
Prinzip der Polarität auch das tragende Prinzip der typologischen, und
damit zunächst auch der charakterologischen, Methode'‚…
Zur Polarität der Geschlechter: das weibliche Prinzip steht
auf der Seite der Natur und der Vitalität, aber nicht auf der des Geistes, womit
es ''Affinität zur Intensität, zur Extraversion, zur Eshaftigkeit … '' habe.
Das ''Bewahrende“‚ ergibt ''sich ja schon aus der empfangenen Rolle des
Weibes bei der Zeugung, dann in der Bergung oder Beherbergung und
Nährung der Frucht …''.
Multivariate Verfahren
75
A. Wellek (Fortsetz.)
Zur Stützung der polaren Schichtentheorie zitiert Wellek Cervantes:
''Die Verwandte der weiblichen Rede ist Konfusion'',
und dann Nietzsche:
''Bei vielen Frauen ist der Intellekt nur plötzlich und stoßweise da'',
was Wellek zu der Deutung veranlaßt, dass das weibliche Denken demnach
ein ''Einfalldenken'' sei (Wellek, 1966, p. 288).
Multivariate Verfahren
76
Stereotype und ihre Erforschung: Das Polaritätsprofil
Begriffe wie ‚Mann‘, ‚Intelligenz‘,
‚Vater‘,‘Mutter‘ etc werden
vorgegeben und auf einer Liste
von Eigenschaften beurteilt
(„gerated“).
Anschließend wird eine QAnalyse gerechnet: es
ergeben sich zwei latente
Dimensionen:
D1: ‚Frau‘, D2: ‚Mann‘
Demnach sind die Geschlechter nicht durch Polarität, sondern als unabhängige
Dimensionen charakterisiert.
Multivariate Verfahren
77
Stereotype und ihre Erforschung: Das Polaritätsprofil
Dimensionen versus Polarität
Multivariate Verfahren
78