Diapozitiv 1

Download Report

Transcript Diapozitiv 1

Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
7. predavanje:
analiza glavnih komponent
(principal component analysis)
Preberite:
Sočan, G. (2004). Postopki klasične testne teorije. Ljubljana: FF UL.
(poglavje 5 in dodatek B)
Namen:
večje število spremenljivk nadomestimo z manjšim
številom njihovih obteženih vsot (komponent).
Zmanjšanje kompleksnosti + struktura odnosov
Komponentni “model”:
Kk = b1kX1 + b2kX2 + … + bnkXn oz. K = XB
(Lahko tudi standardizirane spremenljivke ->
K = ZB)
Xi = ai1K1 + ai2K2 + … aikKk oz. X = KA´
Primeri uporab:
• izračun skupnega dosežka,
• grupiranje testnih postavk,
• združevanje koreliranih napovednikov pri regresiji,
• ortogonalizacija spremenljivk...
PCA izdela k nekoreliranih obteženih vsot n
spremenljivk, ki pojasnijo največji možni delež celotne
variance teh spremenljivk (tj. n
2
r
 Kk X j  max. rKi Kk  0
j 1
• komponente so obtežene vsote (prim. z regresijo);
• zmanjšanje kompleksnosti: 1  k  n;
• optimalni povzetki (maksimizacija pojasnjene variance);
• optimalnost velja pri vsakem k;
• nekoreliranost komponent.
Želja: visok %Var z majhnim k…
Merska lestvica komponent arbitrarna (npr. z).
Grafični prikaz za dve spremenljivki
K1∝ izpit+vaje
d = vsota kvadriranih
K2∝ izpit-vaje
razdalj posameznih točk od
2,00
a
K2
vaje
1,00
0,00
M
a
d
K1
-2,00
-1
0
izpit
1
= varianca projekcij teh
točk na to premico (te
projekcije so nestand.
vrednosti K1)
K1:
Min. Var (d)
Max. Var (a)
-1,00
-2
premice
2
Glavna os

regresijska
premica!
Vhodni podatki
Korelacijska oz. kovariančna matrika ( ali želimo, da
variabilnost vpliva na rezultate?)
Korelacije med spremenljivkami ne smejo biti prenizke!
Intervalne spremenljivke (izračun r oz. Cov smiseln).
Velikost vzorca?
Odvisno od namena analize in pojasnjevalne moči
komponent…
PCA je predvsem opisovalna analiza (vezana na vzorec).
Primer: 9 testov sposobnosti.
Rezultate želimo povzeti z 2 komponentama.
Verb.
Ang.
Arit
Arit.pr.
Raven
NV1
NV2
Prost.2
Ang.
0,79
Arit.
0,72
0,73
Arit.pr. Raven
0,76
0,64
0,72
0,51
0,76
0,34
0,48
NV1
0,59
0,46
0,33
0,49
0,51
NV2
0,68
0,57
0,41
0,55
0,73
0,60
Prost.2 Prost.3
0,67
0,40
0,55
0,30
0,38
0,20
0,62
0,35
0,62
0,41
0,63
0,39
0,63
0,47
0,62
Verb.: verbalna inteligentnost; Ang.: angleščina (materni jezik); Arit.:
preprosta aritmetika; Arit.pr.: aritmetika-problemske naloge; Raven:
progresivne matrice; NV1 in NV2: neverbalna testa inteligentnosti;
Prost.2 in Prost.3: testa prostorske sposobnosti v dveh oz. treh dimenzijah
Vhodni podatki: korelacije (arbitrarne merske lestvice testov).
Glavni rezultati:
1. matrika uteži A (loadings, “nasičenosti”): stand. uteži so
korelacije med spremenljivkami in komponentami; 
interpretacija komponent
2. matrika koeficientov komponentnih dosežkov B – uteži
za izračun vrednosti komponent  definicija komponent
Vrednosti ai povezane z rij
Interpretacija A gl. na vzorec korelacij.
V posameznem stolpcu A oz. B lahko zamenjamo
vse predznake (obrnjena interpretacija!)
Matrika uteži za naš primer:
a
e
n
p
o
1
2
V
0
A
2
A
0
A
1
R
3
N
2
N
8
P
9
P
6
E
a
2
K1 ~ mera splošne inteligentnosti
K2 ~ mera razlike med besedno in nebesedno sposobnostjo
VERB
ANG
ARIT
ARITPR
RAVEN
NV1
NV2
PROST2
PROST3

Var(k)
K1
,909
,820
,709
,833
,756
,716
,811
,817
,570
5.432
60.358
K2
-,190
-,362
-,600
-,331
,283
,272
,248
,319
,526
1.231
13.677
pVar
.863
.804
.863
.803
.652
.587
.720
.770
.601
Primeri:
Pojasnjena varianca
spremenljivk: diag(AA)
Reproducirane korelacije:
AA (razen diagonale)
Skupna pojasnjena varianca
za komponento i (lastna
vrednost, i): AA
pVar(VERB) = 0,9092 + (-0,190)2 = 0,863
rˆANG, ARIT  0,820 0,709 (0,362)  (0,600)  0,80
1 = 0,9092 + 0,8202 + 0,7092 + … + 0,5702 = 5,432
Var(K1) = 1/n = 5,432/9 × 100= 60,4%
Koeficienti komponentnih dosežkov: B = AL-1 (pri nerotiranih komp.!)
L = diagonalna matrika lastnih vrednosti)
npr. bverb,1 = 0,909/5,432 = 0,167
VERB
ANG
ARIT
ARTIPR
RAVEN
NV1
NV2
PROST2
PROST3
K1
,909
,820
,709
,833
,756
,716
,811
,817
,570
K2
-,190
-,362
-,600
-,331
,283
,272
,248
,319
,526
B1
,167
,151
,131
,153
,139
,132
,149
,150
,105
B2
-,154
-,294
-,487
-,269
,230
,221
,201
,259
,427
Izračun komponentnih dosežkov:
K1 = z(VERB)0,167 + z(ANG)0,151 + … + z(PROST3)0,105
Koliko komponent uporabiti (= to extract, “izločiti”)?
Ni “resničnega” števila komponent:
parsimoničnost vs. izčrpnost opisa podatkov!
• enodimenzionalen test: k = 1;
• ortogonalizacija spremenljivk: k = n;
sicer:
• “graf drobirja” (scree-plot);
• % pojasnjene variance;
•interpretacija in uporabnost!
Scree Plot
6
5
4
k=2
3
k=4
2
1
0
1
2
3
4
Component Number
5
6
7
8
9
Rotacija komponent:
• izboljšanje interpretabilnosti;
• enakomernejša porazdelitev pojasnjene variance po
komponentah.
Ponovno zavrtimo prostor, ki ga opisujejo samo obdržane
komponente.
Odstotki pojasnjene variance spremenljivk in skupna
pojasnjena varianca se ne spremenijo!
d = 1,1
Grafična rotacija:
na sliki nasičenosti
izberemo najboljši kot
rotacije.
Rotiramo pare komponent
(pretvorbena matrika T):
 cos sin  
T


sin

cos



1.0

.5
0.0

-.5
-1.0
cos 
-1.0
1
1 d
2
-.5
0.0
.5
1.0
Kot rotacije:
Uteži po rotaciji
cos 
(novo strukturno matriko
Dobimo tako, da prvotno
Pomnožimo s pretvorbeno):
Ar = AT
1
1  1,12
VERB
ANG
ARIT
ARTIPR
RAVEN
NV1
NV2
PROST2
PROST3
Korelacije med starimi (v
vrsticah) in novimi (v stolpcih)
komponentami:
 0,673   47
K1r
0,75
0,82
0,92
0,81
0,30
0,28
0,36
0,31
-0,01
K2 r
0,54
0,36
0,12
0,39
0,75
0,71
0,77
0,82
0,78
 0,67 0,74
T

 0,74 0,67
Analitične rotacije: uporabimo objektiven kriterij.
Pravokotne rotacije ohranijo nekorelirane komponente.
“Standard”: Varimax (poenostavi interpretacijo komponent).
Component Plot in Rotated Space
arit
1.0
ang
artipr
verb
s
.5
1
2
C
nv2
prost2
raven
nv1
1
2
prost3
Component 2
0.0
E
R
-.5
-1.0
-1.0
-.5
Component 1
0.0
.5
1.0
Poševnokotne rotacije komponent:
• komponente po rotaciji korelirane;
• skupaj pojasnijo enako variance kot pravokotne;
• preprostejša interpretacija kot pri pravokotnih.
1.0
arit
ang
artipr
verb
.5
nv2
prost2
raven
nv1
prost3
0.0
-.5
-1.0
-1.0
-.5
0.0
.5
1.0
Še o poševnokotnih rotacijah…
Namesto matrike komponentnih uteži A imamo:
• matriko regresijskih koeficientov za napovedovanje
spremenljivk na osnovi komponent (pattern, P) in
• matriko korelacij med spremenljivkami in
komponentami (strukturna matrika, S), poleg tega pa še
• matriko korelacij med komponentami () .
• drugačno računanje pojasnjenih varianc: R  SP´= PP´;
• % pojasnjene variance po komponentah se ne seštevajo!
Primerjava strukturnih matrik po rotaciji:
VERB
ANG
ARIT
ARTIPR
RAVEN
NV1
NV2
PROST2
PROST3
Poj.Var.
Varimax
(pravokotna)
K1
K2
0,51
0,78
0,33
0,84
0,08
0,93
0,36
0,82
0,33
0,74
0,31
0,70
0,40
0,75
0,35
0,81
0,03
0,78
37,3%
36,8%
Oblimin
(poševna)
K1
K2
0,70
0,88
0,54
0,89
0,33
0,92
0,57
0,88
0,50
0,80
0,47
0,76
0,57
0,83
0,53
0,87
0,22
0,75
49,5%
47,8%
Varimax:
r12 = 0
Oblimin:
r12 = 0,50
Koef. komponentnih dosežkov po rotaciji: Br = BT.
Korelacije med komponentnimi dosežki so enake
korelacijam med komponentami.
p
o
1
2
V
7
A
5
A
8
A
9
R
5
N
4
N
8
P
9
P
0
E
R
Malo za šalo, malo
zares: struktura
lastnosti piva
Znamke kot osebe!
Nerotirani komponenti iz
kovariančne matrike,
%Var = 73% + 22%
“Osebe” in spremenljivke
opišemo z istimi
komponentami!