Transcript Document
Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
3. predavanje:
ponovitev bivariatne regresije
Parcialna/semiparcialna korelacija
Regresijska diagnostika
Ponovitev nekaterih osnovnih pojmov
N
Varianca v vzorcu s X
2
X
i 1
i
X
N
2
(s = standardni odklon)
Varianca v (neskončni) populaciji: X2 E X i X 2
N
Ocena populacijske variance iz vzorčnih podatkov ˆX
(“vzorčna varianca”)
2
X
i 1
i
X
2
N 1
Vrednost napovedovane spremenljivke za i-to osebo: Yi
Napovedana vrednost za i-to osebo: Yˆi oz.Yi '
Napaka napovedi (ostanek) za i-to osebo: ei Yi Yˆi
torej: Yi Yˆi ei
Standardna napaka napovedi: SEY = e ;
če je e=0: SEY E (e 2 ) oz .
N
2
e
i 1
N
Dva vidika regresijske analize:
1. napovedovanje (npr.: “Kolikšno delovno uspešnost lahko
napovemo kandidatu za delovno mesto? Kolikšno napako lahko
ob tem pričakujemo?”)
2. pojasnjevanje (npr.: “S katerimi sposobnostmi in veščinami
lahko pojasnimo razlike v uspešnosti? Kolikšen delež variance
uspešnosti lahko pojasnimo?”)
Kaj je merilo uspešnosti napovedovanja (…ciljna funkcija)?
Najpogosteje: kriterij najmanjših kvadratov:
min f (Y’ ) = e2
Nekaj implikacij k.n.k.:
minimizira SEY
“penalizira” velike napake napovedi
e = M(e) = 0
“Prazni model”: 0 napovednikov
Če uporabimo kriterij najmanjših kvadratov, napovedujemo le na
osnovi porazdelitve Y in dobimo
Yˆ Y
SEY = Y
spomnimo se tudi, da (X-M) = 0 e = 0
Prazni model pomemben kot osnova za primerjavo.
1 napovednik: bivariatna regresija
Yˆ Y X i (pogojna aritmetična sredina)
e~N(0,SE )
(Y|Xk)
Če pogojne aritmetične sredine
(Y|Xj)
ležijo na premici: linearna regresija.
(Y|Xi)
Enačba premice:
Xi
Xj
Xk
Yˆi aYX bYX X i
a = presečišče z ordinato (intercept) oz. regresijska
konstanta = napovedana vrednost Y pri X=0
b = regresijski nagib (slope) = napovedano povečanje Y pri
povečanju X za 1
Mere povezanosti / natančnosti napovedovanja (1)
X
N
Kovarianca (Cov):
s XY
i 1
i
X Yi Y
N
informacija o povezanosti in variabilnosti
Pearsonov r
- standardizirana kovarianca
rXY
N
x y
i
i 1
i
N
s XY
s X sY
- standardizirani regresijski nagib
rXY bYX
sX
sY
bXY
sY
sX
- povprečni produkt z vrednosti (“produkt-moment”)
N
r
z
i 1
z
X i Yi
N
Mere povezanosti / natančnosti napovedovanja (2)
Koeficient determinacije r2
delež pojasnjene variance
2
YX
2
Y
SE
r 2 1
sY
s
2
YX
N
Standardna napaka SE: SEYX
sY2ˆ
Yi Yˆi
i 1
N
2
sY 1 rYX2
Indeks učinkovitosti napovedi EXY
relativno zmanjšanje SE glede na prazni model
E XY
SE XY
1001
sX
SEYX
1001
sY
2
1001 1 rXY
Interpretacija r2, SE in EXY je enaka tudi pri multipli regresiji.
5200
5000
Masa(g)
4800
4600
4400
4200
4000
7,0
12,0
17,0
22,0
Starost v dnevih
a
3908,7
b
37,5
r
0,993
r**2
0,986
E
0,88
27,0
32,0
Parcialna korelacija
= korelacija med dvema spremenljivkama, pri čemer
kontroliramo enega ali več kovariatov.
= korelacija med deli X in Y, ki so nekorelirani s
kovariatom Z
Uporaba: statistična kontrola motečih spremenljivk.
X
1
2
4
5
7
3
Y
6
Z (kovariat)
25
25
r
1 2 4 5 2 3 5 6
2
2
2
rXY .Z
1 2 2 3
2
XY
Izračun parcialne korelacije
1. Določimo regresijski enačbi X’ = aXZ+bXZZ in Y’ = aYZ + bYZZ
2. Izračunamo napake napovedi eX = X-X’ in eY = Y-Y’
3. rXY.Z = r (eX , eY)
Pri enem kovariatu:
rXY .Z
rXY rXZ rYZ
2
(1 rXZ
)(1 rYZ2 )
Statistična značilnost:
enako kot r, df = N-2-(št. kovariatov)
Semiparcialna korelacija: kovariat kontroliramo le pri eni
spremenljivki (X ali Y ).
Primer parcialne korelacije:
korelacija med ekstravertnostjo in nevroticizmom glede na starost
rEN = 0,4
rES = -0,6
rNS = -0,5
rEN .S
rEN rES rNS
1 r 1 r
2
ES
2
NS
0,4 (0,6) (0,5)
1 (0,6) 1 (0,5)
2
2
0,14
Primer semiparcialne korelacije:
Koliko variance učne uspešnosti pojasni od inteligentnosti neodvisen del
SES?
rUS = 0,3
rUS rUI rSI 0,3 0,4 0,5
rU (S .I )
0,12
rUI = 0,4
2
2
1 rSI
1 (0,5)
rIS = 0,5
Težave pri interpretaciji:
•statistični učinek (effect) vs. vzročni vpliv
•statistična značilnost vs. praktična pomembnost
•koliko variance pojasni posamezen napovednik?
•statistično značilni/neznačilni b v različnih modelih
•predznak b ni enak predznaku r ( sestavljene
spremenljivke ali preveč visoko koreliranih napovednikov)
•supresorski odnosi (npr. mehanska in verbalna sposobnost
ter uspešnost pilotov)
Regresijske parametre interpretiramo v kontekstu
modela!
Regresijske predpostavke in diagnostika:
• intervalen kriterij, intervalni ali dihotomni
napovedniki
• naključno vzorčenje / neodvisnost opazovanj
• normalnost ostankov (npr. P-P graf)
• linearnost odnosov (rezidualni graf)
• homoscedastičnost (rezidualni graf)
Zlasti če MR pojasnjevalna metoda:
• popolna zanesljivost napovednikov
• specifikacija modela
Rezidualni graf:
napovedane vrednosti vs. ostanki
Vrste ostankov:
•surovi (M = 0)
•standardizirani (M = 0, Var = 1)
•studentizirani (e/SEe manjši vpliv ekstremov)
•izbrisani (ei določen brez osebe i )
Iskanje vplivnih točk
• Cookova razdalja (oddaljenost od povprečja
prediktorjev × napaka napovedi)
• DFBETA: sprememba regr. koeficienta, če izločimo
osebo
• DFBETAS: standardizirana sprememba, (deljena s SE ) ;
približna krit. vrednost: 2/(N 1/2) - 3/(N 1/2) jemati le
orientacijsko, pazimo na relativno visoke vrednosti
• DFFIT: sprememba napovedane vrednosti
Sestavljanje regresijskega modela
a) Hkrati vključimo vse relevantne napovednike (Enter)
b) “Hierarhično” vključevanje po vnaprej postavljenem
vrstnem redu.
c) Postopno vključevanje po statističnih kriterijih:
Forward, Backward, Stepwise.
Strategiji b in zlasti c lahko nevarni, če razmerje N/P
ni veliko! Testi značilnosti predpostavljajo a.
Namen MR:
napovedovanje kriterijske spremenljivke Y na osnovi p
(= 2 ali več) napovednikov (X1- Xp)
P
Yˆi a b j X ij oz. y = Xb+
(b+ = vektor parametrov a in b)
j 1
Diagram poti:
C
X1
X2
X3
b1
b2
določiti uteži b tako, da bo:
a
Y
b3
Cilj MR:
•korelacija med Y in Y = max.
•e2 = (Y –Y )2 = min.
Y = obtežena vsota
napovednikov, ki najbolje
napoveduje Y v smislu najmanjših
kvadratov
Izračun in interpretacija parametrov
b+ = (X+X+)-1X+y
oz. b = C-1c
potreben poln rang X!
X+ = podatkovna matrika z dodanim vektorjem enic
b+ = [a b1 … bp]
b = [b1 … bp]
C = kovariančna matrika napovednikov
c = [Cov(Y,X1) … Cov(Y,Xp)]
a Y b j X j
b1 = povečanje Y pri povečanju X1 za 1 enoto in
nespremenjenih X2-Xp
a = napovedana vrednost Y, ko velja X1=X2=… Xp = 0
Kako priti do optimalnih uteži?
Nekaj možnih načinov obteževanja:
1. bj = 1
… variabilnost napovednikov
2. bj = 1/sj
… rYj
3. bj = rYj/sj
… r med napovedniki
(…lahko v redu, če so rYj podobne)
4. na bj mora torej vplivati:
•variabilnost napovednikov (),
•korelacija med napovednikom in kriterijem (),
•korelacije z drugimi napovedniki ().
Izračun pri p = 2:
b1
s22 s y1 s12 s y 2
s12 s22 s122
Izpeljava regresijskih parametrov
y
e
x2
x1
yˆ
X - ravnina
y = y + e
Xb + e = y
XXb + Xe = Xy
(XX)–1(XX)b = (XX)–1Xy
b = (XX)–1Xy
//Xe = 0
Standardizirani model
P
zˆ(Yi ) j z ( X j )i
(konstanta odpade – vse M = 0)
j 1
z vrednosti obtežimo s “koeficienti beta”
Interpretacija :
•regresijski nagib za standardizirane spremenljivke;
•relativna pomembnost gl. na ostale prediktorje.
•pri nekoreliranih napovednikih: Yj = rYj
Pozor:
•|| lahko > 1
• ni populacijska vrednost b
•bolj odvisen od vzorčne variabilnosti kot b
•ni isto kot delno standardizirani nagib (gl. AMSSD, str. 159)
Izračun beta koeficientov:
= R–1r
j bj
sj
sY
…nagib za standardizirane napovednike
…standardizirani nagib
Pri dveh napovednikih:
(prim. obrazec za surovi nagib)
rYX rYZ rXZ
X
2
1 rXZ
Primer:
napovedovanje uspešnosti (U) na podlagi dveh testov (T1
in T2).
Korelacije:
U
T1
T1
0,3
Opisne statistike:
T2
0,4
0,6
M
SD
U
20
5
T1
50
10
rU 1 rU 2r12 0,3 0,4 0,6
1
0,094
2
2
1 r12
1 0,6
rU 2 rU 1r12 0,4 0,3 0,6
2
0,344
2
2
1 r12
1 0,6
stand.regresijska enačba: z’U = 0,094zT1 + 0,344zT2
T2
100
15
U
5
b1 1
0,094
0,047
1
10
U
5
b2 2
0,344
0,115
2
15
a Y b j X j 20 0,047 50 0,115100 6,198
Nestandardizirana enačba:
U’ = 6,198 + 0,047 T1 + 0,115 T2
Višina povezanosti: multipla korelacija
Definicija:
R r (YYˆ)
Računanje:
1
R r' R r
oz.
R r' β
R
oz.
P
r
j 1
Yj
j
R in semiparcialne korelacije:
R
2
Y .12...p
r r
2
Y1
2
Y ( 2.1)
Za dva prediktorja:
2
Y (3.12)
r
... r
R
rYX2 rYZ2 2rYX rYZ rXZ
2
1 rXZ
2
Y ( p.123.. p1)
Na višino R vpliva:
•korelacije prediktorjev s kriterijem ()
•korelacije med prediktorji (),
•vplivne točke (/),
•napaka merjenja (),
•variabilnost v vzorcu gl. na populacijo ().
Velja tudi:
•0 ≤ R ≤ 1
•R ≥ max. rYj
•R ni izračunljiv, če |R|=0 (linearno odvisni prediktorji)
Korelacija med prediktorji in R 2:
X1
R
2
Y .12
1
2
5
4
3
6
7
2
3
2
Y (1.2 )
r
2
235 6
2
Y ( 2.1)
r
2
12
Y
3
X1
5
6
1
R
2
Y .12
r r
2
Y1
2
Y2
7
6
235 6
45
45
r
1 2 4 5 4 5 6 7
X2
X1
1
Y
256
2563
X2
R
2
Y .12
4
r
2
Y2
Y
6
7
X2
Preberite tudi:
Sočan (2004). Postopki klasične testne teorije (PKTT),
• dodatek A
• Poglavje 4
• (po potrebi poglavje o linearni regresiji v katerem od splošnih
učbenikov statistike)
Bartholomew et al. (2008). Analysis of multivariate
social science data (AMSSD)
Poglavje 6
poglavje o multipli regresiji najdete v skoraj vseh
učbenikih multivariatnih metod in mnogih statističnih
učbenikih