Transcript Document

Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
3. predavanje:
ponovitev bivariatne regresije
Parcialna/semiparcialna korelacija
Regresijska diagnostika
Ponovitev nekaterih osnovnih pojmov
N
Varianca v vzorcu s X 
2
 X
i 1
i
X
N

2
(s = standardni odklon)
Varianca v (neskončni) populaciji:  X2  E X i  X 2
N
Ocena populacijske variance iz vzorčnih podatkov ˆX 
(“vzorčna varianca”)
2
 X
i 1
i
X

2
N 1
Vrednost napovedovane spremenljivke za i-to osebo: Yi
Napovedana vrednost za i-to osebo: Yˆi oz.Yi '
Napaka napovedi (ostanek) za i-to osebo: ei Yi Yˆi
torej: Yi Yˆi  ei
Standardna napaka napovedi: SEY = e ;
če je e=0: SEY  E (e 2 ) oz .
N
2
e

i 1
N
Dva vidika regresijske analize:
1. napovedovanje (npr.: “Kolikšno delovno uspešnost lahko
napovemo kandidatu za delovno mesto? Kolikšno napako lahko
ob tem pričakujemo?”)
2. pojasnjevanje (npr.: “S katerimi sposobnostmi in veščinami
lahko pojasnimo razlike v uspešnosti? Kolikšen delež variance
uspešnosti lahko pojasnimo?”)
Kaj je merilo uspešnosti napovedovanja (…ciljna funkcija)?
Najpogosteje: kriterij najmanjših kvadratov:
min f (Y’ ) = e2
Nekaj implikacij k.n.k.:
 minimizira SEY
 “penalizira” velike napake napovedi
 e = M(e) = 0
“Prazni model”: 0 napovednikov
Če uporabimo kriterij najmanjših kvadratov, napovedujemo le na
osnovi porazdelitve Y in dobimo
Yˆ  Y
SEY = Y
spomnimo se tudi, da (X-M) = 0  e = 0
Prazni model pomemben kot osnova za primerjavo.
1 napovednik: bivariatna regresija
Yˆ  Y X i (pogojna aritmetična sredina)
e~N(0,SE )
(Y|Xk)
Če pogojne aritmetične sredine
(Y|Xj)
ležijo na premici: linearna regresija.
(Y|Xi)
Enačba premice:
Xi
Xj
Xk
Yˆi  aYX  bYX X i
a = presečišče z ordinato (intercept) oz. regresijska
konstanta = napovedana vrednost Y pri X=0
b = regresijski nagib (slope) = napovedano povečanje Y pri
povečanju X za 1
Mere povezanosti / natančnosti napovedovanja (1)
 X
N
Kovarianca (Cov):
s XY 
i 1
i
 X Yi  Y 
N
informacija o povezanosti in variabilnosti
Pearsonov r
- standardizirana kovarianca
rXY
N

x y
i
i 1
i
N
s XY

s X sY
- standardizirani regresijski nagib
rXY  bYX
sX
sY
 bXY
sY
sX
- povprečni produkt z vrednosti (“produkt-moment”)
N
r
z
i 1
z
X i Yi
N
Mere povezanosti / natančnosti napovedovanja (2)
Koeficient determinacije r2
delež pojasnjene variance
2
YX
2
Y
SE
r  2  1
sY
s
2
YX
N
Standardna napaka SE: SEYX 
sY2ˆ

 Yi  Yˆi
i 1

N
2
 sY 1  rYX2
Indeks učinkovitosti napovedi EXY
relativno zmanjšanje SE glede na prazni model
E XY
 SE XY
 1001 
sX


 SEYX
  1001 
sY




2
  1001  1  rXY


Interpretacija r2, SE in EXY je enaka tudi pri multipli regresiji.
5200
5000
Masa(g)
4800
4600
4400
4200
4000
7,0
12,0
17,0
22,0
Starost v dnevih
a
3908,7
b
37,5
r
0,993
r**2
0,986
E
0,88
27,0
32,0
Parcialna korelacija
= korelacija med dvema spremenljivkama, pri čemer
kontroliramo enega ali več kovariatov.
= korelacija med deli X in Y, ki so nekorelirani s
kovariatom Z
Uporaba: statistična kontrola motečih spremenljivk.
X
1
2
4
5
7
3
Y
6
Z (kovariat)
25
25
r 

1 2  4  5 2  3  5  6
2
2
2
rXY .Z 

1 2 2  3
2
XY
Izračun parcialne korelacije
1. Določimo regresijski enačbi X’ = aXZ+bXZZ in Y’ = aYZ + bYZZ
2. Izračunamo napake napovedi eX = X-X’ in eY = Y-Y’
3. rXY.Z = r (eX , eY)
Pri enem kovariatu:
rXY .Z 
rXY  rXZ rYZ
2
(1  rXZ
)(1  rYZ2 )
Statistična značilnost:
enako kot r, df = N-2-(št. kovariatov)
Semiparcialna korelacija: kovariat kontroliramo le pri eni
spremenljivki (X ali Y ).
Primer parcialne korelacije:
korelacija med ekstravertnostjo in nevroticizmom glede na starost
rEN = 0,4
rES = -0,6
rNS = -0,5
rEN .S 
rEN  rES rNS
1  r 1  r 
2
ES
2
NS

0,4  (0,6)  (0,5)
1  (0,6) 1  (0,5) 
2
2
 0,14
Primer semiparcialne korelacije:
Koliko variance učne uspešnosti pojasni od inteligentnosti neodvisen del
SES?
rUS = 0,3
rUS  rUI rSI 0,3  0,4  0,5
rU (S .I ) 

 0,12
rUI = 0,4
2
2
1  rSI
1  (0,5)
rIS = 0,5


Težave pri interpretaciji:
•statistični učinek (effect) vs. vzročni vpliv
•statistična značilnost vs. praktična pomembnost
•koliko variance pojasni posamezen napovednik?
•statistično značilni/neznačilni b v različnih modelih
•predznak b ni enak predznaku r ( sestavljene
spremenljivke ali preveč visoko koreliranih napovednikov)
•supresorski odnosi (npr. mehanska in verbalna sposobnost
ter uspešnost pilotov)
Regresijske parametre interpretiramo v kontekstu
modela!
Regresijske predpostavke in diagnostika:
• intervalen kriterij, intervalni ali dihotomni
napovedniki
• naključno vzorčenje / neodvisnost opazovanj
• normalnost ostankov (npr. P-P graf)
• linearnost odnosov (rezidualni graf)
• homoscedastičnost (rezidualni graf)
Zlasti če MR pojasnjevalna metoda:
• popolna zanesljivost napovednikov
• specifikacija modela
Rezidualni graf:
napovedane vrednosti vs. ostanki
Vrste ostankov:
•surovi (M = 0)
•standardizirani (M = 0, Var = 1)
•studentizirani (e/SEe  manjši vpliv ekstremov)
•izbrisani (ei določen brez osebe i )
Iskanje vplivnih točk
• Cookova razdalja (oddaljenost od povprečja
prediktorjev × napaka napovedi)
• DFBETA: sprememba regr. koeficienta, če izločimo
osebo
• DFBETAS: standardizirana sprememba, (deljena s SE ) ;
približna krit. vrednost: 2/(N 1/2) - 3/(N 1/2)  jemati le
orientacijsko, pazimo na relativno visoke vrednosti
• DFFIT: sprememba napovedane vrednosti
Sestavljanje regresijskega modela
a) Hkrati vključimo vse relevantne napovednike (Enter)
b) “Hierarhično” vključevanje po vnaprej postavljenem
vrstnem redu.
c) Postopno vključevanje po statističnih kriterijih:
Forward, Backward, Stepwise.
Strategiji b in zlasti c lahko nevarni, če razmerje N/P
ni veliko! Testi značilnosti predpostavljajo a.
Namen MR:
napovedovanje kriterijske spremenljivke Y na osnovi p
(= 2 ali več) napovednikov (X1- Xp)
P
Yˆi  a   b j X ij oz. y = Xb+
(b+ = vektor parametrov a in b)
j 1
Diagram poti:
C
X1
X2
X3
b1
b2
določiti uteži b tako, da bo:
a
Y
b3
Cilj MR:
•korelacija med Y in Y  = max.
•e2 = (Y –Y )2 = min.
Y  = obtežena vsota
napovednikov, ki najbolje
napoveduje Y v smislu najmanjših
kvadratov
Izračun in interpretacija parametrov
b+ = (X+X+)-1X+y
oz. b = C-1c
potreben poln rang X!
X+ = podatkovna matrika z dodanim vektorjem enic
b+ = [a b1 … bp]
b = [b1 … bp]
C = kovariančna matrika napovednikov
c = [Cov(Y,X1) … Cov(Y,Xp)]
a  Y  b j X j
b1 = povečanje Y pri povečanju X1 za 1 enoto in
nespremenjenih X2-Xp
a = napovedana vrednost Y, ko velja X1=X2=… Xp = 0
Kako priti do optimalnih uteži?
Nekaj možnih načinov obteževanja:
1. bj = 1
… variabilnost napovednikov
2. bj = 1/sj
… rYj
3. bj = rYj/sj
… r med napovedniki
(…lahko v redu, če so rYj podobne)
4. na bj mora torej vplivati:
•variabilnost napovednikov (),
•korelacija med napovednikom in kriterijem (),
•korelacije z drugimi napovedniki ().
Izračun pri p = 2:
b1 
s22 s y1  s12 s y 2
s12 s22  s122
Izpeljava regresijskih parametrov
y
e
x2
x1
yˆ
X - ravnina
y = y + e
Xb + e = y
XXb + Xe = Xy
(XX)–1(XX)b = (XX)–1Xy
b = (XX)–1Xy
//Xe = 0
Standardizirani model
P
zˆ(Yi )    j z ( X j )i
(konstanta odpade – vse M = 0)
j 1
z vrednosti obtežimo s “koeficienti beta”
Interpretacija :
•regresijski nagib za standardizirane spremenljivke;
•relativna pomembnost gl. na ostale prediktorje.
•pri nekoreliranih napovednikih: Yj = rYj
Pozor:
•|| lahko > 1
• ni populacijska vrednost b
•bolj odvisen od vzorčne variabilnosti kot b
•ni isto kot delno standardizirani nagib (gl. AMSSD, str. 159)
Izračun beta koeficientov:
 = R–1r
 j  bj
sj
sY
…nagib za standardizirane napovednike
…standardizirani nagib
Pri dveh napovednikih:
(prim. obrazec za surovi nagib)
rYX  rYZ rXZ
X 
2
1  rXZ
Primer:
napovedovanje uspešnosti (U) na podlagi dveh testov (T1
in T2).
Korelacije:
U
T1
T1
0,3
Opisne statistike:
T2
0,4
0,6
M
SD
U
20
5
T1
50
10
rU 1  rU 2r12 0,3  0,4  0,6
1 

 0,094
2
2
1 r12
1 0,6
rU 2  rU 1r12 0,4  0,3  0,6
2 

 0,344
2
2
1 r12
1 0,6
stand.regresijska enačba: z’U = 0,094zT1 + 0,344zT2
T2
100
15
U
5
b1  1
 0,094
 0,047
1
10
U
5
b2  2
 0,344
 0,115
2
15
a Y  b j X j  20  0,047 50  0,115100  6,198
Nestandardizirana enačba:
U’ = 6,198 + 0,047  T1 + 0,115  T2
Višina povezanosti: multipla korelacija
Definicija:
R  r (YYˆ)
Računanje:
1
R  r' R r
oz.
R  r' β
R
oz.
P
r
j 1
Yj
j
R in semiparcialne korelacije:
R
2
Y .12...p
 r r
2
Y1
2
Y ( 2.1)
Za dva prediktorja:
2
Y (3.12)
r
 ... r
R
rYX2  rYZ2  2rYX rYZ rXZ
2
1  rXZ
2
Y ( p.123.. p1)
Na višino R vpliva:
•korelacije prediktorjev s kriterijem ()
•korelacije med prediktorji (),
•vplivne točke (/),
•napaka merjenja (),
•variabilnost v vzorcu gl. na populacijo ().
Velja tudi:
•0 ≤ R ≤ 1
•R ≥ max. rYj
•R ni izračunljiv, če |R|=0 (linearno odvisni prediktorji)
Korelacija med prediktorji in R 2:
X1
R
2
Y .12
1
2
5
4
3
6
7
2
3
2
Y (1.2 )
r
2

235 6
2
Y ( 2.1)
r
2
12
Y
3
X1
5
6
1
R
2
Y .12
 r r
2
Y1
2
Y2
7
6

235 6
45
45
r 

1 2  4  5 4  5  6  7
X2
X1
1
Y
256

2563
X2
R
2
Y .12
4
r
2
Y2
Y
6
7
X2
Preberite tudi:
Sočan (2004). Postopki klasične testne teorije (PKTT),
• dodatek A
• Poglavje 4
• (po potrebi poglavje o linearni regresiji v katerem od splošnih
učbenikov statistike)
Bartholomew et al. (2008). Analysis of multivariate
social science data (AMSSD)
Poglavje 6
poglavje o multipli regresiji najdete v skoraj vseh
učbenikih multivariatnih metod in mnogih statističnih
učbenikih