Transcript Document
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 3. predavanje: ponovitev bivariatne regresije Parcialna/semiparcialna korelacija Regresijska diagnostika Ponovitev nekaterih osnovnih pojmov N Varianca v vzorcu s X 2 X i 1 i X N 2 (s = standardni odklon) Varianca v (neskončni) populaciji: X2 E X i X 2 N Ocena populacijske variance iz vzorčnih podatkov ˆX (“vzorčna varianca”) 2 X i 1 i X 2 N 1 Vrednost napovedovane spremenljivke za i-to osebo: Yi Napovedana vrednost za i-to osebo: Yˆi oz.Yi ' Napaka napovedi (ostanek) za i-to osebo: ei Yi Yˆi torej: Yi Yˆi ei Standardna napaka napovedi: SEY = e ; če je e=0: SEY E (e 2 ) oz . N 2 e i 1 N Dva vidika regresijske analize: 1. napovedovanje (npr.: “Kolikšno delovno uspešnost lahko napovemo kandidatu za delovno mesto? Kolikšno napako lahko ob tem pričakujemo?”) 2. pojasnjevanje (npr.: “S katerimi sposobnostmi in veščinami lahko pojasnimo razlike v uspešnosti? Kolikšen delež variance uspešnosti lahko pojasnimo?”) Kaj je merilo uspešnosti napovedovanja (…ciljna funkcija)? Najpogosteje: kriterij najmanjših kvadratov: min f (Y’ ) = e2 Nekaj implikacij k.n.k.: minimizira SEY “penalizira” velike napake napovedi e = M(e) = 0 “Prazni model”: 0 napovednikov Če uporabimo kriterij najmanjših kvadratov, napovedujemo le na osnovi porazdelitve Y in dobimo Yˆ Y SEY = Y spomnimo se tudi, da (X-M) = 0 e = 0 Prazni model pomemben kot osnova za primerjavo. 1 napovednik: bivariatna regresija Yˆ Y X i (pogojna aritmetična sredina) e~N(0,SE ) (Y|Xk) Če pogojne aritmetične sredine (Y|Xj) ležijo na premici: linearna regresija. (Y|Xi) Enačba premice: Xi Xj Xk Yˆi aYX bYX X i a = presečišče z ordinato (intercept) oz. regresijska konstanta = napovedana vrednost Y pri X=0 b = regresijski nagib (slope) = napovedano povečanje Y pri povečanju X za 1 Mere povezanosti / natančnosti napovedovanja (1) X N Kovarianca (Cov): s XY i 1 i X Yi Y N informacija o povezanosti in variabilnosti Pearsonov r - standardizirana kovarianca rXY N x y i i 1 i N s XY s X sY - standardizirani regresijski nagib rXY bYX sX sY bXY sY sX - povprečni produkt z vrednosti (“produkt-moment”) N r z i 1 z X i Yi N Mere povezanosti / natančnosti napovedovanja (2) Koeficient determinacije r2 delež pojasnjene variance 2 YX 2 Y SE r 2 1 sY s 2 YX N Standardna napaka SE: SEYX sY2ˆ Yi Yˆi i 1 N 2 sY 1 rYX2 Indeks učinkovitosti napovedi EXY relativno zmanjšanje SE glede na prazni model E XY SE XY 1001 sX SEYX 1001 sY 2 1001 1 rXY Interpretacija r2, SE in EXY je enaka tudi pri multipli regresiji. 5200 5000 Masa(g) 4800 4600 4400 4200 4000 7,0 12,0 17,0 22,0 Starost v dnevih a 3908,7 b 37,5 r 0,993 r**2 0,986 E 0,88 27,0 32,0 Parcialna korelacija = korelacija med dvema spremenljivkama, pri čemer kontroliramo enega ali več kovariatov. = korelacija med deli X in Y, ki so nekorelirani s kovariatom Z Uporaba: statistična kontrola motečih spremenljivk. X 1 2 4 5 7 3 Y 6 Z (kovariat) 25 25 r 1 2 4 5 2 3 5 6 2 2 2 rXY .Z 1 2 2 3 2 XY Izračun parcialne korelacije 1. Določimo regresijski enačbi X’ = aXZ+bXZZ in Y’ = aYZ + bYZZ 2. Izračunamo napake napovedi eX = X-X’ in eY = Y-Y’ 3. rXY.Z = r (eX , eY) Pri enem kovariatu: rXY .Z rXY rXZ rYZ 2 (1 rXZ )(1 rYZ2 ) Statistična značilnost: enako kot r, df = N-2-(št. kovariatov) Semiparcialna korelacija: kovariat kontroliramo le pri eni spremenljivki (X ali Y ). Primer parcialne korelacije: korelacija med ekstravertnostjo in nevroticizmom glede na starost rEN = 0,4 rES = -0,6 rNS = -0,5 rEN .S rEN rES rNS 1 r 1 r 2 ES 2 NS 0,4 (0,6) (0,5) 1 (0,6) 1 (0,5) 2 2 0,14 Primer semiparcialne korelacije: Koliko variance učne uspešnosti pojasni od inteligentnosti neodvisen del SES? rUS = 0,3 rUS rUI rSI 0,3 0,4 0,5 rU (S .I ) 0,12 rUI = 0,4 2 2 1 rSI 1 (0,5) rIS = 0,5 Težave pri interpretaciji: •statistični učinek (effect) vs. vzročni vpliv •statistična značilnost vs. praktična pomembnost •koliko variance pojasni posamezen napovednik? •statistično značilni/neznačilni b v različnih modelih •predznak b ni enak predznaku r ( sestavljene spremenljivke ali preveč visoko koreliranih napovednikov) •supresorski odnosi (npr. mehanska in verbalna sposobnost ter uspešnost pilotov) Regresijske parametre interpretiramo v kontekstu modela! Regresijske predpostavke in diagnostika: • intervalen kriterij, intervalni ali dihotomni napovedniki • naključno vzorčenje / neodvisnost opazovanj • normalnost ostankov (npr. P-P graf) • linearnost odnosov (rezidualni graf) • homoscedastičnost (rezidualni graf) Zlasti če MR pojasnjevalna metoda: • popolna zanesljivost napovednikov • specifikacija modela Rezidualni graf: napovedane vrednosti vs. ostanki Vrste ostankov: •surovi (M = 0) •standardizirani (M = 0, Var = 1) •studentizirani (e/SEe manjši vpliv ekstremov) •izbrisani (ei določen brez osebe i ) Iskanje vplivnih točk • Cookova razdalja (oddaljenost od povprečja prediktorjev × napaka napovedi) • DFBETA: sprememba regr. koeficienta, če izločimo osebo • DFBETAS: standardizirana sprememba, (deljena s SE ) ; približna krit. vrednost: 2/(N 1/2) - 3/(N 1/2) jemati le orientacijsko, pazimo na relativno visoke vrednosti • DFFIT: sprememba napovedane vrednosti Sestavljanje regresijskega modela a) Hkrati vključimo vse relevantne napovednike (Enter) b) “Hierarhično” vključevanje po vnaprej postavljenem vrstnem redu. c) Postopno vključevanje po statističnih kriterijih: Forward, Backward, Stepwise. Strategiji b in zlasti c lahko nevarni, če razmerje N/P ni veliko! Testi značilnosti predpostavljajo a. Namen MR: napovedovanje kriterijske spremenljivke Y na osnovi p (= 2 ali več) napovednikov (X1- Xp) P Yˆi a b j X ij oz. y = Xb+ (b+ = vektor parametrov a in b) j 1 Diagram poti: C X1 X2 X3 b1 b2 določiti uteži b tako, da bo: a Y b3 Cilj MR: •korelacija med Y in Y = max. •e2 = (Y –Y )2 = min. Y = obtežena vsota napovednikov, ki najbolje napoveduje Y v smislu najmanjših kvadratov Izračun in interpretacija parametrov b+ = (X+X+)-1X+y oz. b = C-1c potreben poln rang X! X+ = podatkovna matrika z dodanim vektorjem enic b+ = [a b1 … bp] b = [b1 … bp] C = kovariančna matrika napovednikov c = [Cov(Y,X1) … Cov(Y,Xp)] a Y b j X j b1 = povečanje Y pri povečanju X1 za 1 enoto in nespremenjenih X2-Xp a = napovedana vrednost Y, ko velja X1=X2=… Xp = 0 Kako priti do optimalnih uteži? Nekaj možnih načinov obteževanja: 1. bj = 1 … variabilnost napovednikov 2. bj = 1/sj … rYj 3. bj = rYj/sj … r med napovedniki (…lahko v redu, če so rYj podobne) 4. na bj mora torej vplivati: •variabilnost napovednikov (), •korelacija med napovednikom in kriterijem (), •korelacije z drugimi napovedniki (). Izračun pri p = 2: b1 s22 s y1 s12 s y 2 s12 s22 s122 Izpeljava regresijskih parametrov y e x2 x1 yˆ X - ravnina y = y + e Xb + e = y XXb + Xe = Xy (XX)–1(XX)b = (XX)–1Xy b = (XX)–1Xy //Xe = 0 Standardizirani model P zˆ(Yi ) j z ( X j )i (konstanta odpade – vse M = 0) j 1 z vrednosti obtežimo s “koeficienti beta” Interpretacija : •regresijski nagib za standardizirane spremenljivke; •relativna pomembnost gl. na ostale prediktorje. •pri nekoreliranih napovednikih: Yj = rYj Pozor: •|| lahko > 1 • ni populacijska vrednost b •bolj odvisen od vzorčne variabilnosti kot b •ni isto kot delno standardizirani nagib (gl. AMSSD, str. 159) Izračun beta koeficientov: = R–1r j bj sj sY …nagib za standardizirane napovednike …standardizirani nagib Pri dveh napovednikih: (prim. obrazec za surovi nagib) rYX rYZ rXZ X 2 1 rXZ Primer: napovedovanje uspešnosti (U) na podlagi dveh testov (T1 in T2). Korelacije: U T1 T1 0,3 Opisne statistike: T2 0,4 0,6 M SD U 20 5 T1 50 10 rU 1 rU 2r12 0,3 0,4 0,6 1 0,094 2 2 1 r12 1 0,6 rU 2 rU 1r12 0,4 0,3 0,6 2 0,344 2 2 1 r12 1 0,6 stand.regresijska enačba: z’U = 0,094zT1 + 0,344zT2 T2 100 15 U 5 b1 1 0,094 0,047 1 10 U 5 b2 2 0,344 0,115 2 15 a Y b j X j 20 0,047 50 0,115100 6,198 Nestandardizirana enačba: U’ = 6,198 + 0,047 T1 + 0,115 T2 Višina povezanosti: multipla korelacija Definicija: R r (YYˆ) Računanje: 1 R r' R r oz. R r' β R oz. P r j 1 Yj j R in semiparcialne korelacije: R 2 Y .12...p r r 2 Y1 2 Y ( 2.1) Za dva prediktorja: 2 Y (3.12) r ... r R rYX2 rYZ2 2rYX rYZ rXZ 2 1 rXZ 2 Y ( p.123.. p1) Na višino R vpliva: •korelacije prediktorjev s kriterijem () •korelacije med prediktorji (), •vplivne točke (/), •napaka merjenja (), •variabilnost v vzorcu gl. na populacijo (). Velja tudi: •0 ≤ R ≤ 1 •R ≥ max. rYj •R ni izračunljiv, če |R|=0 (linearno odvisni prediktorji) Korelacija med prediktorji in R 2: X1 R 2 Y .12 1 2 5 4 3 6 7 2 3 2 Y (1.2 ) r 2 235 6 2 Y ( 2.1) r 2 12 Y 3 X1 5 6 1 R 2 Y .12 r r 2 Y1 2 Y2 7 6 235 6 45 45 r 1 2 4 5 4 5 6 7 X2 X1 1 Y 256 2563 X2 R 2 Y .12 4 r 2 Y2 Y 6 7 X2 Preberite tudi: Sočan (2004). Postopki klasične testne teorije (PKTT), • dodatek A • Poglavje 4 • (po potrebi poglavje o linearni regresiji v katerem od splošnih učbenikov statistike) Bartholomew et al. (2008). Analysis of multivariate social science data (AMSSD) Poglavje 6 poglavje o multipli regresiji najdete v skoraj vseh učbenikih multivariatnih metod in mnogih statističnih učbenikih