Transcript Document
Raziskovalna metodologija v psihologiji psihologija (III.st.) – 1. letnik 2011/12 Vnos, urejanje in pregled podatkov pred multivariatno analizo in statistični modeli Kaj so multivariatne metode (MVM)? “Statistične metode za analizo več (odvisnih) spremenljivk hkrati.” Nekatera tipična MV raziskovalna vprašanja: »Kako na podlagi več napovednih spremenljivk čim bolje napovedati vrednosti odvisne spremenljivke?« (multipla regresija/logistična regresija) »Kako večje število spremenljivk nadomestiti z majhnim številom novih spremenljivk?« (analiza glavnih komponent) »S katerimi hipotetičnimi spremenljivkami lahko pojasnimo korelacije med večjim številom opazovanih spremenljivk?« (faktorska analiza) »Ali lahko določimo skupine podobnih oseb/objektov/spremenljivk?« (clusterska analiza) »Ali se predpostavljeni model odnosov med spremenljivkami prilega podatkom?« (strukturno modeliranje) »Ali eksperimentalni pogoj vpliva na povprečja dveh ali več odvisnih spremenljivk?« (multivariatna analiza variance – MANOVA) MVM nujne pri proučevanju: •kompleksnih modelov napovedovanja / razvrščanja, •interakcije in moderacije, •mediacije, •latentnih spremenljivk, •strukture pojavov… Delitev MVM: 1. glede na cilj: napovedovanje - strukturiranje 2. opisne, eksploratorne – “modelske”, konfirmatorne 3. glede na raziskovalni načrt: (kvazi)eksperiment korelacijsko raziskovanje Statistični modeli Model = formaliziran oz. abstrakten poenostavljen opis realnosti. Značilnosti statističnih modelov: •formalna (matematična) struktura •poenostavljenost & posplošljivost (abstraktna načela) •»preizkusljivost« • Model vs. tavtologija. (=logična trditev, pri kateri je sklep enak premisi oz. obrazec in predlaganem izračunu, ki je vedno pravilen) • Model in ciljna funkcija (c.f. je bistven del metode!) Kaj običajno srečamo: •teoretične porazdelitve •(naključno) vzorčenje •bivariatna regresijska analiza •ANOVA n Splošni linearni model: Yi a b j X ij ei j 1 b…uteži – določene glede na namen analize i…indeks osebe X…(neodvisna) spremenljivka j…indeks (neodvisne) spremenljivke a…konstanta e…ostanek/rezidual/napaka Preverjanje modela: 1. dihotomno (model drži ali ne): problem potrjevanje H0 2. stopnja odstopanja od modela – goodness of fit (problem kriterijev; marsikje slabo razvito!) Prileganje modelu ni isto kot velikost učinka! Napake v modeliranju: 1. sistematične (v modelu) 2. naključne (merjenje / vzorčenje) Anscombe's quartet… … comprises four datasets that have identical simple statistical properties, yet appear very different when graphed. Each dataset consists of eleven (x,y) points. They were constructed in 1973 by the statistician F.J. Anscombe to demonstrate both the importance of graphing data before analysing it and the effect of outliers on statistical properties. …to emphasize the importance of looking at one's data before analyzing it!!! Anscombe's Quartet I II III IV Lastnost Vrednost Povprečje vsake x spremenljivke 9,0 Varianca vsake x spremenljivke 10,0 Povprečje vsake y spremenljivke 7,5 x y x y x y x y 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 Varianca vsake y spremenljivke 3,75 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71 Korelacija med vsakim parom x in y 0,816 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84 Regresijska premica y = 3 + 0,5x 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47 14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04 6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25 4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50 12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56 7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91 5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89 Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21. seems to be distributed normally, and corresponds to what one would expect when considering two variables correlated and following the assumption of normality …vsa odstopanja so naključne napake… the distribution is linear, but with a different regression line, which is offset by the one outlier which exerts enough influence to alter the regression line and lower the correlation coefficient from 1 to 0.81 not distributed normally; while an obvious relationship between the two variables can be observed, it is not linear, and the Pearson correlation coefficient is not relevant …vsa odstopanja so sistematične napake (kvadratna funkcija)… one outlier is enough to produce a high correlation coefficient, even though the relationship between the two variables is not linear Urejanje podatkov Šifra Moški Starost Izobrazba IQ A01 1 25 7 125 A02 1 25 6 111 •osebe v vrsticah, spremenljivke v stolpcih A03 0 36 6 104 •načelo “1 enota (oseba) – 1 vrstica” (par obravnavamo kot eno enoto) A04 1 23 4 95 A05 0 48 5 109 B01 0 -9999 5 98 B02 0 31 3 92 Podatkovna matrika: •najprej identifikacijska B03 1 27 4 spremenljivka, nato splošne 1 41 4 demografske spremenljivke, B04 za tem vse ostalo •numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da) •jasna imena (zapišimo si natančen opis vsake spremenljivke!) •kode za manjkajoče vrednosti (potrebno sporočiti programu!) •vhodni podatki za MV analizo so lahko tudi druge matrike (npr. kovariančna matrika, matrika razdalj…) 94 88 Manjkajoče vrednosti (missing data) Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke. Preprečevati v procesu zbiranja podatkov. Ni preprostih dobrih rešitev – več o tem ob koncu semestra… Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi. Nezaželene odvisnosti A. odvisnost oseb: • Navadno posledica stopenjskega vzorčenja. • Ignoriranje ima lahko zelo resne posledice (neveljavnost stat. testov)! • Rešitev: večnivojski modeli. B. odvisnost spremenljivk: Nastane zaradi: 1. medsebojne pogojenosti odgovorov; 2. ipsativnega vrednotenja (npr. pri prisilni izbiri); 3. možnosti izbiranja nalog; 4. hkratne uporabe X, Y in aX+bY ipd., 5. hkratne uporabe (skoraj) identičnih spremenljivk. Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5). Pomen natančnega pregleda podatkov pri MV analizi: - odkrivanje napak in motenj (težko razvidne iz rezultatov!) - preverjanje predpostavk (normalnost, linearnost, homoscedastičnost) Osnovni pregled: M, SD / AD, min, max histogram / tabela frekvenčne porazdelitve okvir z ročaji (boxplot) razsevni diagrami (scatter-plot) Npr.: Dihotomno (1/0) točkovana postavka: Descriptive Statistics N VAR00001 107 Valid N (listwise) 107 Valid Minimum Maximum ,00 11,00 Mean Std. Deviation ,6729 1,12246 Cumulative Percent Frequency Percent Valid Percent ,00 45 42,1 42,1 42,1 1,00 61 57,0 57,0 99,1 11,00 1 ,9 ,9 100,0 Total 107 100,0 100,0 V obeh primerih ima M “nevpadljivo” vrednost (0,67 oz. 3,30)! Postavka “Likertovega tipa” (1-5) r = 0,250 ...na prvi pogled v redu, toda… Če pravilno določimo kodo za manjkajočo vrednost: r = 0,048 Vpliv omejene variabilnosti na korelacijo: r = 0,80 80 70 60 50 40 30 20 20 30 40 50 60 70 80 60 70 80 r = 0,60 (selekcija) 80 70 60 50 40 30 20 20 30 40 50 60 70 80 r = 0,88 (ekstremne skupine) 80 70 Mimogrede: sprememba merske lestvice ne vpliva na r! 60 50 40 30 20 20 30 40 50 Osamelci (ekstremne vrednosti, outliers) Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo) Problematični, ker lahko nesorazmerno vplivajo na M, SD oz. Var, r in b (ter ostale izpeljane statistike!) vplivne točke (influential observations) Univariatni in multivariatni osamelci Multivariatni: neobičajen vzorec povezanosti. Vsak uni- je tudi multi-, ne velja pa obratno! Diagnostika: •slike (zaboj z ročaji za univar., razsevni diagram za bivar.) • “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni) •Mahalanobisova razdalja D (multivar.): posplošitev z2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 … (pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje) Primer: osamelci v bivariatnem primeru 0 2 1 3 0 1 2 3 z(X) / 4 2 4 z(Y) / 3,6 -2 -2 r 0,90 0,91 0,83 0,75 regr. enačba Y' = Y' = Y' = Y' = 51,9+0,98X 51,9+0,98X 55,4+0,90X 61,6+0,77X M(D) 1,98 1,98 1,98 1,98 max(D) 6,26 13,66 44,35 64,10 𝐷𝑖 2 = 𝒙𝑖 − 𝒙 ′ 𝑺−1 𝒙𝑖 − 𝒙 D = Mahalanobisova razdalja z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk (v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne) Razlogi za nastanek osamelcev: 1. napake pri zbiranju podatkov 2. napake pri vnosu/manipulaciji podatkov 3. kodiranje manjkajočih vrednosti (tipična koda: -9999) 4. oseba ne pripada ciljni populaciji 5. oblika porazdelitve Ukrepi: • popravek (2,3), • brisanje (1,4 potrebna utemeljitev!) • pretvorbe podatkov (5) • (bolj) robustne metode (5) • analiza z in brez osamelcev (5, 5?) preveriti, ali je osamelec tudi vplivna točka! Normalnost porazdelitve Ni nujen pogoj pri vsaki analizi! Običajno najbolj problematična visoka sploščenost. Preverjanje univariatne normalnosti: •P-P in Q-Q grafi, •koeficienta sploščenosti in asimetrije •testi normalnosti (npr. Shapiro-Wilk) Multivariatna normalnost (MVN): •vse obtežene vsote spremenljivk so normalno porazdeljene •vse pogojne porazdelitve so normalne •univariatna n. je nujen, vendar ne zadosten pogoj za MVN Preverjanje: slabo razvito! Test MV sploščenosti in asimetrije. Linearnost povezav •implicira vsaj intervalno merjenje •pomembna pri analizah, ki temeljijo na r ali Cov •vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve •diagnostika: pregled razsevnih diagramov in rezidualnih grafov Homoscedastičnost (ant. heteroscedastičnost) •enaka variabilnost napak pri vsaki vrednosti X • enaka natančnost (napovedi) pri vsakem X •preverjamo z grafičnimi preizkusi (rezidualni graf) “Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 20 40 r=0 60 80 100 0 20 40 60 r = 0,71 80 100 Linearnost, homoscedastičnost in normalnost so lahko povezane: 3.2 3.0 2.8 2.6 2.4 2.2 SKEW 2.0 1.8 1.6 10 20 NORMAL 30 40 50 60 70 80 90 Pretvorbe: ploščinska normalizacija; nelinearne funkcije, npr. koren, logaritem ali inverz. 160 200 140 As=-0,43 Spl=0,40 120 As=-0,82 Spl=1,36 100 80 100 60 40 Std. Dev = .73 Std. Dev = .22 20 Mean = 3.89 Mean = 7.03 N = 1000.00 00 9. 50 8. 00 8. 50 7. 00 7. 50 6. 00 6. 50 5. 00 5. 50 4. 00 4. KOREN N = 1000.00 0 31 4. 19 4. 06 4. 94 3. 81 3. 69 3. 56 3. 44 3. 31 3. 19 3. 06 3. 94 2. 81 2. 0 LN Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni! Kaj moramo torej preveriti, preden poženemo multivariatno analizo? 1. So podatki ustrezno vneseni? 2. Nepristne odvisnosti spremenljivk ali oseb? 3. Manjkajoči podatki? 4. Pregled univariatnih opisnih statistik in slik. 5. Multivariatni osamelci (outliers) in vplivne točke? kjer vrsta analize to zahteva, pa še: 6. Oblika porazdelitve: normalnost, homoscedastičnost? 7. Linearni odnosi? 8. Je variabilnost vzorca primerljiva s populacijsko?