Transcript Document

Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
1. predavanje:
osnovni podatki o predmetu
uvod v multivariatne metode
statistični modeli
Osnovni podatki:
•Nosilec: prof. dr. Valentin Bucik, v št.l. 2011/12 v
sodelovanju z doc. dr. Gregor Sočan (in najprej z doc.
dr. Anjo Podlesek)
•30 ur predavanj + 30 ur vaj v ZS (2P+2V) + pribl. 80
ur študija  5 ECTS
•Vaje v 2 skupinah ob ponedeljkih (praviloma z
računalniki).
•Ocena: pisni (50%) in praktični del (50%) izpita. 50%
praktičnega dela se lahko nadomesti z rezultati dveh
sprotnih preverjanj (morda tudi projekt-o tem na
vajah.
Cilji predmeta:
• Nadgradnja statističnega znanja iz 1. letnika (…za
normalno delo pri predmetu je nujno dobro znanje
statistike in metodologije…).
• Za pristop k izpitu: izpiti iz OS, SZ in MPR
• Spoznati osnovne metode multivariatne statistike, ki
se uporabljajo predvsem pri korelacijskih raziskavah.
• Razumevanje cilja, osnovnih postopkov in
predpostavk posamezne metode.
• Branje literature ter kritična evalvacija ustreznosti
izvedenih obdelav podatkov.
• Izbira in načrtovanje analize v pripravi in izvedbi
empiričnih raziskav in pri praktičnem delu.
Kaj so multivariatne metode (MVM)?
“Statistične metode za analizo več (odvisnih) spremenljivk
hkrati.”
Nekatera tipična MV raziskovalna vprašanja:
»Kako na podlagi več napovednih spremenljivk čim bolje napovedati
vrednosti odvisne spremenljivke?« (multipla regresija/logistična regresija)
»Kako večje število spremenljivk nadomestiti z majhnim številom novih
spremenljivk?« (analiza glavnih komponent)
»S katerimi hipotetičnimi spremenljivkami lahko pojasnimo korelacije med
večjim številom opazovanih spremenljivk?« (faktorska analiza)
»Ali lahko določimo skupine podobnih oseb/objektov/spremenljivk?«
(clusterska analiza)
»Ali se predpostavljeni model odnosov med spremenljivkami prilega
podatkom?« (strukturno modeliranje)
»Ali eksperimentalni pogoj vpliva na povprečja dveh ali več odvisnih
spremenljivk?« (multivariatna analiza variance – MANOVA)
MVM nujne pri proučevanju:
•kompleksnih modelov napovedovanja / razvrščanja,
•interakcije in moderacije,
•mediacije,
•latentnih spremenljivk,
•strukture pojavov…
Delitev MVM:
1. glede na cilj: napovedovanje - strukturiranje
2. opisne, eksploratorne – “modelske”, konfirmatorne
3. glede na raziskovalni načrt: (kvazi)eksperiment korelacijsko raziskovanje
Obvezna literatura:
Bartholomew, D. J., Steele, F., Moustaki, I. in Galbraith, J. I. (2008).
Analysis of multivariate social science data (2nd ed.). Boca Raton:
Chapman & Hall / CRC. (razen poglavij 8-10)
Sočan, G. (2004). Postopki klasične testne teorije. Ljubljana: FF.
(poglavji 4 in 5 ter dodatek B)
Priporočena dodatna literatura:
Field, A. (2009). Discovering statistics using SPSS (3rd ed.). London: Sage.
(predvsem poglavja 6.6, 7, 8, pa tudi 5, 7, 19)
Garson, D.B., Statnotes: Topics in Multivariate Analysis. Dostopno na
http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm
Hancock, G.H. in Mueller, R.O. (2010). The reviewer's guide to
quantitative methods in the social sciences. New York: Routledge.
(poglavja 3-5, 8, 10, 17, 20, 21, 28)
Tabachnick, B.G. in Fidell, L.S. (2007). Using multivariate statistics (5th
ed.). Boston: Allyn & Bacon. (poglavja 1-5, 10, 12-15)
(dodatno literaturo za posamezna poglavja boste dobili sproti)
(vsi našteti viri imajo nizko razmerje formule/besedilo)
Pregled vsebine predavanj
Pregled MVM, statistični modeli
Pregled podatkov pred MV analizo
Multipla linearna regresija
Logistična regresija
Uvod v večnivojsko modeliranje (HLM)
Uvod
Napovedovanje
Analiza glavnih komponent (PCA)
(Multipla) korespondenčna analiza (MCA)
Eksploratorna faktorska analiza (EFA)
Združevanje v skupine (clusterska analiza, CA)
Kanonična korelacijska analiza (CCA)
Večrazsežnostno lestvičenje (MDS)
Analiza manjkajočih podatkov
Uvod v strukturno modeliranje (SEM)
Strukturiranje
Statistični modeli
Model = formaliziran oz. abstrakten poenostavljen
opis realnosti.
Značilnosti statističnih modelov:
•formalna (matematična) struktura
•poenostavljenost & posplošljivost (abstraktna
načela)
•»preizkusljivost«
• Model vs. tavtologija.
(=logična trditev, pri kateri je sklep
enak premisi oz. obrazec in predlaganem izračunu, ki je vedno
pravilen)
• Model in ciljna funkcija (c.f. je bistven del
metode!)
Do sedaj smo srečali:
•teoretične porazdelitve
•(naključno) vzorčenje
•bivariatna regresijska analiza
•ANOVA
n
Splošni linearni model:
Yi  a   b j X ij  ei
j 1
b…uteži – določene glede na namen analize
i…indeks osebe
X…(neodvisna) spremenljivka
j…indeks (neodvisne) spremenljivke
a…konstanta
e…ostanek/rezidual/napaka
S.l.m. je kompenzatoren (kar ni vedno realistično)!!
Preverjanje modela:
1. dihotomno (model drži ali ne): problem 
potrjevanje H0
2. stopnja odstopanja od modela – goodness of fit
(problem kriterijev; marsikje slabo razvito!)
Prileganje modelu ni isto kot velikost učinka!
Napake v modeliranju:
1. sistematične (v modelu)
2. naključne (merjenje / vzorčenje)
Anscombe's quartet…
… comprises four datasets that have identical simple
statistical properties, yet appear very different when
graphed. Each dataset consists of eleven (x,y) points.
They were constructed in 1973 by the statistician F.J.
Anscombe to demonstrate both the importance of
graphing data before analysing it and the effect of
outliers on statistical properties.
…to emphasize the importance of looking
at one's data before analyzing it!!!
Anscombe's Quartet
I
II
III
IV
Lastnost
Vrednost
Povprečje vsake x spremenljivke
9,0
Varianca vsake x spremenljivke
10,0
Povprečje vsake y spremenljivke
7,5
x
y
x
y
x
y
x
y
10.0
8.04
10.0
9.14
10.0
7.46
8.0
6.58
8.0
6.95
8.0
8.14
8.0
6.77
8.0
5.76
Varianca vsake y spremenljivke
3,75
13.0
7.58
13.0
8.74
13.0
12.74
8.0
7.71
Korelacija med vsakim parom x in y
0,816
9.0
8.81
9.0
8.77
9.0
7.11
8.0
8.84
Regresijska premica
y = 3 + 0,5x
11.0
8.33
11.0
9.26
11.0
7.81
8.0
8.47
14.0
9.96
14.0
8.10
14.0
8.84
8.0
7.04
6.0
7.24
6.0
6.13
6.0
6.08
8.0
5.25
4.0
4.26
4.0
3.10
4.0
5.39
19.0
12.50
12.0
10.84
12.0
9.13
12.0
8.15
8.0
5.56
7.0
4.82
7.0
7.26
7.0
6.42
8.0
7.91
5.0
5.68
5.0
4.74
5.0
5.73
8.0
6.89
Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician,
27, 17–21.
seems to be distributed normally, and
corresponds to what one would expect when
considering two variables correlated and following
the assumption of normality
…vsa odstopanja
so naključne
napake…
the distribution is linear, but with a different
regression line, which is offset by the one outlier
which exerts enough influence to alter the
regression line and lower the correlation
coefficient from 1 to 0.81
not distributed normally; while an obvious
relationship between the two variables can be
observed, it is not linear, and the Pearson
correlation coefficient is not relevant
…vsa
odstopanja so
sistematične
napake
(kvadratna
funkcija)…
one outlier is enough to produce a high
correlation coefficient, even though the
relationship between the two variables is not
linear
Linearni model ni vedno edina možna razlaga…
Npr.: kako se spremeni raven spretnosti po dodatni vaji?
1. model (linearni model)
X1= S + e1
X 2 = S + d + e2
 dˆ  X 2  X 1
2. model (nelinearni multiplikativni model)
X
X1= Se1
X2 = Sfe2
 fˆ  2
X1
3. model (multiplikativni model z aditivnimi napakami)
X1= S + e1
X2 = Sf + e2
4. model (delno multiplikativni model z zgornjo mejo)
X1= S + e1
X2 = S +(z-S)f + e2
S = začetna raven spretnosti, e = napaka merjenja, d = sprememba,
f = faktor spremembe, z = zgornja meja spretnosti