Diapozitiv 1

Transcript Diapozitiv 1

Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
2. predavanje:
vnos in urejanje podatkov
pregled podatkov pred multivariatno analizo
! manjkajoče vrednosti, osamelci, vplivne točke !
Tipi spremenljivk
Merska raven
(po Stevensu)
Zaporedje
Enake Absolutna Dopustne pretvorbe
razdalje
ničla
Nominalna
vse enolične p.
Ordinalna

vse monotone p.
Intervalna


Razmernostna


linearne p.: X' = a+bX

X' = aX
•kvantitativne (I, R) vs. kvalitativne (N)
•manifestne vs. latentne
•odvisne (kriterijske) vs. neodvisne (pojasnjevalne,
prediktorji, napovedniki)
Urejanje podatkov
Šifra
Moški Starost Izobrazba
IQ
A01
1
25
7
125
A02
1
25
6
111
•osebe v vrsticah,
spremenljivke v stolpcih
A03
0
36
6
104
•načelo “1 enota (oseba) – 1
vrstica” (par obravnavamo
kot eno enoto)
A04
1
23
4
95
A05
0
48
5
109
B01
0
-9999
5
98
B02
0
31
3
92
Podatkovna matrika:
•najprej identifikacijska
B03
1
27
4
spremenljivka, nato splošne
1
41
4
demografske spremenljivke, B04
za tem vse ostalo
•numerično kodiranje kvalitativnih spremenljivk (1/0 pri
dihotomnih; 1=da)
•jasna imena (zapišimo si natančen opis vsake spremenljivke!)
•kode za manjkajoče vrednosti (potrebno sporočiti programu!)
•vhodni podatki za MV analizo so lahko tudi druge matrike (npr.
kovariančna matrika, matrika razdalj…)
94
88
Manjkajoče vrednosti (missing data)
Zelo velik problem!
Večina multivariatnih analiz zahteva popolne podatke.
Preprečevati v procesu zbiranja podatkov.
Ni preprostih dobrih rešitev – več o tem ob koncu
semestra…
Privzeto v SPSS: brisanje vseh oseb z manjkajočimi
vrednostmi.
Nezaželene odvisnosti
A. odvisnost oseb:
• Navadno posledica stopenjskega vzorčenja.
• Ignoriranje ima lahko zelo resne posledice (neveljavnost
stat. testov)!
• Rešitev: večnivojski modeli.
B. odvisnost spremenljivk:
Nastane zaradi:
1. medsebojne pogojenosti odgovorov;
2. ipsativnega vrednotenja (npr. pri prisilni izbiri);
3. možnosti izbiranja nalog;
4. hkratne uporabe X, Y in aX+bY ipd.,
5. hkratne uporabe (skoraj) identičnih spremenljivk.
Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5).
Pomen natančnega pregleda podatkov pri MV analizi:
- odkrivanje napak in motenj (težko razvidne iz
rezultatov!)
- preverjanje predpostavk (normalnost, linearnost,
homoscedastičnost)
Osnovni pregled:
M, SD / AD, min, max
histogram / tabela frekvenčne porazdelitve
okvir z ročaji (boxplot)
razsevni diagrami (scatter-plot)
Npr.:
Dihotomno (1/0) točkovana postavka:
Descriptive Statistics
N
VAR00001
107
Valid N (listwise)
107
Valid
Minimum
Maximum
,00
11,00
Mean
Std. Deviation
,6729
1,12246
Cumulative
Percent
Frequency
Percent
Valid Percent
,00
45
42,1
42,1
42,1
1,00
61
57,0
57,0
99,1
11,00
1
,9
,9
100,0
Total
107
100,0
100,0
V obeh primerih ima M “nevpadljivo”
vrednost (0,67 oz. 3,30)!
Postavka
“Likertovega tipa”
(1-5)
r = 0,250
...na prvi pogled
v redu, toda…
Če pravilno
določimo kodo
za manjkajočo
vrednost:
r = 0,048
Vpliv omejene
variabilnosti na korelacijo:
r = 0,80
80
70
60
50
40
30
20
20
30
40
50
60
70
80
60
70
80
r = 0,60 (selekcija)
80
70
60
50
40
30
20
20
30
40
50
60
70
80
r = 0,88 (ekstremne skupine)
80
70
Mimogrede:
sprememba merske
lestvice ne vpliva na r!
60
50
40
30
20
20
30
40
50
Osamelci (ekstremne vrednosti, outliers)
Neobičajno visoke / nizke vrednosti
(odklon od povprečja je velik v primerjavi z variabilnostjo)
Problematični, ker lahko nesorazmerno vplivajo na
M, SD oz. Var, r in b (ter ostale izpeljane statistike!) 
vplivne točke (influential observations)
Univariatni in multivariatni osamelci
Multivariatni: neobičajen vzorec povezanosti.
Vsak uni- je tudi multi-, ne velja pa obratno!
Diagnostika:
•slike (zaboj z ročaji za univar., razsevni diagram za bivar.)
• “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni)
•Mahalanobisova razdalja D (multivar.): posplošitev z2 na več
spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 …
(pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki –
velika razdalja pove, da je vrednost osamelec za prediktorje)
Primer: osamelci v bivariatnem primeru
0
2
1
3
0
1
2
3
z(X)
/
4
2
4
z(Y)
/
3,6
-2
-2
r
0,90
0,91
0,83
0,75
regr.
enačba
Y' =
Y' =
Y' =
Y' =
51,9+0,98X
51,9+0,98X
55,4+0,90X
61,6+0,77X
M(D)
1,98
1,98
1,98
1,98
max(D)
6,26
13,66
44,35
64,10
𝐷𝑖 2 = 𝒙𝑖 − 𝒙 ′ 𝑺−1 𝒙𝑖 − 𝒙
D = Mahalanobisova razdalja
z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk
(v vseh primerih se povečata SD in spremenita M,
vendar so razlike majhne)
Razlogi za nastanek osamelcev:
1. napake pri zbiranju podatkov
2. napake pri vnosu/manipulaciji podatkov
3. kodiranje manjkajočih vrednosti (tipična koda: -9999)
4. oseba ne pripada ciljni populaciji
5. oblika porazdelitve
Ukrepi:
• popravek (2,3),
• brisanje (1,4  potrebna utemeljitev!)
• pretvorbe podatkov (5)
• (bolj) robustne metode (5)
• analiza z in brez osamelcev (5, 5?)
preveriti, ali je
osamelec tudi vplivna
točka!
Normalnost porazdelitve
Ni nujen pogoj pri vsaki analizi!
Običajno najbolj problematična visoka sploščenost.
Preverjanje univariatne normalnosti:
•P-P in Q-Q grafi,
•koeficienta sploščenosti in asimetrije
•testi normalnosti (npr. Shapiro-Wilk)
Multivariatna normalnost (MVN):
•vse obtežene vsote spremenljivk so normalno porazdeljene
•vse pogojne porazdelitve so normalne
•univariatna n. je nujen, vendar ne zadosten pogoj za MVN
Preverjanje:
slabo razvito! Test MV sploščenosti in asimetrije (Mardia).
Linearnost povezav
•implicira vsaj intervalno merjenje
•pomembna pri analizah, ki temeljijo na r ali Cov
•vzroki nelinearnosti: intrinzična nelinearnost ali oblika
porazdelitve
•diagnostika: pregled razsevnih diagramov in rezidualnih
grafov
Homoscedastičnost (ant. heteroscedastičnost)
•enaka variabilnost napak pri vsaki vrednosti X
• enaka natančnost (napovedi) pri vsakem X
•preverjamo z grafičnimi preizkusi (rezidualni graf)
“Metuljasta heteroscedastičnost” zaradi
združevanja različnih skupin
90
90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
10
0
20
40
r=0
60
80
100
0
20
40
60
r = 0,71
80
100
Linearnost, homoscedastičnost in normalnost so
lahko povezane:
3.2
3.0
2.8
2.6
2.4
2.2
SKEW
2.0
1.8
1.6
10
20
NORMAL
30
40
50
60
70
80
90
Pretvorbe:
 ploščinska normalizacija;
 nelinearne funkcije, npr. koren, logaritem ali inverz.
160
200
140
As=-0,43
Spl=0,40
120
As=-0,82
Spl=1,36
100
80
100
60
40
Std. Dev = .73
Std. Dev = .22
20
Mean = 3.89
Mean = 7.03
N = 1000.00
00
9.
50
8.
00
8.
50
7.
00
7.
50
6.
00
6.
50
5.
00
5.
50
4.
00
4.
KOREN
N = 1000.00
0
31
4.
19
4.
06
4.
94
3.
81
3.
69
3.
56
3.
44
3.
31
3.
19
3.
06
3.
94
2.
81
2.
0
LN
Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti,
homoscedastičnosti in normalnosti, vendar navadno otežijo
interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!
Kaj moramo torej preveriti, preden poženemo
multivariatno analizo?
1. So podatki ustrezno vneseni?
2. Nepristne odvisnosti spremenljivk ali oseb?
3. Manjkajoči podatki?
4. Pregled univariatnih opisnih statistik in slik.
5. Multivariatni osamelci (outliers) in vplivne točke?
kjer vrsta analize to zahteva, pa še:
6. Oblika porazdelitve: normalnost,
homoscedastičnost?
7. Linearni odnosi?
8. Je variabilnost vzorca primerljiva s populacijsko?

Diapozitiv 1

Transcript Diapozitiv 1

Directory