Agregace dat a X-Y graf (scatterplot)

Download Report

Transcript Agregace dat a X-Y graf (scatterplot)

UK FHS
Historická sociologie, Řízení a supervize
(LS 2011)
Úvod do SPSS (PSPP)
Agregace dat
Jiří Šafr
jiri.safr(AT)seznam.cz
Poslední aktualizace 6/4/2011
Princip agregace
• Agregování jednotek (originální mikro-data, např. respondenti) do
určených skupin. Transformujeme soubor jednotlivců
podle hodnot určité proměnné na soubor skupin:
jedinci→domácnost, zaměstnanci → organizace,
geografické nebo administrativní jednotky, v případě
časové řady např. z dní na měsíce.
• Mikro-data
→
agregovaná data
x
x
x
y
y
y
→
X
→
Y
• Agregujeme podle určité společné vlastnosti případů,
například na základě průměru nebo % určité kategorie
(lze také pro směrodatnou odchylku, sumu,
nejvyšší/nejnižší hodnotu atd.).
AGGREGATE
Proměnná(é)
podle jejíž
kategorií
agregujeme
Funkce pomocí
níž agregujeme
(přednastaven
průměr)
v PSPP
Proměnné
jejichž
hodnoty
sumarizujem
e
Nastavení funkce agregace
Krom průměru,
lze např. procenta
v určité
kategorii(ích)
AGGREGATE syntax
*nejprve je třeba data seřadit podle agregující proměnné !.
SORT CASES BY v3.
AGGREGATE
/OUTFILE='D:\!FHS_HS\2011_LS\AKD2\agr_ISSP04_demokr_zeme.sav'
/PRESORTED
/BREAK=v3
Pokud si necháme vytvořit
/Tolerance_mean=MEAN(Tolerance)
proměnnou N_BREAK, tak
/v46r_mean=MEAN(v46r)
budeme mít v novém
/gTrust_mean=MEAN(gTrust)
agregovaném souboru
/v14r_mean=MEAN(v14r)
/v15r_mean=MEAN(v15r)
absolutní počty v kategoriích
/v16r_mean=MEAN(v16r)
proměnné podle níž
/PolToleran_mean=MEAN(PolToleran)
agregujeme.
/country15toler_mean=MEAN(country15toler)
/fil_country15toler_mean=MEAN(fil_country15toler)
Zde počet respondentů ISSP v
/v43r_mean=MEAN(v43r)
té které zemi.
/PolTrust_mean=MEAN(PolTrust)
/FuDem_mean=MEAN(FuDem)
/ncActiv_mean=MEAN(ncActiv)
/Member_mean=MEAN(Member)
/vzd_VS_p '% vysokoškoláků'=PGT(v205 4)
/vzd_ZS_p '% základní vzdělání'=PLT(v205 2)
/N_BREAK=N.
Agregovaná data
Příklad ISSP 2004 international:
důvěra, postoje k demokracii
vzdělání podle zemí
Agregovaná data. Příklad: 16 znaků podle zemí
Analýzy agregovaných dat
• nejdříve si musíme nový agregovaný soubor
otevřít (v SPSS10 nezbytně), automatický název
bývá aggr.sav, pokud jsme si ho nenechali
vytvořit do nového okna s daty.
• Můžeme například:
země seřadit podle
proměnné % VŠ vzdělání
a udělat rychlý výpis dat
→ SORT CASES
→ LIST
SORT CASES BY vzd_VS_p(D).
LIST zeme$ vzd_VS_p vzd_ZS_p N_BREAK.
Barchart s průměry 1 znaku
Příkaz LIST pro vybrané proměnné
(pro jeho vytvoření ovšem není třeba agregace)
(vhodný je předtím SORT)
zeme$
US-United States
NO-Norway
FR-France
CA-Canada
IL-Israel
KR-South Korea
AU-Australia
RU-Russia
NZ-New Zealand
SE-Sweden
GB-Great Britain
BG-Bulgaria
CY-Cyprus
LV-Latvia
FI-Finland
IE-Ireland
DK-Denmark
PH-Philippines
JP-Japan
MX-Mexico
PL-Poland
SI-Slovenia
SK-Slovak Republ
TW-Taiwan
HU-Hungary
ES-Spain
AT-Austria
UY-Uruguay
VE-Venezuela
CH-Switzerland
DE-W-Germany-Wes
NL-Netherlands
DE-E-Germany-Eas
PT-Portugal
CZ-Czech Republi
FLA-Flanders
CL-Chile
BR-Brazil
ZA-South Africa
vzd_VS_p vzd_ZS_p N_BREAK
29,4
28,5
27,3
26,4
25,5
22,5
22,5
21,3
21,0
20,9
16,9
16,8
16,3
16,0
15,9
15,3
15,0
14,8
14,6
14,3
11,8
11,7
11,7
11,1
10,7
10,7
10,6
9,7
9,7
9,6
9,5
9,1
8,9
8,8
8,5
7,8
7,4
6,6
5,1
Number of cases read:
39
3,9
10,9
23,1
7,1
11,9
16,1
28,4
4,2
23,8
20,9
35,8
6,8
20,8
12,0
24,2
19,2
6,0
28,5
23,8
36,4
25,5
25,2
15,0
29,3
29,9
31,9
20,1
33,0
55,1
12,1
46,1
38,2
34,4
49,7
11,7
14,4
34,3
60,8
58,8
Vysoká důvěra
1472
1404
1419
1211
1184
1312
1914
1789
1370
1295
853
1121
1000
1000
1354
1065
1186
1200
1343
1201
1277
1054
1072
1781
1035
2481
1006
1108
1199
1078
896
1823
436
1602
1322
1398
1505
2000
2784
Number of cases listed:
Nízká důvěra
39
Hodnoty více agregovaných proměnných
X–Y bodový graf, ScatterPlot
GRAPH
/SCATTERPLOT(BIVAR)=
gTrust_mean WITH
PolTrust_mean BY zeme$
(IDENTIFY)
/MISSING=LISTWISE.
Kategorie
proměnné
podle níž jsme
agregovali →
popisky v
grafu
X–Y graf, ScatterPlot s odhadem regresní přímky
Social Trust & Membership in voluntary org.
Důvěra v druhé lidi a Důvěra v politické instituce
ScatterPlot: s odhadem regresní přímky a pásma 95% CFI
Transponování agregovaného souboru
• zaměnění případů za
proměnné (řádků za sloupce)
→ otočení datové matice o
90st.
• Nutné pro vytvoření
některých grafů, v některých
analýzách (např. klastrování)
Transponovaná matice dat
Proměnná CASE_LBL labeluje původní proměnné – jejich názvy;
proměnné K_1 až K_39 reprezentují jednotlivé země.
Transponovaná matice dat
Výhodné je použít stringovou proměnnou (zde jména zemí zeme$) k pojmenování
nových proměnných.
Transponování dat → FLIP
FLIP VARIABLES=Tolerance_mean v46r_mean gTrust_mean
v14r_mean v15r_mean v16r_mean PolToleran_mean
country15toler_mean fil_country15toler_mean v43r_mean
PolTrust_mean FuDem_mean ncActiv_mean
Member_mean vzd_VS_p vzd_ZS_p N_BREAK
/NEWNAMES=zeme.
*varianta s využitím stringové proměnné (zde zeme$)
k pojmenování nových proměnných.
FLIP VARIABLES=Tolerance_mean v46r_mean gTrust_mean
v14r_mean v15r_mean v16r_mean PolToleran_mean
country15toler_mean fil_country15toler_mean v43r_mean
PolTrust_mean FuDem_mean ncActiv_mean Member_mean
vzd_VS_p vzd_ZS_p N_BREAK zeme
/NEWNAMES=zeme$.
Interpretace agregovaných dat
• Pozor na chybnou interpretaci výsledků
týkajících se jedinců (chování, názory) –
mikroanalýza na základě agregovaných
dat – makroanalýza!
→ „ekologicky chybné usuzování“