14. Redukce dat a vytváření sumačních indexů

Download Report

Transcript 14. Redukce dat a vytváření sumačních indexů

UK FHS
Historická sociologie
(LS 2011+)
Analýza kvantitativních dat II./III.
Redukce ve struktuře dat a
vytváření sumačních indexů
Odhalení struktury a vazeb mezi promennými a objekty
Jiří Šafr
jiri.safr(zavináč)seznam.cz
poslední aktualizace 8.4.2015 (vytvořeno 23.4. 2011)
Nepřímé pozorování a
kovariance/korelace
• Až dosud jsme se zabývali vztahy mezi jednou
závislou a jednou či více nezávislými
proměnnými (v SEM terminologii kauzální model)
• Nyní budeme uvažovat struktury skryté v
datech → vztah mezi několika proměnnými (bez
určení závislá/nezávislá), cílem je nalézt nepřímo
měřenou latentní proměnnou
• →jeden znak je (lineární či jinou) kombinací
vícero znaků
• (a k tomu potřebujeme nejprve osvěžit znalosti o
korelacích – viz presentace)
Možné důvody k analýze struktur v
datech
• Analýza struktur v datech jako taková, cílem je
rozkrytí, popis a pochopení struktur (např.
postojů)
• Vytváření reliabilních a validních škál
Postupů/metod je vícero, mezi hlavní patří:
– PCA (faktorová analýza) – pro kardinální znaky
Pro matice nepodobnosti či podobnosti:
– Klastrová „shluková“ analýza (kardinální i
kategoriální)
– MDS - vícerozměrné škálování
Analýza hlavních komponent (PCA)
• Umožňuje extrahovat hlavní vztahy ve vícerozměrných datech.*
• Cílem metody Principal Component Analysis (PCA) je transformace
dat z původních proměnných do menšího poctu latentních
proměnných
• Tyto nové proměnné mají vhodnější vlastnosti, je jich výrazně méně,
vystihují téměř celou proměnlivost původních proměnných
• - jsou vzájemné nekorelované
• Latentní proměnné - hlavní komponenty
→ lineární kombinace původních proměnných, kdy:
• první hlavní komponenta y1 vystihuje největší část proměnlivosti
(rozptylu) původních dat, druhá hlavní komponenta y2 zase největší
část rozptylu neobsaženého v y1 , atd.
• Vstupními daty je většinou korelační matice (případně kovarianční)
• Obvyklým způsobem nalezení hlavních komponent v datové množině
je výpočet tzv. vlastních čísel korelační matice (eigenvalues).*
• Pro kategoriální data lze použít analýzu hlavních komponent s
optimálním škálováním.
Zdroj: http://meloun.upce.cz/docs/research/chemometrics/methodology/4pca.pdf
* Zdroj: [Húsek a kol. 2002]
Faktorová rotace
Otočení přerozdělí
vysvětlený rozptyl pro
jednotlivé dimenze.
Cílem natočení je získání
jednodušší struktury:
vyšší zátěže pro typické
položky
Metoda rotace Varimax:
minimalizuje počet
položek, které vykazují
vysokou zátěž.
Zdroj: [Meloun, Militklý, Hill 2005: 99]
Vstupní matice podobností souboru
proměnných (korelační matice)
Metoda hlavních komponent (PCA)
Dimenzionalita heterogenity
okruhu přátel?
(12 položek)
Metoda hlavních komponent (PCA) v SPSS
Pozor: Předpokladem je že znaky jsou kardinální
a s přibližně normálním rozložením.
Existuje varianta CPCA pro ordinální znaky (nemá
ale rotaci).
Proměnné mohou mít odlišné škály – vstupem ale
musí být korelační matice (nikoliv kovariance).
PCA - SYNTAX SPSS
FACTOR
/VARIABLES q27_a q27_b q27_c q27_d q27_e q27_f
q27_g q27_h q27_i q27_j q27_k q27_l
/MISSING LISTWISE
/ANALYSIS q27_a q27_b q27_c q27_d q27_e q27_f q27_g
q27_h q27_i q27_j q27_k q27_l
/PRINT INITIAL EXTRACTION ROTATION
/FORMAT SORT
/PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/METHOD=CORRELATION.
Faktorové zátěže – rotované řešení (VARIMAX)
Rotated Component Matrixa
q27_f - odlišné trávení volného času
q27_g - odlišný politický názor
q27_e - chudí, žijí ze sociálních dávek
q27_h - odlišná lokalita
q27_i - věřící či nevěřící
q27_k - dělníci
q27_c - jiné etnikum či rasa
q27_b - jiná národnost
q27_d - odlišná sexuální orientace
q27_j - podnikatelé
q27_l - kvalifikování odborníci
q27_a - jiná generace
Component
1
2
3
,740 ,146 ,033
,693 ,185 ,160
,617 ,363 -,199
,564
,550
,531
,099
,038
,157
,163
-,036
,240
-,001
,060
-,203
,849
,799
,743
,105
,204
,223
,520
,397
,274
,130
,240
,111
,804
,769
,479
Jiné metody „rozkrývání“ a redukce
struktury v datech
Multidimenzionální škálování (MDS)
• Většinou je vstupní maticí nějaká míra nepodobnosti –
distance (např. Euklidovská vzdálenost)
• Výhodou je možnost zkoumat binární proměnné (v klasické
PCA/faktorové analýze v SPSS to nelze, ale je zde
CPCPA)
• Nelze ale rotované řešení, ani uložení hodnot latentních
proměnných (lze pouze pomocí součtových indexů)
Shluková analýza (nejčastěji Hierarchická klastrová analýza)
• Tyto metody vychází z (stejné) matice nepodobností a
jejich výsledky se navzájem doplňují.
• Shlukovat a MDS lze provádět jak pro proměnné (analogie
k předchozímu příkladu s PCA), tak i pro případy (tj.
respondenty, používáme pro agregovaná data)
Konstrukce souhrnné
škály/indexu
Položková reliabilita
Postup konstrukce souhrnné
škály/indexu
• chceme z několika otázek (položek)
konstruovat souhrnnou škálu
• položky by měly měřit různé odrazy
jednoho společného konstruktu.
(1.) Ověření homogenity / dimenzionality
(např. pomocí PCA)
2. Ověření položkové reliability - vnitřní
konzistence indexu např. pomocí
koeficientu Cronbachovo alfa nebo
Split-Half Coefficients
1. Dimenzionalita (5 vybraných položek pro BSC)? → PCA
2. Reliabilita (položková)
→ Konzistence měření
Význam reliability
pro velikost chyby, kterou do měření vnáší měřicí nástroj
• Chceme změřit určitý znak u jedinece, který není přímo
pozorovatelný (například znalost něčeho → test)
• Pokud navrhneme takovéto testy dva a necháme osobu, aby na
všechny otázky odpověděla dvakrát, a poté sečteme zvlášť výsledky
obou testů, dojdeme nejspíše ke dvěma odlišným hodnotám, ačkoliv
se vlastnost, kterou hodláme měřit (znalost), nezměnila.
• Rozdíly budou nejspíše způsobeny chybami v měřicím nástroji
(testu).
• Chyba nastává při každém měření a užitečnost měřicí techniky
spočívá do značné míry v její schopnosti přinášet přesné
(stabilní) hodnoty.
• Potřeba kvantifikovat chybu měřicího nástroje (dotazníku, testu)
• Reliabilita vyjadřuje, do jaké míry je měření konzistentní.
• Dostává li výzkumník při každém použití měřicí metody velmi
odlišné výsledky, je zřejmé, že je pro něj takto nepřesné měření
nepoužitelné, neboť nemůže vědět, který výsledek se nejvíce blíží
skutečné hodnotě.
• Neodhadnutí reliability měření může mít fatální následky pro další
analýzy.
Zdroj: [Schubert 2010]
Položková reliabilita - Cronbachova alfa
• Zjišťujeme stupeň vnitřní konzistence položek ve
škále, čímž odhadujeme reliabilitu (spolehlivost)
• Cronbachovo alfa má hodnoty 0 až 1
> 0,7 představuje vysokou konzistenci a
reliabilitu škály
ale záleží na počtu položek!
• K počet položek, var (Yj) je rozptyl j-té položky, var (Y)
rozptyl celkových skóre
• CA = 1 položky jsou svázány lineárně. Naopak
nízké hodnoty vypovídají o nízké vnitřní
konzistenci položek (tj. nízké spolehlivosti testu).
• Pro dichotomické proměnné (ano/ne) existuje
zjednodušená varianta Kuder-Richardsonův
vzorec 20
Zdroj: http://www.wikiskripta.eu
Vnitřní konzistence
(položková reliabilita)
koeficient Cronbachovo alfa
doporučená hodnota CA je > 0,7
ale záleží na počtu položek!
Tato reliabilita vychází z předpokladu, že by všechny
položky měřící jednu vlastnost měly mít mezi sebou
kladné, dostatečně vysoké korelace.
Ale čím vyšší je vnitřní konzistence, tím nižší je validita
metody. To proto, že při měření latentních proměnných
chceme zachytit celou šíři aspektů daného faktoru, avšak
při vysoké vnitřní konzistenci všechny položky měří
zhruba to stejné - jde tedy o neustálé vyvažování reliability
a validity.
Vnitřní konzistence také z principu roste s počtem položek.
Více info viz [Soukup 2006] na http://www.socioweb.cz/index.php?disp=teorie&shw=242&lst=112
Položková reliabilita v SPSS
Příklad index Přemosťujícího sociálního kapitálu
Položková reliabilita v SPSS
Příklad index Přemosťujícího sociálního kapitálu
Položková reliabilita v SPSS
Příklad index Přemosťujícího sociálního kapitálu
• Vyřazení položky A – jiná generace
Položková reliabilita: Syntax
RELIABILITY
/VARIABLES=q27_a q27_b q27_c q27_d q27_e
/SCALE ('Přemostující soc.kapitál') ALL
/MODEL=ALPHA
/STATISTICS=SCALE
/SUMMARY=TOTAL.
Konstrukce součtového (aditivního) indexu
BSC (Bridging Social Capital)
COMPUTE BSC_4x = SUM(q27_b, q27_c, q27_d,
q27_e).
FORMATS BSC_4x (f8).
VAR LAB BSC_4x "Přemosťující soc. kapitál oslišnost přátel (q27b+c+d+e; CA 0,72)".
FREQ BSC_4x /histo=norm.
Šafr, J., J. Häuberer. 2007. „Měření přemosťujícího
sociálního kapitálu: baterie PSK zjišťující odlišnosti v
okruhu přátel“. Data a výzkum / SDA Info. 2007/2: 85108.
http://archiv.soc.cas.cz/download/622/DaV0702_p85_108.pdf
Literatura
Totální úvod:
Soukup, P. 2006. „Čím větší, tím lepší (aneb mýty o
reliabilitě.“ Socioweb. č.7
http://www.socioweb.cz/index.php?disp=teorie&shw=242&lst=112
Podrobně k měření pomocí položkových baterií - položkové reliabilitě, ověřování
dimenzionality:
Schubert, J. 2010. „Klasická testová teorie reliability v
metodologii výběrových šetření“. Data a výzkum SDA Info 4(2).
http://archiv.soc.cas.cz/download/1082/DaV10_2_s77_104.pdf
Vybrané kapitoly a pasáže z
Meloun, M., J. Militklý, M. Hill. 2005. Počítačová
analýza vícerozměrných dat v příkladech. Praha:
Academia. (kapitoly 4, 8 a 10)