Transcript Chýbajúce hodnoty
Chýbajúce hodnoty
alebo
problém item non-response
Základy analýzy kvantitativních dat a SPSS
6.12.2011
Ivan Petrúšek
Obsah prednášky
• • • •
Definícia chýbajúcich hodnôt Mechanizmy chýbajúcich hodnôt
– Missing Completely At Random – Missing At Random – Missing Not At Random
Tradičné riešenia problému chýbajúcich hodnôt
– Prístupy založené na vynechávaní prípadov z analýzy – Prístupy založené na nahrádzaní chýbajúcich hodnôt
Ukážky známych analýz v SPSS
Definícia chýbajúcich hodnôt
• • Chýbajúce hodnoty (missing data) = „prázdne“ miesta v dátovej matici (tzn. u niektorých premenných pre niektoré prípady chýbajú platné hodnoty) • •
System missing values User-defined missing values Problém = takmer všetky štatistické metódy predpokladajú, že v dátach nie sú chýbajúce hodnoty
Chýbajúce hodnoty - príklady
• • • Príjem jedinca – vo veľkej väčšine výskumov patrí príjem medzi premenné s najvyšším podielom chýbajúcich hodnôt Česká volebná štúdia 2010 – až 11,5% respondentov, ktorí odpovedali kladne na otázku po volebnej účasti, následne odmietlo odpovedať na otázku, ktorú stranu volili
→ maximálny podiel chýbajúcich hodnôt u premennej by mal byť 5%
Mechanizmy chýbajúcich hodnôt
• • Mechanizmy zjednodušene vyjadrujú vzťahy
medzi meranými premennými a pravdepodobnosťou hodnôt výskytu chýbajúcich
Podľa prítomného mechanizmu chýbajúcich hodnôt v (našich) dátach vieme posúdiť, do akej miery bude zvolený postup riešenia problému chýbajúcich hodnôt „vhodný“, resp.
problematický
Missing Completely At Random (MCAR)
• •
pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y nezávisí od platných hodnôt ďalších premenných a nezávisí ani od hodnôt premennej Y samotnej
Ak dáta chýbajú podľa MCAR, tak pozorované dáta môžeme považovať za náhodný výber / podmnožinu z dátového súboru hypoteticky kompletného
Missing Completely At Random (MCAR)
• •
Pre overenie mechanizmu MCAR existuje viacero štatistických testov
–
SPSS obsahuje MCAR test podľa Littla (Roderick
Little) (H 0 : dáta chýbajú podľa MCAR) MCAR predstavuje veľmi prísny predpoklad o chýbajúcich hodnotách a v sociologickej praxi
nie je veľmi pravdepodobné, aby chýbajúce hodnoty boli MCAR
Missing At Random (MAR)
• • •
pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od platných hodnôt ďalších premenných, ale nezávisí od hodnôt premennej Y samotnej
Zavádzajúci názov mechanizmu → hodnoty v
dátach chýbajú systematicky
Problém: neexistuje spôsob, ako overiť, že hodnoty premennej mechanizmu MAR Y chýbajú podľa
Missing Not At Random (MNAR)
• • •
pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od hodnôt samotnej premennej Y
Rovnaký problém ako u MAR: neexistuje spôsob, ako overiť, že hodnoty premennej Y chýbajú podľa mechanizmu MNAR → pretože nepoznáme chýbajúce hodnoty premennej Y, tak ich nedokážeme porovnať s platnými hodnotami premennej Y
Tradičné riešenia problému chýbajúcich hodnôt
• • Prístupy založené na vynechávaní prípadov z analýzy • • Listwise deletion Pairwise deletion Prístupy založené na nahrádzaní chýbajúcich hodnôt • arithmetic mean imputation/substitution • regression imputation/substitution → uvedené techniky sú
dostupné v module
SPSS Base (ukážka pre faktorovú analýzu)
Listwise deletion
• • •
Každý prípad, u ktorého chýba aspoň jedna
hodnota (u niektorej z premenných vstupujúcich do analýzy) je z analýzy vyradený
Výhody:
– Pod mechanizmom MCAR sa jedná o optimálne riešenie – V regresnej analýze produkuje nevychýlené odhady regresných koeficientov aj pod mechanizmom MAR
Nevýhody:
– Často sa stáva, že významne zredukuje počet prípadov, na ktorých sa daná analýza spočíta – Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov
• • • •
Pairwise deletion
Prípady sú z analýzy vyraďované v rámci párov
premenných (cieľom je maximalizovať počet prípadov, na ktorých sa daná analýza spočíta) → každá z buniek korelačnej matice je spočítaná na inom počte prípadov
Výhody:
– Pod mech. MCAR sa jedná o relatívne vhodné riešenie
Nevýhody
– Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov – Produkuje tiež vychýlené odhady štandardných chýb a testovacích štatistík
Arithmetic mean imputation
• • • • Každá chýbajúca hodnota premennej sa nahradí
hodnotou aritmetického
priemeru, ktorý je spočítaný z platných hodnôt danej premennej
Jediná maličká výhoda:
– Máme k dispozícii „kompletné“ dáta
Nevýhody:
– Redukcia variability hodnôt danej premennej (zníži sa rozptyl aj štandardná odchýlka) – Zníži sa tiež úroveň korelácia medzi premennou s nahradenými hodnotami a ďalšou premennou – Biased odhady parametrov pod každým mechanizmom
→ najhoršia dostupná technika
Regression imputation
• • Každá chýbajúca hodnota kardinálnej premennej Y sa nahradí odhadom uskutočneným pomocou regresnej rovnice (podľa hodnôt premennej X)
Výhody:
– Máme k dispozícii „kompletné“ dáta – Produkuje nevychýlené odhady priemeru premennej Y •
Nevýhody:
– Redukcia variability hodnôt premennej Y – Môže zvýšiť úroveň korelácie medzi premennou s nahradenými hodnotami Y a premennou X → existuje vylepšená verzia tejto techniky s názvom
stochastic regression imputation
Záver
• • • • • Chýbajúce hodnoty predstavujú takmer všade– prítomný jav v spoločenskovedných dátach Pri voľbe techniky riešenia problému je potrebné mať predstavu o mechanizme chýbajúcich hodnôt (pre danú analýzu a premenné) Tradične používané techniky problém väčšinou neriešia (okrem listwise deletion pod MCAR) V súčasnosti už existujú aj prístupy, ktoré dosahujú „kvalitné“ výsledky pod mechanizmom MAR →→→→→→→→→→→→→→→→→→→→→→→
„The only really good sollution to the missing data problem is not to have any. … Statistical adjustment can never make up for sloppy research.“ – Paul D. Allison
Ďakujem za pozornosť!
Použitá literatúra
• • • • Allison, P. D. 2001. Missing data. Thousand Oaks: Sage.
Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37.
Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press.
Schafer, J. L.; Graham, J. W. 2002. „Missing data: Our View of the State of the Art“. Psychological Methods 7 (2): 147–177.