Chýbajúce hodnoty

Download Report

Transcript Chýbajúce hodnoty

Chýbajúce hodnoty

alebo

problém item non-response

Základy analýzy kvantitativních dat a SPSS

6.12.2011

Ivan Petrúšek

Obsah prednášky

• • • •

Definícia chýbajúcich hodnôt Mechanizmy chýbajúcich hodnôt

Missing Completely At Random – Missing At Random – Missing Not At Random

Tradičné riešenia problému chýbajúcich hodnôt

– Prístupy založené na vynechávaní prípadov z analýzy – Prístupy založené na nahrádzaní chýbajúcich hodnôt

Ukážky známych analýz v SPSS

Definícia chýbajúcich hodnôt

• • Chýbajúce hodnoty (missing data) = „prázdne“ miesta v dátovej matici (tzn. u niektorých premenných pre niektoré prípady chýbajú platné hodnoty) • •

System missing values User-defined missing values Problém = takmer všetky štatistické metódy predpokladajú, že v dátach nie sú chýbajúce hodnoty

Chýbajúce hodnoty - príklady

• • • Príjem jedinca – vo veľkej väčšine výskumov patrí príjem medzi premenné s najvyšším podielom chýbajúcich hodnôt Česká volebná štúdia 2010 – až 11,5% respondentov, ktorí odpovedali kladne na otázku po volebnej účasti, následne odmietlo odpovedať na otázku, ktorú stranu volili

→ maximálny podiel chýbajúcich hodnôt u premennej by mal byť 5%

Mechanizmy chýbajúcich hodnôt

• • Mechanizmy zjednodušene vyjadrujú vzťahy

medzi meranými premennými a pravdepodobnosťou hodnôt výskytu chýbajúcich

Podľa prítomného mechanizmu chýbajúcich hodnôt v (našich) dátach vieme posúdiť, do akej miery bude zvolený postup riešenia problému chýbajúcich hodnôt „vhodný“, resp.

problematický

Missing Completely At Random (MCAR)

• •

pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y nezávisí od platných hodnôt ďalších premenných a nezávisí ani od hodnôt premennej Y samotnej

Ak dáta chýbajú podľa MCAR, tak pozorované dáta môžeme považovať za náhodný výber / podmnožinu z dátového súboru hypoteticky kompletného

Missing Completely At Random (MCAR)

• •

Pre overenie mechanizmu MCAR existuje viacero štatistických testov

SPSS obsahuje MCAR test podľa Littla (Roderick

Little) (H 0 : dáta chýbajú podľa MCAR) MCAR predstavuje veľmi prísny predpoklad o chýbajúcich hodnotách a v sociologickej praxi

nie je veľmi pravdepodobné, aby chýbajúce hodnoty boli MCAR

Missing At Random (MAR)

• • •

pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od platných hodnôt ďalších premenných, ale nezávisí od hodnôt premennej Y samotnej

Zavádzajúci názov mechanizmu → hodnoty v

dátach chýbajú systematicky

Problém: neexistuje spôsob, ako overiť, že hodnoty premennej mechanizmu MAR Y chýbajú podľa

Missing Not At Random (MNAR)

• • •

pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od hodnôt samotnej premennej Y

Rovnaký problém ako u MAR: neexistuje spôsob, ako overiť, že hodnoty premennej Y chýbajú podľa mechanizmu MNAR → pretože nepoznáme chýbajúce hodnoty premennej Y, tak ich nedokážeme porovnať s platnými hodnotami premennej Y

Tradičné riešenia problému chýbajúcich hodnôt

• • Prístupy založené na vynechávaní prípadov z analýzy • • Listwise deletion Pairwise deletion Prístupy založené na nahrádzaní chýbajúcich hodnôtarithmetic mean imputation/substitution • regression imputation/substitution → uvedené techniky sú

dostupné v module

SPSS Base (ukážka pre faktorovú analýzu)

Listwise deletion

• • •

Každý prípad, u ktorého chýba aspoň jedna

hodnota (u niektorej z premenných vstupujúcich do analýzy) je z analýzy vyradený

Výhody:

– Pod mechanizmom MCAR sa jedná o optimálne riešenie – V regresnej analýze produkuje nevychýlené odhady regresných koeficientov aj pod mechanizmom MAR

Nevýhody:

– Často sa stáva, že významne zredukuje počet prípadov, na ktorých sa daná analýza spočíta – Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov

• • • •

Pairwise deletion

Prípady sú z analýzy vyraďované v rámci párov

premenných (cieľom je maximalizovať počet prípadov, na ktorých sa daná analýza spočíta) → každá z buniek korelačnej matice je spočítaná na inom počte prípadov

Výhody:

– Pod mech. MCAR sa jedná o relatívne vhodné riešenie

Nevýhody

– Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov – Produkuje tiež vychýlené odhady štandardných chýb a testovacích štatistík

Arithmetic mean imputation

• • • • Každá chýbajúca hodnota premennej sa nahradí

hodnotou aritmetického

priemeru, ktorý je spočítaný z platných hodnôt danej premennej

Jediná maličká výhoda:

– Máme k dispozícii „kompletné“ dáta

Nevýhody:

– Redukcia variability hodnôt danej premennej (zníži sa rozptyl aj štandardná odchýlka) – Zníži sa tiež úroveň korelácia medzi premennou s nahradenými hodnotami a ďalšou premennou – Biased odhady parametrov pod každým mechanizmom

→ najhoršia dostupná technika

Regression imputation

• • Každá chýbajúca hodnota kardinálnej premennej Y sa nahradí odhadom uskutočneným pomocou regresnej rovnice (podľa hodnôt premennej X)

Výhody:

– Máme k dispozícii „kompletné“ dáta – Produkuje nevychýlené odhady priemeru premennej Y •

Nevýhody:

– Redukcia variability hodnôt premennej Y – Môže zvýšiť úroveň korelácie medzi premennou s nahradenými hodnotami Y a premennou X → existuje vylepšená verzia tejto techniky s názvom

stochastic regression imputation

Záver

• • • • • Chýbajúce hodnoty predstavujú takmer všade– prítomný jav v spoločenskovedných dátach Pri voľbe techniky riešenia problému je potrebné mať predstavu o mechanizme chýbajúcich hodnôt (pre danú analýzu a premenné) Tradične používané techniky problém väčšinou neriešia (okrem listwise deletion pod MCAR) V súčasnosti už existujú aj prístupy, ktoré dosahujú „kvalitné“ výsledky pod mechanizmom MAR →→→→→→→→→→→→→→→→→→→→→→→

The only really good sollution to the missing data problem is not to have any. … Statistical adjustment can never make up for sloppy research.“ – Paul D. Allison

Ďakujem za pozornosť!

Použitá literatúra

• • • • Allison, P. D. 2001. Missing data. Thousand Oaks: Sage.

Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37.

Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press.

Schafer, J. L.; Graham, J. W. 2002. „Missing data: Our View of the State of the Art“. Psychological Methods 7 (2): 147–177.