Chýbajúce hodnoty

Download Report

Transcript Chýbajúce hodnoty

Chýbajúce hodnoty

alebo

problém item non-response

Základy analýzy kvantitativních dat a SPSS

6.12.2011

Ivan Petrúšek

Obsah prednášky

• • • •

Definícia chýbajúcich hodnôt Mechanizmy chýbajúcich hodnôt

– Missing Completely At Random – Missing At Random – Missing Not At Random

Tradičné riešenia problému chýbajúcich hodnôt

– Prístupy založené na vynechávaní prípadov z analýzy – Prístupy založené na nahrádzaní chýbajúcich hodnôt

Ukážky známych analýz v SPSS

Definícia chýbajúcich hodnôt

• • Chýbajúce hodnoty (missing data) = „prázdne“ miesta v dátovej matici (tzn. u niektorých premenných pre niektoré prípady chýbajú platné hodnoty) • •

System missing values User-defined missing values Problém = takmer všetky štatistické metódy predpokladajú, že v dátach nie sú chýbajúce hodnoty

Chýbajúce hodnoty - príklady

• • • Príjem jedinca – vo veľkej väčšine výskumov patrí príjem medzi premenné s najvyšším podielom chýbajúcich hodnôt Česká volebná štúdia 2010 – až 11,5% respondentov, ktorí odpovedali kladne na otázku po volebnej účasti, následne odmietlo odpovedať na otázku, ktorú stranu volili

→ maximálny podiel chýbajúcich hodnôt u premennej by mal byť 5%

Mechanizmy chýbajúcich hodnôt

• • Mechanizmy zjednodušene vyjadrujú vzťahy

medzi meranými premennými a pravdepodobnosťou hodnôt výskytu chýbajúcich

Podľa prítomného mechanizmu chýbajúcich hodnôt v (našich) dátach vieme posúdiť, do akej miery bude zvolený postup riešenia problému chýbajúcich hodnôt „vhodný“, resp.

problematický

Missing Completely At Random (MCAR)

• •

pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y nezávisí od platných hodnôt ďalších premenných a nezávisí ani od hodnôt premennej Y samotnej

Ak dáta chýbajú podľa MCAR, tak pozorované dáta môžeme považovať za náhodný výber / podmnožinu z dátového súboru hypoteticky kompletného

Missing Completely At Random (MCAR)

• •

Pre overenie mechanizmu MCAR existuje viacero štatistických testov

–

SPSS obsahuje MCAR test podľa Littla (Roderick

Little) (H 0 : dáta chýbajú podľa MCAR) MCAR predstavuje veľmi prísny predpoklad o chýbajúcich hodnotách a v sociologickej praxi

nie je veľmi pravdepodobné, aby chýbajúce hodnoty boli MCAR

Missing At Random (MAR)

• • •

pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od platných hodnôt ďalších premenných, ale nezávisí od hodnôt premennej Y samotnej

Zavádzajúci názov mechanizmu → hodnoty v

dátach chýbajú systematicky

Problém: neexistuje spôsob, ako overiť, že hodnoty premennej mechanizmu MAR Y chýbajú podľa

Missing Not At Random (MNAR)

• • •

pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od hodnôt samotnej premennej Y

Rovnaký problém ako u MAR: neexistuje spôsob, ako overiť, že hodnoty premennej Y chýbajú podľa mechanizmu MNAR → pretože nepoznáme chýbajúce hodnoty premennej Y, tak ich nedokážeme porovnať s platnými hodnotami premennej Y

Tradičné riešenia problému chýbajúcich hodnôt

• • Prístupy založené na vynechávaní prípadov z analýzy • • Listwise deletion Pairwise deletion Prístupy založené na nahrádzaní chýbajúcich hodnôt • arithmetic mean imputation/substitution • regression imputation/substitution → uvedené techniky sú

dostupné v module

SPSS Base (ukážka pre faktorovú analýzu)

Listwise deletion

• • •

Každý prípad, u ktorého chýba aspoň jedna

hodnota (u niektorej z premenných vstupujúcich do analýzy) je z analýzy vyradený

Výhody:

– Pod mechanizmom MCAR sa jedná o optimálne riešenie – V regresnej analýze produkuje nevychýlené odhady regresných koeficientov aj pod mechanizmom MAR

Nevýhody:

– Často sa stáva, že významne zredukuje počet prípadov, na ktorých sa daná analýza spočíta – Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov

• • • •

Pairwise deletion

Prípady sú z analýzy vyraďované v rámci párov

premenných (cieľom je maximalizovať počet prípadov, na ktorých sa daná analýza spočíta) → každá z buniek korelačnej matice je spočítaná na inom počte prípadov

Výhody:

– Pod mech. MCAR sa jedná o relatívne vhodné riešenie

Nevýhody

– Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov – Produkuje tiež vychýlené odhady štandardných chýb a testovacích štatistík

Arithmetic mean imputation

• • • • Každá chýbajúca hodnota premennej sa nahradí

hodnotou aritmetického

priemeru, ktorý je spočítaný z platných hodnôt danej premennej

Jediná maličká výhoda:

– Máme k dispozícii „kompletné“ dáta

Nevýhody:

– Redukcia variability hodnôt danej premennej (zníži sa rozptyl aj štandardná odchýlka) – Zníži sa tiež úroveň korelácia medzi premennou s nahradenými hodnotami a ďalšou premennou – Biased odhady parametrov pod každým mechanizmom

→ najhoršia dostupná technika

Regression imputation

• • Každá chýbajúca hodnota kardinálnej premennej Y sa nahradí odhadom uskutočneným pomocou regresnej rovnice (podľa hodnôt premennej X)

Výhody:

– Máme k dispozícii „kompletné“ dáta – Produkuje nevychýlené odhady priemeru premennej Y •

Nevýhody:

– Redukcia variability hodnôt premennej Y – Môže zvýšiť úroveň korelácie medzi premennou s nahradenými hodnotami Y a premennou X → existuje vylepšená verzia tejto techniky s názvom

stochastic regression imputation

Záver

• • • • • Chýbajúce hodnoty predstavujú takmer všade– prítomný jav v spoločenskovedných dátach Pri voľbe techniky riešenia problému je potrebné mať predstavu o mechanizme chýbajúcich hodnôt (pre danú analýzu a premenné) Tradične používané techniky problém väčšinou neriešia (okrem listwise deletion pod MCAR) V súčasnosti už existujú aj prístupy, ktoré dosahujú „kvalitné“ výsledky pod mechanizmom MAR →→→→→→→→→→→→→→→→→→→→→→→

„The only really good sollution to the missing data problem is not to have any. … Statistical adjustment can never make up for sloppy research.“ – Paul D. Allison

Ďakujem za pozornosť!

Použitá literatúra

• • • • Allison, P. D. 2001. Missing data. Thousand Oaks: Sage.

Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37.

Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press.

Schafer, J. L.; Graham, J. W. 2002. „Missing data: Our View of the State of the Art“. Psychological Methods 7 (2): 147–177.

Chýbajúce hodnoty

Transcript Chýbajúce hodnoty

Chýbajúce hodnoty

alebo

problém item non-response

Základy analýzy kvantitativních dat a SPSS

Obsah prednášky

Definícia chýbajúcich hodnôt

Chýbajúce hodnoty - príklady

Mechanizmy chýbajúcich hodnôt

Missing Completely At Random (MCAR)

Missing Completely At Random (MCAR)

Missing At Random (MAR)

Missing Not At Random (MNAR)

Tradičné riešenia problému chýbajúcich hodnôt

Listwise deletion

Pairwise deletion

Arithmetic mean imputation

Regression imputation

Záver

Ďakujem za pozornosť!

Použitá literatúra

Directory