Transcript Prezentace - Mnohonásobné imputace chybějících hodnot
Mnohonásobné imputace chybějících hodnot
Analytické metody výzkumu pro mgr.
Ivan Petrúšek 16.12.2014
Osnova
1. Mechanizmy chybějících hodnot 2. Metody založené na imputaci jediné hodnoty 3. Mnohonásobné imputace
Mechanizmy chybějících hodnot
• • Zjednodušeně řečeno mechanizmy popisují
vztah(y) mezi pozorovanými a chybějícími hodnotami v datech
Statistická teorie rozlišuje 3 mechanizmy:
1. Missing Completely At Random (MCAR)
– Výskyt chybějících hodnot v datech nezávisí na pozorovaných hodnotách, a zároveň nezávisí ani na
samotných hodnotách, které chybějí
– Jedná se o velice striktní předpoklad, který v praxi (zejména v sociologii) nebývá příliš častý – Tradiční metody předpokládají mechanizmus MCAR
Mechanizmy chybějících hodnot
2. Missing At Random (MAR)
– Výskyt chybějících hodnot v datech závisí na pozorovaných hodnotách, ale zároveň nezávisí na
chybějících hodnotách
– Použití mnohonásobných imputací předpokládá, že hodnoty chybí podle mechanizmu MAR (nebo MCAR)
3. Not Missing At Random (NMAR)
– Výskyt chybějících hodnot v datech závisí na
samotných chybějících hodnotách
– Jedná se o nejproblematičtější situaci
Metody založené na imputaci chybějících hodnot
• • •
Standardní statistické metody byly vyvinuty pro
kompletní data (tzn. data bez chybějících hodnot) Metody založené na imputaci chybějících hodnot podle různých algoritmů doplní „prázdná“ místa v datové matici → → → věcně realizovaná analýza už následně pracuje s kompletními daty Cílem imputací není správná predikce jednotlivých chybějících hodnot, ale dosáhnutí nevychýlených
odhadů věcně zkoumaných parametrů !!!
Metody založené na imputaci jediné hodnoty
a) Imputace aritmetického průměru
– Každá chybějící hodnota proměnné je nahrazena hodnotou aritmetického průměru, který byl spočten z platných hodnot dané proměnné – Nejhorší ze všech dostupných metod
b) Imputace prostřednictvím lineární regrese
– Chybějící hodnoty proměnné jsou nahrazené
odhadem uskutečněným podle regresní rovnice
(která byla spočtena na případech s kompletními daty) – Proměnná s chybějícími hodnotami vystupuje v regresní rovnici jako závisle proměnná – Regresní rovnice se počítají pro všechny proměnné s chybějícími hodnotami
Metody založené na imputaci jediné hodnoty
c) Imputace prostřednictvím stochastické regrese
– Jedná se o vylepšenou podobu nahrazovaní chybějících hodnot prostřednictvím lineární regrese → → → ke každé nahrazené hodnotě se přičte náhodně vygenerovaná odchylka (z normálního rozdělení) – Jako jediná z 3 výše uvedených imputačních metod vede k nevychýleným odhadům parametrů při mechanizmu MAR
Grafická ukázka fungování těchto metod
- Zkoumání vztahu mezi IQ (horizontální osa) a hrubou měsíční mzdou (vertikální osa) - U všech grafů chybí asi 30% hodnot hrubé měsíční mzdy
Další problém spojený s imputacemi jediné hodnoty
• • • • Po nahrazení chybějících hodnot těmito technikami se s imputovanými hodnotami
pracuje jako s původně pozorovanými
Věcné analýzy tedy vůbec nezohledňují nejistotu
spojenou s realizovanými imputacemi
Metody podhodnocují odhady směrodatných chyb zkoumaných parametrů → → → užší intervaly spolehlivosti a menší p-hodnoty Mnohonásobné imputace řeší tento problém
Mnohonásobné imputace
(multiple imputation)
• • Místo jedné hodnoty je každá chybějící hodnota nahrazena současně několika hodnotami Jedná se o přístup k řešení problému chybějících hodnot, který má v praxi několik různých implementací
Schéma postupu mnohonásobných imputací
Imputovaný soubor č. 1 Výsledky věcné analýzy na základě souboru č. 1
Datový soubor s chybějícími hodnotami
Imputovaný soubor č. 2 Imputovaný soubor č. 3 Imputovaný soubor č. 4 Výsledky věcné analýzy na základě souboru č. 2 Výsledky věcné analýzy na základě souboru č. 3 Výsledky věcné analýzy na základě souboru č. 4
Souhrnné výsledky
Imputovaný soubor č. 5 1.) Imputace dat Výsledky věcné analýzy na základě souboru č. 5 2.) Analýza 3.) Sloučení výsledků
Algoritmy imputace dat
V praxi dominují dva přístupy:
1.Conditional multiple imputation
– Hodnoty jednotlivých proměnných jsou nahrazovány vždy podmíněně ke všem ostatním proměnným – Nejpoužívanější algoritmus = multiple imputation by chained equations (MICE)
2.Joint multiple imputation
– Imputované hodnoty jsou generované ze společného mnohorozměrného rozdělení – Nejčastěji se přitom pracuje s mnohorozměrným
normálním rozdělením
• • •
Multiple imputation by chained equations I
Název v SPSS: fully conditional specification Zohledňuje měřítko imputované proměnné (nominální, ordinální, kardinální) – pro každý typ proměnné jsou chybějící hodnoty nahrazovány jinou metodou Zohledňuje „jistotu“ spojenou s doplňovanými hodnotami: pokud máme k dispozici „silné“ prediktory konkrétní proměnné, tak imputované hodnoty mají mezi imputovanými soubory malý rozptyl. Pokud jsou prediktory „slabé“, tak imputované hodnoty mají mezi soubory velký rozptyl
Multiple imputation by chained equations II
Postup algoritmu:
1.Všechny proměnné s chybějícími hodnotami jsou postupně doplněné jednoduchou imputační metodou 2.Každá proměnná je postupně doplněna podle odpovídajícího modelu (vypočítaného jen na případech s pozorovanými hodnotami imputované proměnné) 3.Krok číslo dva se opakuje dokud není dosaženo stabilní řešení → → → výsledkem je jeden imputovaný datový
soubor
4.Kroky 1-3 se opakují dokud není vytvořen definovaný počet imputovaných datových souborů (obvykle 5)
Sloučení výsledků
• • • • Každý imputovaný datový soubor vede k jinému odhadu zkoumaného parametru Souhrnný odhad parametru se vypočítá jako průměr ze
všech odhadů
Celkový rozptyl odhadů kombinuje variabilitu v rámci jednotlivých imputací (nejistotu spojenou s odhadem parametru na základě jednoho datového souboru) a napříč jednotlivými imputacemi (nejistota spojená s nahrazováním chybějících hodnot) Poznámka: některé charakteristiky (např. p-hodnoty) není možné sloučit pomocí průměru ze všech m odhadů
• •
Shrnutí I
Při samotné imputaci chybějících hodnot je vhodné použít proměnné, které nejsou součástí následné věcné analýzy (zvýší se tím šance, že hodnoty chybí podle MAR) Chybějící hodnoty v celém datovém souboru stačí prostřednictvím mnohonásobných imputací nahradit jednou, přičemž takto nahrazená a uložená data můžou být používána na různé analýzy (různými uživateli )
Shrnutí II
• • MI vedou k nevychýleným odhadům parametrů a jejich směrodatných chyb při mechanizmu MCAR a MAR MI představují jednu z nejlepších dostupných metod práce s chybějícími hodnotami – když však hodnoty chybí podle mechanizmu NMAR, tak i MI může vést k vychýleným odhadům zkoumaných parametrů
Reference
• • • • Rubin (2004) - Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons.
van Buuren (2012) - Flexible Imputation of Missing Data. Boca Raton: CRC Press.
White, Royston a Wood (2011) - Multiple imputation
using chained equations: Issues and guidance for
practice. Statistics in Medicine 30: 377-399.
Schafer (1999) - Multiple imputation: A primer. Statistical methods in medical research 8(1): 3-15.