Chybějící hodnoty (Missing Values)

Download Report

Transcript Chybějící hodnoty (Missing Values)

UK FHS
Historická sociologie, Řízení a supervize
(LS 2012, 2013, 2014)
Analýza kvantitativních dat I./II.
Chybějící hodnoty
(Missing Values)
identifikace, nastavení, analýza
Jiří Šafr
jiri.safr(AT)seznam.cz
Poslední aktualizace 21/4/2014
Prvním krokem analýzy je vždy
kontrola (a identifikace)
chybějících hodnot
(MISSING VALUEs)
Existují dva druhy missingů (v SPSS):
1. Systémové = SYSMIS (v datech: „ . “)
Jde o základní formu označení chybějící hodnoty, ale v
podstatě zde není žádná informace proč chybí.
Nejčastěji záznam v datech nebyl u dané proměnné vůbec proveden, nebo se
proměnná daného případu (respondenta) netýká (např. rok rozvodu u
svobodných/ženatých).
Máme-li např. z dotazníku k dispozici podrobnější informaci (například „Netýká se“,
„Odmítl odpovědět“, „Neví“) můžeme mít navíc také
2. Uživatelsky definované = MISSING VALUES
V datech je označujeme hodnotami „mimo“ rozsah
standardních kategorií, např. : „9“ nebo „99“ a často je i
labelujeme, např. 8 = Odmítl odpovědět, 9 = Neví.
Tyto hodnoty pak nebudou obsaženy v
základní části analýz (pokud jejich označení jako MISSING
VALUES nevypneme, což můžeme podle potřeby využívat).
Chybějící hodnoty (missing values) - postup
1. zjištění zda jsou v datech chybějící hodnoty
(MV) označeny a jak. Pokud ne pak:
2. označení-nastavení chybějících hodnot
(případně překódování či jiné transformace dat)
- - - (viz AKD II.)
3. věcná analýza chybějících hodnot:
a) zhodnocení zda je lze ignorovat, pokud ne:
b) analýza jejich závislosti na jiných proměnných
- - - (pro pokročilé)
4. imputace chybějících hodnot (odhad hodnot,
tam kde chybí) a manipulace ve vícerozměrných
analýzách (listwise, pairwise, a různé imputy)
1. Zjištění stavu v datech
nejednodušší přístup k Missingům (MV)
• Kontrola nastavení MV v Dataeditoru NESTAČÍ, vždy
musíme provést průzkum v datech.
• Pro větší počet proměnných většinou v 1. kroku někdy
stačí příkaz DESCRIPTIVES → kontrolujeme Min a
Max v datech s hodnotami „v dotazníku“.
Většinou odhalí hodnoty max, ale pozor, není spolehlivé!
• Spolehlivý je pouze příkaz FREQUENCIES, který vypíše
výskyt všech hodnot znaků, tj. i jejich (ne)označení
jako MV. Pro více proměnných ovšem dostaneme mnoho tabulek.
• Přehledně nám také ukáže počet (nikoliv však detail jaké
hodnoty) příkaz MVA (Missing Value Analysis).
Určitě lepší strategie než DESC, není ale k dispozici v základní verzi
SPSS.
Chybějící hodnoty – zjištění stavu (DESC, FREQ, MVA)
DESCRIPTIVES
PI.1a.
→ nespolehlivé
FREQUENCIES
PI.1a.
→ kompletní
informace na úrovni
hodnot-kategorií znaku
MVA PI.1a.
2. Nastavení chybějících hodnot
MISSING VALUES Var1 případně další Var2 Var3 …(0 8 9).
→ označit lze až tři hodnoty, které budou
vyloučeny ze základu analýz.
nebo: (LOWEST THRU 5). či (8 THRU HIGHEST).
lze i kombinaci intervalu a jedné hodnoty:
(5 8 thru Highest).
Lze zadat i přes Data editor,
ale syntax zaručuje kontrolu a dokumentaci
manipulace s daty
Identifikace a označení chybějících hodnot.
Příklad „věk studentů VŠ“
FREQUENCIES vek.
12 a 92 jsou z hlediska věku
posluchačů kurzu AKD „nesmyslné“
hodnoty, proto je označíme jako
chybějící. Pomocí příkazu v syntaxu:
MISSING VALUES vek (12 92).
Nebo v data editoru (klikem myši přes menu)
Poznámka: Po zadání MV, se zdánlivě nic nestane, pouze jsme v datech
označili MV, proto je dobré vytisknout si opět tabulku třídění 1.stupně:
Zároveň vidíme, že v datech zatím žádné uživatelské missingy nebyly
definovány (jsou zde pouze 2 případy systémových SYSMIS).
FREQUENCIES vek.
Identifikace a označení chybějících hodnot.
Příklad „věk studentů VŠ“, pokračování
Označení rozsahu MV: od zvolené hodnoty do
Maxima nebo od hodnoty do Minima
+ lze přidat ještě jedna hodnota.
• od minima do zvolené hodnoty.
MISSING VALUES vek (LOWEST THRU 20).
• od zvolené hodnoty do maxima.
MISSING VALUES vek (50 THRU HIGHEST).
• a přidat můžeme i jednu hodnotu navíc.
MISSING VALUES vek (50 THRU HIGHEST 12).
„Vypínání“ a „zapínání“ Missingů v Syntaxu
• Missingy "vypneme" - odznačíme pokud
závorka bude prázdná.
MISSING VALUES vek ( ).
FREQUENCIES vek.
Nyní budou všechny hodnoty součástí analýzy
(pochopitelně neplatí pro systémové missingy ty
zůstávají vyloučeny)
a opět můžeme „zapnout“.
MISSING VALUES vek (12 92).
FREQUENCIES vek.
Poznámky k Missing Values
• Pokud se u dané proměnné v datech zadané chybějící hodnoty ve
skutečnosti nevyskytují, pak se v tabulce tř. 1.stupně (Frequencies)
v sekci Missing neobjeví (zobrazuje se jen skutečný výskyt, hodnota
je nicméně stále jako Missing nastavena). Zobrazit informaci o
nastavení missing values lze pomocí DISPLAY.
DISPLAY DICTIONARY /VARIABLES = vek.
• Pozor také na situaci, kdy se v tabulce Frequencies objeví určitá
hodnota několikrát, např.: 1 1 1 je ve skutečnosti, např. 0,9 a 0,6 a 1
(0,9 a 0,6 se zaokrouhlí na 1, ale zobrazí se při formátu bez desetinných míst jako
unikátní hodnota 1) → změníme formát zobrazení FORMATS vek (F8.1).
Chybějící hodnoty (MV):
Jak s nimi zacházet - pravidlo „palce“
• Pokud je relativní počet chybějících hodnot menší
než cca 5 %, pak je lze většinou ignorovat (v
„dostatečně velkém“ výběrovém souboru).
Pozor ale na průniky misingů v bivariátní analýze.
• Přesáhne-li počet chybějících hodnot tuto hranici,
pak je nutná analýza závislosti chybějících
hodnot na jiných znacích
(→ příčin), tj. měli bychom se ptát: „kdo
neodpovídá na naše otázky?“
• Při > 5% výskyt MV totiž nemusí být už jen
náhodný (tj. náhodně distribuovaný v populaci),
což je třeba ověřit, případně zvážit imputaci
chybějícíh hodnot.
Chybějící hodnoty
Další 3. krok – jejich analýza
Analýza podmíněnosti &
provázanosti chybějících hodnot
Řešíme dvě otázky:
a) Jak jsou missingy provázané mezi
jednotlivými (závislými) proměnnými (např. v
baterii otázek)
b) Zda jsou nějak závislé na třídících znacích
(např. věku, vzdělání či filtrační otázce)
1. nejednoduší postup: „vypnutí“ missingů (budou
zahrnuty) a analýza odpovídajících kategorií
např. v kontingenční tabulce.
2. MVA v SPSS (Missing Value Analysis)
3. Konstrukce nové proměnné s informací o chybějící
hodnotě (/ hodnotách u více proměnných) a jejich
samostatná analýza
Dichotomické proměnné indikující neplatnou-chybějící odpověď vs. platnou-validní
.
MVA – Missing Value Analysis
• Umí odhalit u více proměnných současně
vzorce chybějících hodnot (Patterns)
Pozor, není k dispozici v základní verzi SPSS.
MVA
• Nepoužívat vážení – vypnout váhu
→ WEIGHT OFF.
• Základní funkce: popis chybějících hodnot
• + missing patterns
MVA vek pohlavi kraj
/CATEGORICAL pohlavi kraj.
MVA Output (1)
Základní výstup (zadáme formát pro kategoriální
proměnné)
MVA vek pohlavi kraj /CATEGORICAL pohlavi kraj.
MVA Output (2)
• Vzorce missingů
→ Kolik respondentů neodpovědělo na
kolik položek z baterie otázek?
AKD II. / AKD III.
Průnik pro platné případy
(effective sample)
Analýzy v textu by měly být provedeny
na konsistentním podsouboru se
stejným počtem platných případů.
V postupných bivariátních analýzách by
měl být stejný základ platných případů
(průnik missingů dle principu LISTWISE)
Průnik pro platné případy (effective sample)
• Zvolte průnik pro platné případy (princip LISTWISE vyřazení
missingů), který se v textu nebude měnit (effective sample), může jít
jen o kapitolu (její části) nebo o celý text.
• Tj. všechny tabulky/analýzy by měly být založeny na jednom
podsouboru, tj. stejném počtu případů.
• Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku
zjistíme pomocí DESCRIPTIVES (viz dále)
• Počet chybějících hodnot (missingů) u závislé proměnné je pořád
stejný, ale může se měnit podle nezávislých proměnných.
• Problém může být, že celkový průnik missingů všech
analyzovaných proměnných může být již příliš velký (> 5%). →
kontrolovat reprezentativitu analyzovaného podsouboru.
• Pak lze zvážit pro nezávislé proměnné:
a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí
nahrazení průměrem (Replace with Mean). To samotné se ale
nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní
proměnné hodnota chyběla (dummy var) a testovat její statistickou
významnost.
b) Imputaci hodnot - existují sofistikované metody doplnění
(aproximace) chybějících hodnot pro nezávislé proměnné na
základě odhadu z hodnot jiných proměnných.
Chybějící hodnoty v datech mohou být:
• Missing completely at random (MCAR)
→ ideální situace, výsledky nejsou
zkreslené (biased)
• Missing at random (MAR)
→ chybějící hodnoty jsou jen u některé
proměnné, ale nejsou ničím systematicky
ovlivněny
• Not missing at random (NMAR)
→ chybějící hodnoty jsou něčím
(nenáhodně) podmíněny
→ problém zkreslení výsledků
Kontrola reprezentativity analyzovaného podsouboru
celkově platných případů, filtr na effective sample
• Pro kontrolu si vytvoříme filtr s celkovým
průnikem platných případů (prostým součtem
všech platných hodnot všech proměnných):
COMPUTE Fi_Lsw6v =
Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd.
RECODE Fi_Lsw6v (LOW THRU HIGHEST =1).
• Nebo COUNT Fi_Lsw6v = s27 vek prijem s30
s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání
předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné.
RECODE Fi_Lsw6v (0 =1) (1 thru highest =0).
• A jednoduchá kontrola reprezentativity, např.
CROSS vekkat by Fi_Listw /cel col.
• A na všechny bivariátní analýzy zapneme filtr
pro podskupinu platných případů.
FILTER BY Fi_Lsw6v.
Více na AKD II./III.