Missing Values

Download Report

Transcript Missing Values

Introduction to Methods for
Handling Missing Values
陳昱楙
2012/05/14
Y ~ f (y|θ)
Missing At Completely Random
•
f(M|Y,ϕ)=f(M|ϕ)
Missing At Random
•
f(M|Y,ϕ)=f(M|YOBS,ϕ)
Missing NOT At Random
•
Complete
Case
Analysis
Available
Case
Analysis
Imputation
Weight
Missing
Values
f(M|Y,ϕ)=f(M|ϕ)
Complete Case Analysis
MACR
Available Case Analysis
Complete Case Analysis
• 是將不完整資料丟除,利用剩餘的完整資
料(complete data)來做分析。如果完整的樣
本數很大時,丟棄資料勉強可以接受;倘
若完整資料有限,且完整資料不具代表性,
此時所推估出來的結果就會發生問題,導
致不良的決策。
Available Case Analysis
• 為尋求資訊的完整性,有人提出將不完全資料
中的可觀測資料加入分析,此資料分析稱為可
獲得的觀察體分析(available-case analysis)。舉
例來說,收集的資料為學生的身高跟體重,若
至少其中一變項為遺失值,則將其成批刪除是
所謂的完整資料分析。若該生的體重可觀察到,
但是身高不能觀察到,將可觀察到的體重與其
它完整資料的體重一起加入分析,得到平均的
體重,則此種分析方法是所謂的可獲得的觀察
體分析
f(M|Y,ϕ)=f(M|YOBS,ϕ)
Single Imputation
MAR
Multiple Imputation
Single Imputation
• 一旦出現遺失值就尋找一個數值來替代。
• 插補的方法主要是從一個分佈抽取值出來
或者是某一分佈的平均數,這個分佈是依
據可觀測資料而得到的。
• 目前實用的插補眾多,並不限於單一方式。
• 不過所有插補法的共同目的,就是找尋一
個和遺失值相似的數值替代之
Multiple Imputation
• 主張應用各種插補方法和估計的數值,應
該不限於一組。
• 可以插補(或估計)一系列的數值。由於每一
個遺失值皆有相對應的許多插補值或估計
值,因此研究者可以比較不同處置方法的
差異,甚至估計插補的誤差,然後進一步
模擬估計值的分佈。
Mean Imputation
Median Imputation
組內/外插補
Substitution
Hot Deck
Cold Deck
Regression Imputation
Stochastic Regression
Imputation
EM Imputation
Wang & Rubins (1998)
Mean Imputation
• 將遺失值以平均數來替代
• 完全隨機的 (MCAR)的前提之下
• 變異數低估
組內/外插補
• 將遺失值以該問項前後數個已回答的資料
之平均來填補
• 若遺失值與前後無關係,則填補值明顯會
造成偏差
Substitution
• 主要是用在問卷方面,
• 若有遺失值的發生,則重新問一個人
Hot Deck
• 是按照輔助變數的不同條件,將已填答的
資料劃分成若干的插補空格(imputation
cell),然後每一個出現遺失值的觀察體,依
據其輔助變數的條件,從相對應的插補空
格中尋找一個觀察體,以其所觀察的變數
數值代替遺失值。
Cold Deck
• 與熱卡法相同,不過取代的來源來自外部
的資料,比如說先前的問卷。
Regression Imputation
• Regression mean imputation can generate
unbiased estimates of means, associations ad
regression coefficients in a much wider range
of settings than simple mean imputation.
• The variability of the imputations is too small,
so the estimated precision of regression
coefficients will be wrong and inferences will
be misleading.
Stochastic Regression Imputation
• 針對迴歸插補法的一種改進,因為真實的
遺失值並不會剛好落在迴歸線上,所以預
測值再加上一隨機的誤差項較能反應出真
實的遺失值散佈情況。
• http://missingdata.lshtm.ac.uk/index.php?opti
on=com_content&view=article&id=68:simplemean-imputation&catid=39:simple-ad-hocmethods-for-coping-with-missingdata&Itemid=96
• 楊棋全 (2004), 指數與韋伯分配遺失值之處理
• Donders, Heijden, Moons (2006), Review: A
gentle introduction to imputation of missing
values