Transcript 「離群值」的統計概念
異常點 (Outlier / 偏離值 / 離群值) 關志威博士 香港大學 統計及精算學系 甚麼是異常點? 運輸及房屋局於2009/3/26公布,可加可減方程式運算 結果 3.03%,超過 2%,可望巴士公司平均減價毫 半子。 統計處2009/4/15公布,該處在運算2008年9月及12月 的「運輸服務業」工資指數時出錯,巴士票價可加可 減調整方程式運算結果應修訂為 1.26%。未達致啟動 檢討巴士票價機制的 2%水平,即巴士未能減價。 可加可減方程式 票價調整幅度的方程式 0.5 綜合消費物價指數變動 + 0.5 工資指數變動 -0.5 生產力增幅 統計處早前公布的2008/12「運輸服務業」名義工資指數為145.1, 而正確數字實為150.5。根據更正的數據,2008年第二季至第四季 的工資指數變動應為 1.311%,而不是 4.852% 。 修正前 0.5 (-0.817%) + 0.5 (-4.852%) – 0.3% 8 / 12 = -3.03% 修正後 0.5 (-0.817%) + 0.5 (-1.311%) – 0.3% 8 / 12 = -1.26% 修正前 年 月 工資指數 工資指數變動 2006 3 145.9 -0.883 2006 6 146.7 -0.272 2006 9 147.2 0.891 2006 12 147.6 0.613 2007 3 146.4 -0.543 2007 6 149.0 0.949 2007 9 150.2 2.596 2007 12 151.5 1.678 2008 3 152.9 1.798 2008 6 152.5 0.660 2008 9 155.8 1.897 2008 12 145.1 -4.852 異常點是變數的觀察值明確與其他值有所不同 不能因此判決異常點好壞 輸入或編碼錯誤 異常事件發生 模型假設錯誤 異常點的影響 減價!不減價!可加不可減!名譽掃地!匪夷所思! 名存實亡!形同虛設! 平均值(mean) 工資指數變動 修正前:0.377 修正後:0.673 修正後 修正前 如何檢測異常點? Boxplot Mean ± 3SD Mean = 0.377, SD = 1.95 Mean + 3SD = 6.23, Mean 3SD = 5.48 年 月 工資指數 工資指數變動 2006 3 145.9 -0.883 2006 6 146.7 -0.272 2006 9 147.2 0.891 2006 12 147.6 0.613 2007 3 146.4 -0.543 2007 6 149.0 0.949 2007 9 150.2 2.596 2007 12 151.5 1.678 2008 3 152.9 1.798 2008 6 152.5 0.660 2008 9 155.8 1.897 2008 12 145.1 -4.852 Mean(i)±3SD(i) Mean(12)=0.853, SD(12)=1.10 Mean(12) + 3SD(12) =4.14, Mean(12) 3SD(12) = 2.44 年 月 工資指數 工資指數變動 2008 12 145.1 4.852 Median±3MAD 中位數絕對離差 (Median absolute deviation) MAD median x i median i 個案刪除法 (Case-deletion) 年 月 工資指數變動 Mean(i) Mean(i)-Mean 2006 3 -0.883 0.492 0.115 2006 6 -0.272 0.437 0.059 2006 9 0.891 0.331 -0.047 2006 12 0.613 0.356 -0.021 2007 3 -0.543 0.461 0.084 2007 6 0.949 0.326 -0.052 2007 9 2.596 0.176 -0.202 2007 12 1.678 0.259 -0.118 2008 3 1.798 0.248 -0.129 2008 6 0.660 0.352 -0.026 2008 9 1.897 0.239 -0.138 2008 12 -4.852 0.853 0.475 殘差圖(Residual plot) ri y i yˆ i 槓桿值(Leavage) hi 1 n x i x 2 x x 2 j j t* n3 t t i 2 n 2 t i * i where ti ri s 1 hi s 2 1/ 2 1 n2 j 2 rj 臨界值( Cut-off) | t*i | hi 2 (n > 20) 4/n or 6/n 如何處理異常點? 不具代表性,刪除。 具代表性,保留。 穩健方法(robust method) 中位數 (Median) 平均數 中位數 修正前 0.377 0.776 修正後 0.673 0.776 去頭尾平均數(Trimmed mean) 100 a % TM TM a n 2k k = [na] is the smallest integer ≥ na 5% trimmed mean 12 5% = 0.6 nk 1 x i i k 1 1個最大,1個最小值去掉 平均數 5%去頭尾平均數 修正前 0.377 0.679 修正後 0.673 0.679 溫塞平均數(Winsorized mean) 100 a % WM WM a nk 1 kx k 1 x i kx n k n i k 1 最小中位數平方(Least median of squares) 最小消去平方(Least trimmed squares) Further readings Cook, R.D. and Weisberg, S. (1982). Residuals and Influence in Regression. Chapman and Hall. Rousseeuw, P.J. and Leroy, A.M. (2003). Regression and Outlier Detection. Wiley. Robust