「離群值」的統計概念

Download Report

Transcript 「離群值」的統計概念

異常點
(Outlier / 偏離值 / 離群值)
關志威博士
香港大學
統計及精算學系
甚麼是異常點?
 運輸及房屋局於2009/3/26公布,可加可減方程式運算
結果 3.03%,超過 2%,可望巴士公司平均減價毫
半子。
 統計處2009/4/15公布,該處在運算2008年9月及12月
的「運輸服務業」工資指數時出錯,巴士票價可加可
減調整方程式運算結果應修訂為 1.26%。未達致啟動
檢討巴士票價機制的 2%水平,即巴士未能減價。
可加可減方程式
 票價調整幅度的方程式

0.5  綜合消費物價指數變動 + 0.5 工資指數變動
-0.5 生產力增幅
 統計處早前公布的2008/12「運輸服務業」名義工資指數為145.1,
而正確數字實為150.5。根據更正的數據,2008年第二季至第四季
的工資指數變動應為 1.311%,而不是 4.852% 。
 修正前

0.5  (-0.817%) + 0.5  (-4.852%) – 0.3%  8 / 12 = -3.03%
 修正後

0.5  (-0.817%) + 0.5  (-1.311%) – 0.3%  8 / 12 = -1.26%
修正前
年
月
工資指數
工資指數變動
2006
3
145.9
-0.883
2006
6
146.7
-0.272
2006
9
147.2
0.891
2006
12
147.6
0.613
2007
3
146.4
-0.543
2007
6
149.0
0.949
2007
9
150.2
2.596
2007
12
151.5
1.678
2008
3
152.9
1.798
2008
6
152.5
0.660
2008
9
155.8
1.897
2008
12
145.1
-4.852
 異常點是變數的觀察值明確與其他值有所不同

不能因此判決異常點好壞
 輸入或編碼錯誤
 異常事件發生
 模型假設錯誤
異常點的影響
 減價!不減價!可加不可減!名譽掃地!匪夷所思!
名存實亡!形同虛設!
 平均值(mean)



工資指數變動
修正前:0.377
修正後:0.673
修正後
修正前
如何檢測異常點?
 Boxplot
 Mean ± 3SD
 Mean = 0.377, SD = 1.95
 Mean + 3SD = 6.23, Mean  3SD =  5.48
年
月
工資指數
工資指數變動
2006
3
145.9
-0.883
2006
6
146.7
-0.272
2006
9
147.2
0.891
2006
12
147.6
0.613
2007
3
146.4
-0.543
2007
6
149.0
0.949
2007
9
150.2
2.596
2007
12
151.5
1.678
2008
3
152.9
1.798
2008
6
152.5
0.660
2008
9
155.8
1.897
2008
12
145.1
-4.852
 Mean(i)±3SD(i)

Mean(12)=0.853, SD(12)=1.10

Mean(12) + 3SD(12) =4.14, Mean(12)  3SD(12) =  2.44
年
月
工資指數
工資指數變動
2008
12
145.1
 4.852
 Median±3MAD
 中位數絕對離差 (Median absolute deviation)
MAD  median x i  median
i
 個案刪除法 (Case-deletion)
年
月
工資指數變動
Mean(i)
Mean(i)-Mean
2006
3
-0.883
0.492
0.115
2006
6
-0.272
0.437
0.059
2006
9
0.891
0.331
-0.047
2006
12
0.613
0.356
-0.021
2007
3
-0.543
0.461
0.084
2007
6
0.949
0.326
-0.052
2007
9
2.596
0.176
-0.202
2007
12
1.678
0.259
-0.118
2008
3
1.798
0.248
-0.129
2008
6
0.660
0.352
-0.026
2008
9
1.897
0.239
-0.138
2008
12
-4.852
0.853
0.475
 殘差圖(Residual plot)
ri  y i  yˆ i
 槓桿值(Leavage)
hi 
1
n

 x i  x 2
 x
 x
2
j
j
 t*
 n3
t  t i 
2
n

2

t
i

*
i

where
ti 
ri
s 1  hi




s 
2
1/ 2
1
n2

j
2
rj

臨界值( Cut-off)
| t*i |
hi
2
(n > 20)
4/n or 6/n
如何處理異常點?
 不具代表性,刪除。
 具代表性,保留。
 穩健方法(robust method)
 中位數 (Median)
平均數
中位數
修正前
0.377
0.776
修正後
0.673
0.776

去頭尾平均數(Trimmed mean)
100 a % TM  TM
a

n  2k

k = [na] is the smallest integer ≥ na

5% trimmed mean

12  5% = 0.6

nk
1
 x 
i
i  k 1
1個最大,1個最小值去掉
平均數
5%去頭尾平均數
修正前
0.377
0.679
修正後
0.673
0.679

溫塞平均數(Winsorized mean)
100 a % WM  WM


a
nk
1

  kx  k 1    x  i   kx  n  k  
n
i  k 1

最小中位數平方(Least median of squares)
最小消去平方(Least trimmed squares)
Further readings
 Cook, R.D. and Weisberg, S. (1982). Residuals and
Influence in Regression. Chapman and Hall.
 Rousseeuw, P.J. and Leroy, A.M. (2003).
Regression and Outlier Detection. Wiley.
Robust