Transcript 「離群值」的統計概念
異常點
(Outlier / 偏離值 / 離群值)
關志威博士
香港大學
統計及精算學系
甚麼是異常點?
運輸及房屋局於2009/3/26公布,可加可減方程式運算
結果 3.03%,超過 2%,可望巴士公司平均減價毫
半子。
統計處2009/4/15公布,該處在運算2008年9月及12月
的「運輸服務業」工資指數時出錯,巴士票價可加可
減調整方程式運算結果應修訂為 1.26%。未達致啟動
檢討巴士票價機制的 2%水平,即巴士未能減價。
可加可減方程式
票價調整幅度的方程式
0.5 綜合消費物價指數變動 + 0.5 工資指數變動
-0.5 生產力增幅
統計處早前公布的2008/12「運輸服務業」名義工資指數為145.1,
而正確數字實為150.5。根據更正的數據,2008年第二季至第四季
的工資指數變動應為 1.311%,而不是 4.852% 。
修正前
0.5 (-0.817%) + 0.5 (-4.852%) – 0.3% 8 / 12 = -3.03%
修正後
0.5 (-0.817%) + 0.5 (-1.311%) – 0.3% 8 / 12 = -1.26%
修正前
年
月
工資指數
工資指數變動
2006
3
145.9
-0.883
2006
6
146.7
-0.272
2006
9
147.2
0.891
2006
12
147.6
0.613
2007
3
146.4
-0.543
2007
6
149.0
0.949
2007
9
150.2
2.596
2007
12
151.5
1.678
2008
3
152.9
1.798
2008
6
152.5
0.660
2008
9
155.8
1.897
2008
12
145.1
-4.852
異常點是變數的觀察值明確與其他值有所不同
不能因此判決異常點好壞
輸入或編碼錯誤
異常事件發生
模型假設錯誤
異常點的影響
減價!不減價!可加不可減!名譽掃地!匪夷所思!
名存實亡!形同虛設!
平均值(mean)
工資指數變動
修正前:0.377
修正後:0.673
修正後
修正前
如何檢測異常點?
Boxplot
Mean ± 3SD
Mean = 0.377, SD = 1.95
Mean + 3SD = 6.23, Mean 3SD = 5.48
年
月
工資指數
工資指數變動
2006
3
145.9
-0.883
2006
6
146.7
-0.272
2006
9
147.2
0.891
2006
12
147.6
0.613
2007
3
146.4
-0.543
2007
6
149.0
0.949
2007
9
150.2
2.596
2007
12
151.5
1.678
2008
3
152.9
1.798
2008
6
152.5
0.660
2008
9
155.8
1.897
2008
12
145.1
-4.852
Mean(i)±3SD(i)
Mean(12)=0.853, SD(12)=1.10
Mean(12) + 3SD(12) =4.14, Mean(12) 3SD(12) = 2.44
年
月
工資指數
工資指數變動
2008
12
145.1
4.852
Median±3MAD
中位數絕對離差 (Median absolute deviation)
MAD median x i median
i
個案刪除法 (Case-deletion)
年
月
工資指數變動
Mean(i)
Mean(i)-Mean
2006
3
-0.883
0.492
0.115
2006
6
-0.272
0.437
0.059
2006
9
0.891
0.331
-0.047
2006
12
0.613
0.356
-0.021
2007
3
-0.543
0.461
0.084
2007
6
0.949
0.326
-0.052
2007
9
2.596
0.176
-0.202
2007
12
1.678
0.259
-0.118
2008
3
1.798
0.248
-0.129
2008
6
0.660
0.352
-0.026
2008
9
1.897
0.239
-0.138
2008
12
-4.852
0.853
0.475
殘差圖(Residual plot)
ri y i yˆ i
槓桿值(Leavage)
hi
1
n
x i x 2
x
x
2
j
j
t*
n3
t t i
2
n
2
t
i
*
i
where
ti
ri
s 1 hi
s
2
1/ 2
1
n2
j
2
rj
臨界值( Cut-off)
| t*i |
hi
2
(n > 20)
4/n or 6/n
如何處理異常點?
不具代表性,刪除。
具代表性,保留。
穩健方法(robust method)
中位數 (Median)
平均數
中位數
修正前
0.377
0.776
修正後
0.673
0.776
去頭尾平均數(Trimmed mean)
100 a % TM TM
a
n 2k
k = [na] is the smallest integer ≥ na
5% trimmed mean
12 5% = 0.6
nk
1
x
i
i k 1
1個最大,1個最小值去掉
平均數
5%去頭尾平均數
修正前
0.377
0.679
修正後
0.673
0.679
溫塞平均數(Winsorized mean)
100 a % WM WM
a
nk
1
kx k 1 x i kx n k
n
i k 1
最小中位數平方(Least median of squares)
最小消去平方(Least trimmed squares)
Further readings
Cook, R.D. and Weisberg, S. (1982). Residuals and
Influence in Regression. Chapman and Hall.
Rousseeuw, P.J. and Leroy, A.M. (2003).
Regression and Outlier Detection. Wiley.
Robust