Transcript Document

Chap11 Estimation
統計推論的三大主題:
 Estimation 估計
 Tests of Hypothese 假說檢定
 Prediction 預測 ( modeling 建模)
Stat_est
1
點估計 (point estimate):
以一統計量,θˆ ,概估母體參數, 。
如:估計平均費時 19.9 分鐘
區間估計 (interval estimate):
估計母體參數值的界限,並提供準確度。
如:以 95% 信心估計平均費時由 17.2 到 22.6 分鐘
Estimator :理論得到的估計量,用大寫英文字母表示
Estimator is a random variable
Estimate : 樣本值代入得到的估計值,用小寫英文字母表示
Estimate is a value
[註]:統計量(statistics) 是一不含未知參數的數量,可由資料計算得到。
ΣXi 是一統計量,但是 Σ(Xi – μ)2 不是一統計量,如果 μ 未知。
Stat_est
2
常用之點估計
estimator
Proportion
Mean
variance
Std. deviation
pˆ
X
S2
S
parameter
p
μ
σ2
σ
Think
為何可以用樣本平均數來估計母體平均數?
[註]:以上前三個估計量是不偏估計量,但是S 不是
σ 的不偏估計量。
(why?)
Stat_est
3
定義11.1
不偏估計量(Unbiased Esimator)
註:不偏估計量是一個好的估計量
定理11.1
証明
Stat_est
4
11.1 mean 之估計
以 X-bar 估計 μ,估計的是否準確取決於估計量的變化
定理11.2
証明
[註]: σ2/√n 用來量測估計產生的誤差,稱為 x-bar 之標準誤 (standard
error)
Stat_est
5
樣本平均數之分布
Case1: 母體為常態,變異數已知
Case2: 母體為常態,變異數不知道
Case3: 任一母體,樣本為大樣本
Stat_est
( n >30 )
6
以樣本平均數估計μ,誤差有多大?
在 case1 的情況下,有 1-α的機會 x-bar 落在
  z / 2
定義11.2

n
(   z / 2 (s.e.))
Maximum error of estimator
E  z / 2
註

n
Zα 為標準常態尾部機率為 α 的z-值,可查 z 表得到
Stat_est
7
例11.1
一組效率專家以樣本數 n=150 的隨機樣本估計生產線
上的員工的平均機械作業能力,假設 σ = 6.2,請問他
們在0.99的機率下,所可能出現的估計最大誤差是多
少?(p264)
解:
Ans: 1.30
例11.2
估計組裝玩具費時,由大小為36的隨機樣本得到平均
數19.9,以s 的值5.73代替 σ,請問他們在0.95的機率下,
所可能出現的估計最大誤差是多少?(p265)
解:
Stat_est
Ans: 1.87
8
Think
影響最大誤差的有那些因素?
1. σ
2. α
3. n
要使估計的誤差小,應如何調整樣本數?
例11.3
針對例11.2,要求在 0.95的機率下,估計最大誤差要降
為 1,問應取多少樣本?
解:
Stat_est
Ans:
9
信賴區間
定義11.3 信賴區間(confidence interval ,C.I.),
信賴水準(confidence level)
設 a,b 為二統計量,若 P[a≦μ≦b] = 1-α,則說:
以1-α之信賴水準估計 μ 在 [a,b]內,或
[a,b]是 μ 的 (1-α) x100% 之信賴區間
【註】1、 以信賴區間來估計μ,稱為 interval estimate
2、a 為信賴下限,b 為信賴上限。(confidence limit)
Stat_est
10
平均值之區間估計 (Case1)
1.96 = z0.025
P(1.96  Z  1.96)  0.95
 P(1.96  X/  n  1.96)  0.95
 P( X  1.96 n    X  1.96 n )  0.95
 ( X  1.96 n , X  1.96 n )
  X  1.645
  X  2.58


為 μ之95%信賴區間
with 90% confidencelevel
with 99% confidencelevel
Stat_est
1.645 = z0.05
2.58 = z0.005
11
例11.4
例11.1中,樣本數 n=150 的隨機樣本得到平均機械作
業能力 69.5,假設 σ = 6.2,計算一95% 的信賴區間。
解:
Ans: (68.5, 70.5)
例
上題的99% 信賴區間,及90%的信賴區間為何?有何改變?
解:
Ans: 99%: (68.2, 70.8)
90%:
Stat_est
12
Confidence Interval 一般式
For case1,
with (1- α)x100% confidence level, a confidence interval is:
  X  z / 2

n
.................(公式1)
信賴水準愈大、信賴區間愈寬。(Why?)
1-α 要取多少?
常用的信賴度有 90%,95%,99%
Stat_est
13
Confidence Interval 的實質意義
95% C.I. 的實質意義為何?
當重複試驗 N 次,求得 N 個C.I.,真實之平均值落
在區間內的機會有 95% .
Think
P( X  1.96

n
   X  1.96

n
)  0.95
隨機變數
模擬試驗
母體分布 : N(5,22) , μ=5,抽 n = 9 的樣本,
重複100 次,計算出信賴區間,
100個 95% C.I. 中, 有 5 個 C.I.s 無法含蓋 μ=5
(excel 報表11.1)
Stat_est
14
例
100 名大一男生樣本的體重平均數為 64 kg,已知標準差
σ = 8.6,試求 µ 之95% 的信賴區間。
解:
Ans: (62.31, 65.69)
理論上,未抽樣時,可預測有 95%的機會μ會落在區間內
一旦抽樣有了資料,區間的值固定了,μ是否有落在區間
內就確定了
所以我們應該說:有95%的把握,μ會落在此區間
95%信賴區間為(62.3,65.7) 的實質意義為:
以95%的信心,估計大一男生體重平均為62.3到65.7
Stat_est
15
可能的錯誤敘述
Don’t suggest that the parameter varies.
錯誤敘述: 有95%的機會,真正的平均數在1到5
Don’t claim that other samples will agree with yours.
錯誤敘述: 95%的樣本會得到平均數落在1到5之間
Don’t be certain about the parameter.
錯誤敘述: 平均身高在1到5之間
Don’t foget:It’s the parameter.
錯誤敘述: 有95%的機會,樣本平均數在1到5
Don’t claim to know too much
錯誤敘述:有95%的信心,身高在1到5
Don’t take responsibility
正確敘述:以95%的信心,估計平均數在 1到5之間
Stat_est
16
11.2 Estimation of means
(常態母體,σ unknown)
定理11.2.1
常態母體, σ未知時,樣本平均數之分布
設 X1 , X2 , …, Xn 是一常態隨機樣本,N(μ,σ2 ) 。則下列統
計量 t 有一自由度 n-1 的 t-分布。
t
X 
S/ n
~ t (n - 1)
是否可以再用 z – interval ?下列推導可得到一 confidence interval.
Think
P(-t/2 
 P(X - t /2
X 
S/ n
 t /2 )  1 - 
S
n
   X  t /2
如:樣本數  10,X  2.262
Stat_est
S
n
)  1- 
如何查到 2.262 ?
是的 95% 信賴區間
17
常態母體, σ未知時,母體平均數之(1-α)x100%之信賴區間
  X  t / 2
s
n
, df  n -1
附表II 提供區間估計所需要的 t-值。
• 信賴度 95%時,用右尾面積 0.025 的 t n-1 值
• 信賴度 90%時,用右尾面積 0.05 的 t n-1 值
• 信賴度 99%時,用右尾面積 0.005 的 t n-1 值
注意:tα 值比 zα值大,所以同樣的信賴水準下,t-interval 比
z-interval 較寬。 (是否合理?)
Stat_est
18
t 分布 與 Z 分布
• 兩者皆對稱於 0
• T 分布是長尾分布
• 自由度愈大,t分布愈
接近 Z 分布
• 右尾機率 0.025時,z值是1.96,t-值大於
1.96
• Tα值查表II
19
中間 95% 的 t 值 (t0.025)
• 中間95% 相對的右尾機率
為 0.025
• 中間95%區間時 z-值用
1.96
• 若σ 值不知道,要換用 t
值
• 右尾0.025 的 t 值如右表
(查附表II,或使用excel)
df = n-1
T n-1
1
12.7
2
4.303
5
2.571
9
2.262
10
2.228
20
2.086
30
2.042
120
1.98
∞
1.96
20
估計量之標準誤 (s.e.)
平均數:s /√n 是估計之標準誤。
s.e. 
s
n
,
t
X 
s/ n
.
比較

Z/ ,
T

/
, d.f.  n - 1
一般情況σ並不知道,可以S 值估計之,但此時應以 t-分布替
代 z-分布,t-分布是一近似於標準常態的分布,其機率值決
定於變異數的自由度,n-1。
Stat_est
21
信賴水準 (1-α),µ 之信賴區間
Case1 常態母體, σ 知道
  X  z / 2

n
Case2 常態母體, σ不知道
  X  t / 2
s
n
, df  n -1
Case3 任一母體,大樣本, σ不知道
  X  z / 2
s
n
Stat_est
22
例11.5
解:
在模擬失重狀態下進行任務操作時,12名太空人的脈
搏每分鐘平均增加27.33次,而標準差為4.28次。估計
在這狀況下,太空人脈搏每分鐘實際增加的平均次數,
其99%信賴區間多少?
假設母體服從常態分配
Ans: (23.49, 31.17)
若知道 σ=4.28,99%之信賴區間為何?為何後者較窄?
Stat_est
23
例11.6
已知八個地點的路面標線油漆,在 14.26, 16.78, 13.65,
11.53, 12.64, 13.37, 15.60, 與14.94 百萬輛車經過之後,
會出現剝落、模糊不清的情形。已利用常態機率圖驗
證這組樣本資料是來自於常態母體,平均數 = 14.10,
而標準差=1.67。請計算此母體平均數的95%信賴區間。
解:
Ans: (12.70, 15.50)
Stat_est
24
樣本數的影響
n
標準
誤
95%平均數區
間
區間寬
1
46
120.8, 301.2
180.4
10
14.5
182.5, 239.5
57.0
25
9.2
193.0, 229.0
36.0
50
6.5
198.2, 223.8
25.6
100
4.6
202.0, 220.0
18.0
• 樣本數增加,標準誤
減少
• 樣本數增加,95%的
平均值更集中
• 樣本數增加,估計較
準確
• 可以控制樣本數,以
達到某一精確度
c.i.
25
例
研究服用制酸劑後血鋁濃度之含量,平均數與標準差
未知。隨機抽49人,測得平均值 = 37.2,s = 7.13,
求μ之95% 信賴區間。
Stat_est
26
11.3 Estimation of std. deviations
定理11.3.1
常態母體時,S2 之分布
設 X1 , X2 , …, Xn 是出自N(μ,σ2 )的一常態隨機
樣本,則下列統計量有一自由度 n-1 的卡方分布。
• Table III 列出不同自由度,各尾部機率的卡方值,
作為估計及檢定之用
2
•  是尾部機率為 α 的卡方值
註:卡方分布是一右偏分布,是 gamma 分布之一特例
Stat_est
27
如何設定一卡方變數的區間,使這區間的機率 = 1-α?
Think
P(
2
1- / 2

( n 1) S 2
2
 2 / 2 )  1 - 
2
(n - 1)S2
(
n

1
)
S
 P( 2
 2 
)  1-
2
 / 2
1- / 2
推導:
注意:如果 α<0.5,χ2α 值比χ21-α 值大
Stat_est
28
設 X1 , X2 , …, Xn 是出自N(μ,σ2 )的一常態隨機樣本,則
(L, U)是一信賴水準為 (1-α)x100% σ2 的信賴區間。
註:在作σ2 的推論時,常態的假設是比較重要的
例11.8
無重力狀況下,12名太空人的脈搏每分鐘平均增加27.33
次,而標準差為4.28次。估計在這狀況下,求在無重力狀
態下,脈搏跳動增加次數之σ 的99% 信賴區間。
解:
Ans: (7.53, 77.41)
Stat_est
29
例11.9
研究絞鍊潤滑刻效能,欲知故障之前其開合次數的
變異性,下列=15,s=4.28,求 σ 的95%信賴區間
資料的常態機率圖
Ans: (2.74, 8.80)
Stat_est
30
大樣本,信賴水準為 (1-α)x100% σ2 的信賴區間為(L,U)
L  1 zS / 2 ,
2n
例11.10
U 1 zS / 2
2n
在 n=110的觀察值中,老忠實間歇噴泉的噴發間隔時間
的標準差為14.35分鐘。計算σ 的95% 信賴區間。
解:
Ans: (12.68, 16.53)
Stat_est
31
11.4 Estimation of proportions
本節處理計數資料,如:對疫苗過敏的人數
非常態資料,不可用 t-interval
欲估計的是某事件發生的比例,p
n 次中發生 X 次,Sample proportion = X / n
X 的分布是什麼? E(X) =? Var(X) =?
X ~ bin(n,p), mean = np, Var = np(1-p)
如果以二項分布來求 p 的信賴區間,是一件繁複的
工作,一般改以大樣本的近似理論得到一近似區間。
E(X)  np , Var(X)  np(1  p)
or E(pˆ )  p , Var(pˆ )  p(1  p) / n
Stat_est
32
依據中央極限定理,
X ~ bin(n,p)  Z 
X  np
np (1 p )
 N(0,1)

則 p 的近似估計區間為:
Stat_est
33
p 的大樣本信賴區間:
估計p 的最大誤差:
p  pˆ  z / 2
E  z / 2
pˆ (1 pˆ )
n
pˆ (1 pˆ )
n
,
s.e. 
pˆ (1 pˆ )
n
註:上列公式適用於大樣本,對比例問題而言,大樣本的條件是:
np >5 且 n(1-p) > 5 (rule of green thumb)
實值多
少?
Stat_est
34
例11.11
解:
某隨機樣本中,400位施打流行性感冒疫苗的民眾中,
有136位感到身體不適。求施打這個疫苗之後,會感到
身體不適的真正比例的95%信賴區間
pˆ 
Ans: (0.29, 0.39)
答案的意義:
Stat_est
35
例11.121
某大選的出口民調顯示,250位民眾中有145位支持現
任者連任。以此為真正比例,請問在99%的信賴水準下
,此估計值的最大誤差是多少?
解:
Ans: 0.08
例11.131
某大選的出口民調顯示,250位民眾中有145位支持現
任者連任。以此為真正比例,請問在99%的信賴水準下
,此估計值的最大誤差是多少?
解:
Ans: 601
Stat_est
36
E  z / 2
p (1 p )
n
 n  p(1  p)[
z / 2 2
E
]
利用上式,可在所要求的精確度下求算適當的樣數,
p=?
例11.13 高公局想要估計貨運車超載的比例。希望估計誤差不會超過0.04的機
率至少是0.95,請問在以下的條件,他們需要多少樣本?(a)知道真正
比例值大約在0.1到0.25之間;(b)對直正的比例值完全沒有概念。
解:
Ans: 601
Stat_est
37
例11.14
新聞報導:“本次調查於八日晚間進行,以台灣地
區住宅電話簿為抽樣清冊,共成功訪問七百三十五
位成人,在九成五的信心水準下,抽樣誤差為正負
三點七個百分點。”試解釋上列數字的意義。
Stat_est
38