Transcript Document
Chap11 Estimation 統計推論的三大主題: Estimation 估計 Tests of Hypothese 假說檢定 Prediction 預測 ( modeling 建模) Stat_est 1 點估計 (point estimate): 以一統計量,θˆ ,概估母體參數, 。 如:估計平均費時 19.9 分鐘 區間估計 (interval estimate): 估計母體參數值的界限,並提供準確度。 如:以 95% 信心估計平均費時由 17.2 到 22.6 分鐘 Estimator :理論得到的估計量,用大寫英文字母表示 Estimator is a random variable Estimate : 樣本值代入得到的估計值,用小寫英文字母表示 Estimate is a value [註]:統計量(statistics) 是一不含未知參數的數量,可由資料計算得到。 ΣXi 是一統計量,但是 Σ(Xi – μ)2 不是一統計量,如果 μ 未知。 Stat_est 2 常用之點估計 estimator Proportion Mean variance Std. deviation pˆ X S2 S parameter p μ σ2 σ Think 為何可以用樣本平均數來估計母體平均數? [註]:以上前三個估計量是不偏估計量,但是S 不是 σ 的不偏估計量。 (why?) Stat_est 3 定義11.1 不偏估計量(Unbiased Esimator) 註:不偏估計量是一個好的估計量 定理11.1 証明 Stat_est 4 11.1 mean 之估計 以 X-bar 估計 μ,估計的是否準確取決於估計量的變化 定理11.2 証明 [註]: σ2/√n 用來量測估計產生的誤差,稱為 x-bar 之標準誤 (standard error) Stat_est 5 樣本平均數之分布 Case1: 母體為常態,變異數已知 Case2: 母體為常態,變異數不知道 Case3: 任一母體,樣本為大樣本 Stat_est ( n >30 ) 6 以樣本平均數估計μ,誤差有多大? 在 case1 的情況下,有 1-α的機會 x-bar 落在 z / 2 定義11.2 n ( z / 2 (s.e.)) Maximum error of estimator E z / 2 註 n Zα 為標準常態尾部機率為 α 的z-值,可查 z 表得到 Stat_est 7 例11.1 一組效率專家以樣本數 n=150 的隨機樣本估計生產線 上的員工的平均機械作業能力,假設 σ = 6.2,請問他 們在0.99的機率下,所可能出現的估計最大誤差是多 少?(p264) 解: Ans: 1.30 例11.2 估計組裝玩具費時,由大小為36的隨機樣本得到平均 數19.9,以s 的值5.73代替 σ,請問他們在0.95的機率下, 所可能出現的估計最大誤差是多少?(p265) 解: Stat_est Ans: 1.87 8 Think 影響最大誤差的有那些因素? 1. σ 2. α 3. n 要使估計的誤差小,應如何調整樣本數? 例11.3 針對例11.2,要求在 0.95的機率下,估計最大誤差要降 為 1,問應取多少樣本? 解: Stat_est Ans: 9 信賴區間 定義11.3 信賴區間(confidence interval ,C.I.), 信賴水準(confidence level) 設 a,b 為二統計量,若 P[a≦μ≦b] = 1-α,則說: 以1-α之信賴水準估計 μ 在 [a,b]內,或 [a,b]是 μ 的 (1-α) x100% 之信賴區間 【註】1、 以信賴區間來估計μ,稱為 interval estimate 2、a 為信賴下限,b 為信賴上限。(confidence limit) Stat_est 10 平均值之區間估計 (Case1) 1.96 = z0.025 P(1.96 Z 1.96) 0.95 P(1.96 X/ n 1.96) 0.95 P( X 1.96 n X 1.96 n ) 0.95 ( X 1.96 n , X 1.96 n ) X 1.645 X 2.58 為 μ之95%信賴區間 with 90% confidencelevel with 99% confidencelevel Stat_est 1.645 = z0.05 2.58 = z0.005 11 例11.4 例11.1中,樣本數 n=150 的隨機樣本得到平均機械作 業能力 69.5,假設 σ = 6.2,計算一95% 的信賴區間。 解: Ans: (68.5, 70.5) 例 上題的99% 信賴區間,及90%的信賴區間為何?有何改變? 解: Ans: 99%: (68.2, 70.8) 90%: Stat_est 12 Confidence Interval 一般式 For case1, with (1- α)x100% confidence level, a confidence interval is: X z / 2 n .................(公式1) 信賴水準愈大、信賴區間愈寬。(Why?) 1-α 要取多少? 常用的信賴度有 90%,95%,99% Stat_est 13 Confidence Interval 的實質意義 95% C.I. 的實質意義為何? 當重複試驗 N 次,求得 N 個C.I.,真實之平均值落 在區間內的機會有 95% . Think P( X 1.96 n X 1.96 n ) 0.95 隨機變數 模擬試驗 母體分布 : N(5,22) , μ=5,抽 n = 9 的樣本, 重複100 次,計算出信賴區間, 100個 95% C.I. 中, 有 5 個 C.I.s 無法含蓋 μ=5 (excel 報表11.1) Stat_est 14 例 100 名大一男生樣本的體重平均數為 64 kg,已知標準差 σ = 8.6,試求 µ 之95% 的信賴區間。 解: Ans: (62.31, 65.69) 理論上,未抽樣時,可預測有 95%的機會μ會落在區間內 一旦抽樣有了資料,區間的值固定了,μ是否有落在區間 內就確定了 所以我們應該說:有95%的把握,μ會落在此區間 95%信賴區間為(62.3,65.7) 的實質意義為: 以95%的信心,估計大一男生體重平均為62.3到65.7 Stat_est 15 可能的錯誤敘述 Don’t suggest that the parameter varies. 錯誤敘述: 有95%的機會,真正的平均數在1到5 Don’t claim that other samples will agree with yours. 錯誤敘述: 95%的樣本會得到平均數落在1到5之間 Don’t be certain about the parameter. 錯誤敘述: 平均身高在1到5之間 Don’t foget:It’s the parameter. 錯誤敘述: 有95%的機會,樣本平均數在1到5 Don’t claim to know too much 錯誤敘述:有95%的信心,身高在1到5 Don’t take responsibility 正確敘述:以95%的信心,估計平均數在 1到5之間 Stat_est 16 11.2 Estimation of means (常態母體,σ unknown) 定理11.2.1 常態母體, σ未知時,樣本平均數之分布 設 X1 , X2 , …, Xn 是一常態隨機樣本,N(μ,σ2 ) 。則下列統 計量 t 有一自由度 n-1 的 t-分布。 t X S/ n ~ t (n - 1) 是否可以再用 z – interval ?下列推導可得到一 confidence interval. Think P(-t/2 P(X - t /2 X S/ n t /2 ) 1 - S n X t /2 如:樣本數 10,X 2.262 Stat_est S n ) 1- 如何查到 2.262 ? 是的 95% 信賴區間 17 常態母體, σ未知時,母體平均數之(1-α)x100%之信賴區間 X t / 2 s n , df n -1 附表II 提供區間估計所需要的 t-值。 • 信賴度 95%時,用右尾面積 0.025 的 t n-1 值 • 信賴度 90%時,用右尾面積 0.05 的 t n-1 值 • 信賴度 99%時,用右尾面積 0.005 的 t n-1 值 注意:tα 值比 zα值大,所以同樣的信賴水準下,t-interval 比 z-interval 較寬。 (是否合理?) Stat_est 18 t 分布 與 Z 分布 • 兩者皆對稱於 0 • T 分布是長尾分布 • 自由度愈大,t分布愈 接近 Z 分布 • 右尾機率 0.025時,z值是1.96,t-值大於 1.96 • Tα值查表II 19 中間 95% 的 t 值 (t0.025) • 中間95% 相對的右尾機率 為 0.025 • 中間95%區間時 z-值用 1.96 • 若σ 值不知道,要換用 t 值 • 右尾0.025 的 t 值如右表 (查附表II,或使用excel) df = n-1 T n-1 1 12.7 2 4.303 5 2.571 9 2.262 10 2.228 20 2.086 30 2.042 120 1.98 ∞ 1.96 20 估計量之標準誤 (s.e.) 平均數:s /√n 是估計之標準誤。 s.e. s n , t X s/ n . 比較 Z/ , T / , d.f. n - 1 一般情況σ並不知道,可以S 值估計之,但此時應以 t-分布替 代 z-分布,t-分布是一近似於標準常態的分布,其機率值決 定於變異數的自由度,n-1。 Stat_est 21 信賴水準 (1-α),µ 之信賴區間 Case1 常態母體, σ 知道 X z / 2 n Case2 常態母體, σ不知道 X t / 2 s n , df n -1 Case3 任一母體,大樣本, σ不知道 X z / 2 s n Stat_est 22 例11.5 解: 在模擬失重狀態下進行任務操作時,12名太空人的脈 搏每分鐘平均增加27.33次,而標準差為4.28次。估計 在這狀況下,太空人脈搏每分鐘實際增加的平均次數, 其99%信賴區間多少? 假設母體服從常態分配 Ans: (23.49, 31.17) 若知道 σ=4.28,99%之信賴區間為何?為何後者較窄? Stat_est 23 例11.6 已知八個地點的路面標線油漆,在 14.26, 16.78, 13.65, 11.53, 12.64, 13.37, 15.60, 與14.94 百萬輛車經過之後, 會出現剝落、模糊不清的情形。已利用常態機率圖驗 證這組樣本資料是來自於常態母體,平均數 = 14.10, 而標準差=1.67。請計算此母體平均數的95%信賴區間。 解: Ans: (12.70, 15.50) Stat_est 24 樣本數的影響 n 標準 誤 95%平均數區 間 區間寬 1 46 120.8, 301.2 180.4 10 14.5 182.5, 239.5 57.0 25 9.2 193.0, 229.0 36.0 50 6.5 198.2, 223.8 25.6 100 4.6 202.0, 220.0 18.0 • 樣本數增加,標準誤 減少 • 樣本數增加,95%的 平均值更集中 • 樣本數增加,估計較 準確 • 可以控制樣本數,以 達到某一精確度 c.i. 25 例 研究服用制酸劑後血鋁濃度之含量,平均數與標準差 未知。隨機抽49人,測得平均值 = 37.2,s = 7.13, 求μ之95% 信賴區間。 Stat_est 26 11.3 Estimation of std. deviations 定理11.3.1 常態母體時,S2 之分布 設 X1 , X2 , …, Xn 是出自N(μ,σ2 )的一常態隨機 樣本,則下列統計量有一自由度 n-1 的卡方分布。 • Table III 列出不同自由度,各尾部機率的卡方值, 作為估計及檢定之用 2 • 是尾部機率為 α 的卡方值 註:卡方分布是一右偏分布,是 gamma 分布之一特例 Stat_est 27 如何設定一卡方變數的區間,使這區間的機率 = 1-α? Think P( 2 1- / 2 ( n 1) S 2 2 2 / 2 ) 1 - 2 (n - 1)S2 ( n 1 ) S P( 2 2 ) 1- 2 / 2 1- / 2 推導: 注意:如果 α<0.5,χ2α 值比χ21-α 值大 Stat_est 28 設 X1 , X2 , …, Xn 是出自N(μ,σ2 )的一常態隨機樣本,則 (L, U)是一信賴水準為 (1-α)x100% σ2 的信賴區間。 註:在作σ2 的推論時,常態的假設是比較重要的 例11.8 無重力狀況下,12名太空人的脈搏每分鐘平均增加27.33 次,而標準差為4.28次。估計在這狀況下,求在無重力狀 態下,脈搏跳動增加次數之σ 的99% 信賴區間。 解: Ans: (7.53, 77.41) Stat_est 29 例11.9 研究絞鍊潤滑刻效能,欲知故障之前其開合次數的 變異性,下列=15,s=4.28,求 σ 的95%信賴區間 資料的常態機率圖 Ans: (2.74, 8.80) Stat_est 30 大樣本,信賴水準為 (1-α)x100% σ2 的信賴區間為(L,U) L 1 zS / 2 , 2n 例11.10 U 1 zS / 2 2n 在 n=110的觀察值中,老忠實間歇噴泉的噴發間隔時間 的標準差為14.35分鐘。計算σ 的95% 信賴區間。 解: Ans: (12.68, 16.53) Stat_est 31 11.4 Estimation of proportions 本節處理計數資料,如:對疫苗過敏的人數 非常態資料,不可用 t-interval 欲估計的是某事件發生的比例,p n 次中發生 X 次,Sample proportion = X / n X 的分布是什麼? E(X) =? Var(X) =? X ~ bin(n,p), mean = np, Var = np(1-p) 如果以二項分布來求 p 的信賴區間,是一件繁複的 工作,一般改以大樣本的近似理論得到一近似區間。 E(X) np , Var(X) np(1 p) or E(pˆ ) p , Var(pˆ ) p(1 p) / n Stat_est 32 依據中央極限定理, X ~ bin(n,p) Z X np np (1 p ) N(0,1) 則 p 的近似估計區間為: Stat_est 33 p 的大樣本信賴區間: 估計p 的最大誤差: p pˆ z / 2 E z / 2 pˆ (1 pˆ ) n pˆ (1 pˆ ) n , s.e. pˆ (1 pˆ ) n 註:上列公式適用於大樣本,對比例問題而言,大樣本的條件是: np >5 且 n(1-p) > 5 (rule of green thumb) 實值多 少? Stat_est 34 例11.11 解: 某隨機樣本中,400位施打流行性感冒疫苗的民眾中, 有136位感到身體不適。求施打這個疫苗之後,會感到 身體不適的真正比例的95%信賴區間 pˆ Ans: (0.29, 0.39) 答案的意義: Stat_est 35 例11.121 某大選的出口民調顯示,250位民眾中有145位支持現 任者連任。以此為真正比例,請問在99%的信賴水準下 ,此估計值的最大誤差是多少? 解: Ans: 0.08 例11.131 某大選的出口民調顯示,250位民眾中有145位支持現 任者連任。以此為真正比例,請問在99%的信賴水準下 ,此估計值的最大誤差是多少? 解: Ans: 601 Stat_est 36 E z / 2 p (1 p ) n n p(1 p)[ z / 2 2 E ] 利用上式,可在所要求的精確度下求算適當的樣數, p=? 例11.13 高公局想要估計貨運車超載的比例。希望估計誤差不會超過0.04的機 率至少是0.95,請問在以下的條件,他們需要多少樣本?(a)知道真正 比例值大約在0.1到0.25之間;(b)對直正的比例值完全沒有概念。 解: Ans: 601 Stat_est 37 例11.14 新聞報導:“本次調查於八日晚間進行,以台灣地 區住宅電話簿為抽樣清冊,共成功訪問七百三十五 位成人,在九成五的信心水準下,抽樣誤差為正負 三點七個百分點。”試解釋上列數字的意義。 Stat_est 38