Transcript 標準誤

第9章
估計與信賴區間
9-1
目標
1. 定義點估計。
2. 定義信賴水準。
3. 在母體標準差已知的情況下,建構母體平均
數的信賴區間。
4. 在母體標準差未知的情況下,建構母體平均
數的信賴區間。
5. 建構母體比例的信賴區間。
6. 決定抽樣的樣本個數。
9-2
點估計與信賴區間



點估計(point estimate):由樣本資料計算
的統計量,使用來估計母體參數。
區間估計(interval estimate):某區間會涵
蓋母體參數的可能性。
信賴區間(confidence interval):在特定機
率下,估計母體參數可能落在的數值範圍。
此特定的機率值可以稱為信賴水準。
9-3
點估計與信賴區間

決定信賴區間的因素有:
樣本大小 n。
 母體資料的離散程度,通常使用 s 估計。
 信賴水準。

9-4
點估計與信賴區間

若母體標準差σ已知,且樣本個數大於
30,我們使用 z 分配。
9-5
點估計與信賴區間

若母體近似常態分配而母體標準差未知,且
樣本個數小於 30,我們使用 t 分配。在給定
信賴係數下,t 分配的值依賴自由度而定。
9-6
樣本平均數的標準誤

樣本平均數抽樣分配的標準差可稱為
「標準誤」(standard error)。
9-7
樣本平均數的標準誤

計算公式為
 x 為樣本平均數的標準誤的符號。
 為母體標準差。
n 為樣本大小。
9-8
樣本平均數的標準誤

若σ未知,以及 n ≥ 30,樣本標準差表示為s,
可估計母體標準差。計算公式如下:
sx 
s
n
9-9
區間估計

陳述母體參數可能落入的範圍值。
 估計母體參數可能落在的數值範圍。
 最常使用的信賴水準為
95% 與 99%。
9-10
區間估計

95% 信賴區間表示在 100 組樣本所得到
的 100 個區間中,約有 95 個區間會涵
蓋母體參數。或者,從母體中抽選出來
的樣本平均數,其中有 95% 會落在母體
平均數加減 1.96 個標準差的範圍內。
9-11
區間估計
而 99 % 信賴區間意指,從母體中抽選出
來的樣本平均數,有 99% 的樣本平均數
會落在母體平均數加減 2.58 個標準差的
範圍內。
9-12
µ 的 95% 與 99% 信賴區間

母體平均數的 95% 信賴區間為
9-13
µ 的 95% 與 99% 信賴區間
 母體平均數的
99% 信賴區間為
9-14
建構母體平均數 µ 的信賴區間

母體平均數信賴區間的通用計算公式為
9-15
範例
美國管理協會希望了解在零售產業中,中階主管的
平均收入。現在隨機抽取 256 位中階主管,其平均
數為 $45,420、標準差 $2,050。協會想要了解下列
幾個問題:
1. 母體平均數是多少?母體平均數的合理估計值是多
少?
2. 母體平均數會合理地落在什麼範圍內?
3. 以上答案的意義為何?
9-16
範例 continued
1. 因不知道母體平均數是多少,只知道樣本平均數
是 $45,420。因此只能使用樣本統計量來估計母體
參數,所以樣本平均數 $45,420是未知母體平均數
的點估計。
2. 所計算出來的範圍是 $45,169 至 $45,671 間,這兩
個數值也可以稱為信賴界限(confidence limits)。
因此在 95% 信賴水準(或信賴係數)下,信賴區
間是從 $45,169 至 $45,671。±$251 稱為容界誤差
(margin of error)。
9-17
範例 continued
3. 以上答案的意義為何?
假設我們隨機抽出很多組樣本數為 256 位中階主管的
樣本,也許抽選出好幾百組。對於這些每一組樣
本,計算其平均數與標準差,之後建立每組相對
應的 95% 信賴區間,建構信賴區間的過程如上所
示。我們希望所有的信賴區間中,約有 95% 的信
賴區間將涵蓋母體平均數,另外約有 5% 信賴區間
沒有包含母體平均數μ。然而,某特別信賴區間也
許會包含母體平均數,或也許不會包含。
9-18
範例 continued
9-19
t分配的假設:母體為常態分配或近似常
態分配

t 分配的特徵:
1. t 分配是連續型的機率分配。
2. t 分配的圖形是鐘形與對稱分配。
3.有一整個 t 分配的家族。
4. t 分配比標準常態分配更平坦,且離散程
度也較大。當樣本數增加時,t 分配就會愈
接近標準常態分配。
9-20
範例
一個輪胎製造商想要研究公司所生產的輪胎
其厚度耗損程度。現在隨機選取行駛了
50,000 英里的 10 個輪胎為樣本,發現輪胎剩
餘厚度的樣本平均數為 0.32 英寸、標準差為
0.09 英寸。請建構母體平均數的 95% 信賴區
間。如果製造商的結論是:在行駛了 50,000
英里之後,輪胎剩餘厚度的母體平均數仍然
是 0.3 英寸。請問這個結論合理嗎?
9-21
範例 continued
一開始假設母體分配是常態分配。為了要應
用中央極限定理,故需要使用大樣本,也就
是樣本數至少在30以上。在這個範例中,樣
本數只有10個,因此不能使用中央極限定理。
也就是不可以使用公式 [9-1],而必須使用公
式 [9-2]:
9-22
範例 continued
找出 t 值的第一步,是在信賴區間的那一列找出所
要的信賴水準。在此例中,所需之信賴水準是 95%,
即對應到標題為 95% 的那一行,並往左邊標示為 df
的 那 一 行 移 動 。 所 謂 的 df 是 自 由 度 ( degrees of
freedom),自由度是將樣本中觀測資料的數量減去 1,
在此例中它是10-1 = 9。所以 95% 信賴水準的那一行
與自由度9的那一列(p.546),交叉得到 t 值為 2.262。
9-23
範例 continued
信賴區間的界限是 0.256 與 0.384。那麼該如
何麼解釋這個結果呢?
可以說母體平均數落在這個區間內,製造商
可以確認(95% 的信心程度)胎面的平均剩餘
厚度仍然在 0.256 至0.384 英寸間。因為 0.3 英
寸落在這個區間內,所以母體平均數很可能是
0.3 英寸。
9-24
範例
佛羅里達州 Inlet Square 百貨公司的經理,想要估計
每一位顧客平均採購金額是多少。下表列示了 20 位顧
客採購金額的樣本資料。
請問母體平均數的最佳點估計是多少?計算95% 的信
賴區間,並解釋這個結果。如果母體平均數是 $50,
這個說法合理嗎?那麼母體平均數為 $60,合理嗎?
9-25
範例 continued
百貨公司的經理假設顧客花費金額的母體服從常態
分配。不知道母體標準差,所以,必須使用 t 分配
以及使用公式 [9-2] 來計算信賴區間。自由度是 n-1 =
20 - 1 = 19。在表格(p.546)中找出自由度為 19、信賴
水準為 95% 的交叉點是 2.093,並將這些值帶入公式
[9-2],計算出信賴區間:
9-26
範例 continued
所求出的信賴區間是 $45.13 與 $53.57 之間。
所以可以說(有 95% 的信心)母體平均數會落
在這個區間內。
Inlet Square 的經理猜想母體平均數是 $50 或
$60。$50 在信賴區間內,所以母體平均數有可
能是 $50。而 $60 沒有在信賴區間內,所以母
體平均數不太可能會是 $60。
9-27
母體比例的信賴區間

母體比例信賴區間的估計公式為:
9-28
範例
Bottle Blowers of America(BBA)工會想要
與Teamsters 工會合併。根據 BBA 工會的規章
規定,至少要有 ¾ 的會員同意,才可進行合併。
現在隨機抽選 2,000 位 BBA 的會員,其中有
1,600 位同意合併的提議。
請問什麼是母體比例的估計值?請建構母體比
例的 95% 信賴區間。基於這些樣本資訊,你認
為 BBA 的會員是否同意合併案的進行?為什
麼?
9-29
範例 continued
使用公式 [9-3] 計算樣本比例,計算結果是
0.8:
因此可估計母體中有 80% 的會員同意合併的
計畫。使用公式 [9-6] 計算 95% 的信賴區間。
對應於 95% 信賴水準的 z 值是 1.96:
9-30
範例 continued
信賴區間的上下限是 0.782 與 0.818。因為信
賴下限 0.782 大於 0.75,亦即信賴區間包含
了超過 75% 的工會會員,所以我們可以說這
個合併計畫可能會通過。
9-31
有限母體的校正因子
 一個有固定上限的母體數目,我們稱之
為「有限母體」。
 對於一個有限母體,其總數量為 N,以
及抽樣的樣本數為 n。
9-32
有限母體的校正因子

樣本平均數的標準誤:

x 
n
N n
N 1
9-33
有限母體的校正因子
樣本比例的標準誤:
p 
p(1  p) N  n
n
N 1
對於有限母體,需進行調整。
 若 n/N < 0.05,則可忽視有限母體的校正因
子。

9-34
範例
賓州 Scandia 地區有 250 個家庭。隨機抽選 40 個家
庭,發現這些家庭每年捐獻給教堂的平均金額是 $450、
標準差 $75。母體平均數可能是 $445 或是 $425?
1.母體平均數是多少?母體平均數的最佳估計值是多
少?
2.討論為何必須使用有限母體矯正因子?
3.請計算平均每年捐獻金額的 90% 信賴區間。信賴區
間的上界與下界分別是多少?
4.解釋信賴區間。
9-35
範例 continued



不知道母體平均數,故必須估計之。母體平均數
的最佳估計值是樣本平均數 $450。
樣本數占母體數量的比例超過 5%;也就是 n/N =
40/250 = 0.16。因此使用有限母體矯正因子,透過
FPC 去調整信賴區間的標準誤。
母體平均數的信賴區間公式變成
9-36
範例 continued
信賴區間的信賴界限是$431.65與$468.35。
4. 母體平均數可能超過 $431.65,但是少於 $468.35。
所以母體平均數可能是 $445。但不太可能是 $425。
因為 $445 落在這個區間內,而 $425 沒有落在這個
區間內。
9-37
選擇樣本大小

在此可以考慮下列三個因素,來決定樣
本的大小:
 信賴水準。
 研究者的最大容忍誤差。
 母體資料的變異程度。
9-38
估計母體平均數所需的樣本數量
其中 : n 是樣本數量
z 為在特定信賴水準下,標準常態分配的值
 是母體標準差的估計
E 為最大的容許誤差
9-39
範例
一位在政府機構打工的學生,想要計算議員
每月的平均薪資是多少,他估計的最大容忍誤
差是 $100,同時使用 95% 的信賴水準。這位
學生也發現勞工部門之前也作過一次類似的研
究,在該次的研究中,標準差是 $1,000。請問
本次研究所需要的樣本數是多少?
9-40
範例 continued
最大的容忍誤差 E 是 $100,95% 信賴水準相
對應的 z 值是 1.96,同時標準差的估計值是
$1,000。將這些值帶入公式 [9-5] 中計算:
計算結果是 384.16,經過無條件進位法處理
後是 385。所以在這次研究需要抽選 385 個樣
本。
9-41
範例 continued
如果這位學生想要增加信賴水準,例如 99%,
則必須增加樣本數。99% 信賴水準相對應的z
值是 2.58:
經過計算的樣本數為 666。我們也可以看到
當信賴水準改變時,樣本大小也會改變──當
信賴水準從 95% 提高到 99% 時,樣本數量也
增加了281 個。
9-42
估計母體比例所需的樣本大小

在進行母體比例的研究時,決定樣本數量的
因素也跟上述的因素相同。
其中,
p 為過去實驗的估計比例
z 為某特定信賴水準的 z 值
E 為可允許的最大誤差
9-43
範例
根據先前的範例,有位學生想要研究擁
有私立垃圾掩埋場的城市比例是多少,
其母體比例的最大容忍誤差是 0.1,信賴
水準是 90%,但是母體比例則無法取得
估計值。請問本次研究所需要的樣本數
量是多少?
9-44
範例 continued
母體比例最大的容忍誤差 E 是 0.1,信賴水
準90% 相對應的 z 值是 1.65,但因為沒有母
體比例的估計值,所以使用 0.5 來計算。建
議的樣本數量是:
因此,這位學生需要抽選 69 個城市為樣本。
9-45