Transcript 上課ppt

第七章 抽樣及抽樣分配
學習目標
1.
2.
3.
4.
5.
6.
學習為何樣本經常是唯一用來認識母體的途
徑。
學習如何抽取樣本。
學習樣本平均數之抽樣分配。
學習中央極限定理。
學習樣本比例之抽樣分配。
學習 t 分配。
本章架構
 1 抽樣
 2 抽樣方法
 3 統計量與抽樣分配
 4 樣本平均之抽樣分配
 5 樣本比例之抽樣分配
 6 t 分配
1. 抽樣理論及方法
 母體(Population )
在所欲研究之問題中,合於研究之元素其相關的測量
值及司能的數值所成之集合稱之為母體,而其部份
集合稱之為樣本。
母體中包含有限個元素稱之為有限母體。母體中包含
無限個元素稱之為無限母體。
 普查(Census )
普查乃是對母體中全部個體都逐一加以調查。
1. 抽樣理論及方法
 抽樣調查(Sampling survey)
抽樣調查乃是對所欲研究問題之母體中抽取其中一部分個
體,構成所謂之樣本,再利用此樣本之分析結果去推估母
體之一些特徵。
 估計誤差(error of estimation)
 抽樣誤差(sampling error):由隨機抽樣代替普查所
發生之不確定性。
 非抽樣誤差(nonsampling error):其他種種非因隨
機抽樣之不確定性所造成的誤差
 包括樣本選擇偏差(sample selection bias)、測量偏差
(response bias)以及自我選擇偏差(self-selection bias)。
1. 抽樣理論及方法 (續)

非抽樣誤差的來源
1.
樣本選擇偏差(sample selection bias)
由於抽樣方法的不正確所造成的 。
測量偏差(response bias)
包含了資料記錄錯誤、受訪者故意提供不實資
訊等。
3. 自我選擇偏差(self-selection bias)
包含了受訪者拒絕回答、或在 call-in 投票中,
投票者通常是有主動傾向且有強烈意見者 。
2.
普查與抽樣調查之優劣點
 普查之優劣點
優點
缺點
 受調查之資料及對象完整
 可取得較精確之資料
 沒有抽樣誤差
 所耗費之人力、財力、物力較多
 因調查人員多,故品質難以保證
 耗費時間久,更不具時效性
普查與抽樣調查之優劣點
 抽樣調查之優劣點
優點
缺點
 節省人力、財力、物力)
 縮短調查、整理及發表時間,故
具有時效性
 對樣本可作精細調查,提高品質)
 彌補非普查年資料受調查之資料
及對象完整
 需要較好之抽樣方法及技術
 抽樣誤差無法避免。
抽樣調查實例—電視收視率調查
 以國內的收視率調查公司來看,共分幾種不同的類型,
AC尼爾森公司以裝設people-meter來進行家戶收視調
查。潤利收視率調查公司所做的收視率調查則採用分
層隨機抽樣電話訪問的方式,與潤利相同的還有天和
水行銷顧問公司(僅作廣播收聽率調查)。此外,從
民國八十九年起,財團法人廣播電視事業發展基金也
加入收視率調查的準備工作,與日本的收視率調查公
司合作,先期以進行電視收視行為調查和廣播收聽行
為調查研究為主。
 以現有的收視率調查技術而言,其調查僅以量化的衡
量為原則,無法進行質的調查。若僅作為節目品質評
定的單一標準,在說服力上略顯不足,因為收視率調
查為一「點人頭式」的調查方式,可算出「有多少人
正在看」,但卻無法調查收視者對該節目的優劣評價,
因此,收視率高低與節目品質並無直接關係。
2 . 常見之抽樣方法
 簡單隨機抽樣(simple random sampling)
 分層隨機抽樣(stratified random sampling)
 部落抽樣(cluster sampling)
 系統抽樣(systematic sampling)
 非隨機抽樣(nonrandom sampling)
(1) 簡單隨機抽樣

定義
使得母體內所有可能抽出的樣本被抽出的機率均
相等,而由這種方法所抽出的樣本就稱為簡單隨
機樣本(simple random sample),或簡稱為隨機樣
本( random sample)。
 重要的統計特質
1. 不偏(unbiased)
母體內每一個體被抽到的機會均等。
2. 獨立(independence)
母體內某一個體被抽到與否不會影響其他個體
被抽到之機會。
簡單隨機抽樣(續)


優點:
1. 母體名冊完整時,樣本抽取方便,方法簡單 。
2. 估計式簡單(樣本機率為定值,甚至相等)。
缺點:
1. 完整母體名冊不易取得,或取得成本很大時實行困難 。
2. 當母體樣本單位過多時,抽樣作業相對上不便(如母
體名冊幾萬戶)。
3. 樣本分配分散,增加調查行政作業困難(如台灣地區
住戶580萬戶要抽18000戶)。
4. 當樣本單位差異大時,樣本代表性恐有不足(如估計所
得,抽到高所得或偏低所得) 。
簡單隨機抽樣實例
 某公司舉辦尾牙餐會,會中並有抽獎活動,為了獎勵員工這
一年來的辛勞,公司提供一部汽車及若干家電作為抽獎用,
與會的員工每人發給一張兩頭印有號碼的摸彩券(兩頭的號
碼相同,且一半為存根聯,一半為抽獎聯),撕下其中的抽
獎聯後投入摸彩箱中,然後由董事長將之攪拌均勻,依序請
公司各級主管抽出摸彩券,以決定家電與汽車的得獎人。這
就是簡單隨機抽樣。
抽樣方法實例—電腦輔助電話訪問系統
 近年來,國內的民意調查幾乎都採電話訪問方
式來進行。主要原因是電話在國內普及率已近
99%,幾乎家家都有電話,無法接受電話訪問
的民眾極少。電腦輔助電話訪問系統
(Computer Assisted Telephone Interviewing
System,簡稱CATIS) , 利用電腦儲存電話號
碼的母體清冊,利用電腦程式執行統計的隨機
取樣,架設問卷在電腦中,然後由電腦直接自
動撥號,訪員在線上直接鍵入訪問結果,再經
由電腦的監聽、看、錄系統,更有效的管理電
訪的執行,使民意調查在統計抽樣調查執行技
術上的可能缺失減到最低程度。
(2) 分層隨機抽樣(Stratified Random
Sampling)
 定義
將母體依母體內個體的某些特性分為若干沒有
交集的層(strata),務必使層內的差異小(又稱
為同質(homogeneity)),而層間的差異大(又
稱為異質(heterogeneity))。
母體內的每一個體均只屬於其中一層,再自每
層中抽取簡單隨機樣本,這些來自各層之簡單
隨機樣本即構成一分層隨機樣本(stratified
random sample)。
2. 分層隨機抽樣(續)
 比例分層隨機抽樣
(proportionate stratified random sampling)
在每一層中所抽取之隨機樣本數若按照每一層
中個體數在總母體中所佔比例決定。
 非比例分層隨機抽樣
(disproportionate stratified random sampling)
若各層所抽出之隨機樣本數不能反映出各層在
母體中所佔比例。
2. 分層隨機抽樣(續1)
分層隨機抽樣
第一層
第二層
第三層
母
體
樣本
…………
第K層
2 分層隨機抽樣(續2)


優點:
1. 樣本分配較均勻,可提高估計確度 。
2. 可以分別得各層訊息,並做比較分析。
3. 各層可視情形採取不同之抽樣方法。
4. 便於尋找樣本跳動之來源(如連續性調查每季每
月就業、失業、人力資源調查)。
5. 可在各層設立行政單位,以利調查方便。
限制:
1. 分層變數之選取(分層特性)需多加注意。
2. 分層不能有重疊現象。
3. 分層後樣本資料之整理與估計較簡單隨機抽樣複
雜。
分層抽樣實例
 交通部觀光局為瞭解週休二日制度實施後,對
國人國內旅遊的影響及改變,於87年首次辦理
『週休二日實施對國內旅遊的影響調查』,
以提供政府及旅遊相關業者參考之依據。
以各縣市之住宅電話號碼簿做為抽樣清冊,
即抽樣母體之來源。抽樣方式採分層抽樣法:
臺灣地區依北、中、南、東分為四層,各層依
照層內戶數占台灣省總戶數的比例分配樣本數;
層內各縣市再依照其戶數比例分配其樣本。預
計樣本數1,500人。以電話訪問調查,居住在
臺灣地區之家庭住戶內十二歲以上之國民,且
就讀學校或服務單位已實施週休二日或隔週休
二日者。<資料來源:行政院主計處>
(3) 部落抽樣
 定義
將母體分為若干沒有交集的部落,母體內的每
一個體均只屬於其中一部落,再自所有部落中
簡單隨機抽取若干部落樣本,並對這些簡單隨
機部落樣本作完整的普查。
不同於分層隨機抽樣,其要求部落內要異質。
理論上,每一個部落均可視為母體的縮小,最
常見的部落區分便是按照地域來區分。
部落抽樣(續)
 部落抽樣之優點
部落抽樣因調查範圍僅限於較小範圍的部落內,
因此也較節省人力時間與經費。
3. 部落抽樣(續1)
圖 部落抽樣
部落抽樣實例
 假設某公司想調查高雄市市民每月消費在甲產
品的支出,計畫在所有11個行政區中隨機抽出
4個行政區,然後再從被抽出的行政區中隨機
抽出一條路(街) (如遇街道跨區時,則僅調查
屬於該區的住戶),然後普查該條路(街)的所有
住戶。這就是部落抽樣。
分層與部落抽樣兩方法之差異為何?
分層抽樣
部落抽樣
 層內變異小,而層與層之
間變異大
 每層內至少有一個體被選
入樣本中
 每層內皆進行抽查
 此方法之目的在降低抽樣
偏差,提高精確度
群體內變異大,群體之間
變異小
在所有群體中,只有部份
群體被選為樣本
對被選中之群體,進行普
查
此方法之目的在降低抽樣
成本
(4) 系統抽樣
 系統抽樣之定義
將大小為N的母體內之個體隨機排序,再自前k個
個體中隨機抽取一個體作為第一個樣本,然後自
該個體起,每隔k個個體選取一個樣本,直到選滿
n個樣本為止。k值的決定
N
k
n
其中,n=樣本大小
N=母體大小
k=樣本選取間隔
4. 系統抽樣(續)
1. 當母體大小為無限時,k值大小則可依方便決
定之。
2. 系統抽樣的目的並不在降低抽樣誤差,而是純
粹為了方便及管理考量。
3. 當母體內個體排序出現某一週期性或規則時,
系統抽樣的使用就必須非常小心,不然,則很
容易增加抽樣誤差 。
系統抽樣實例
 某製造燈泡的工廠,計畫生產5000個燈泡,想
從中抽取50個樣本,以了解不良品的比例,若
採取系統抽樣,則依5000個燈泡生產的順序,
做為假想的編號,其次決定抽樣區間k,
k=5000/50 =100,然後從1至100中以簡單隨機
抽樣抽出一數,做為起始點,如抽出35,最後
只要每生產第100個燈泡,便將該燈泡抽出,
即生產順序為35,135,235,335,…,4935的燈泡,
就被抽出做為樣本。
(5) 非隨機抽樣
 非隨機抽樣(nonrandom sampling)
任何一種抽樣方法在自母體選取樣本的過程中
並不包括隨機選取者,均屬於非隨機抽樣。
 非隨機抽樣方法因非機率抽樣,所以也不適合
做統計分析與推論,抽樣誤差也無法客觀的計
算出來。一般在廣播電視常出現的叩應(callin)民調即屬非隨機抽樣的一種。
隨機抽樣與非隨機抽樣的比較
1.
2.
3.
4.
5.
6.
估計值的信賴度:機率抽樣可依統計理論求得樣本的估
計值、抽樣誤差和信賴區間。非機率抽樣的估計值則包
含難以衡量的偏差,無法客觀評估樣本估計值的正確性。
統計效率評估:機率抽樣可比較不同樣本設計的相對效
率,非機率抽樣則沒有客觀的統計方法比較。
母群體的情報:機率抽樣所需有關母群體的情報較少。
非機率抽樣,所需的情報較多。
經驗和技巧:機率抽樣的設計和執行比非機率抽樣需要
專業化的技巧和經驗。
時間:機率抽樣的設計和執行較繁雜,花費時間較長。
成本:機率抽樣的設計和執行為達到某些目的,費用較
多。
3. 統計量與抽樣分配
 母數(parameter)
由母體中計算出用來描述母體的數值測量結果。
 統計量(statistic)
由樣本中計算出用來描述樣本的數值測量結果。
 抽樣分配(sampling distribution)
在一母體中重複抽取固定大小的隨機樣本,由
該隨機樣本所計算出之統計量的所有可能結果
之機率分配, 稱為該統計量的抽樣分配。
例 1 考試平均成績
 假設某次統計學考試前五名高分的成績分別為
91、92、93、94及 95 分,若將這五名同學當
成一母體,則母體之平均成績為
 = (91+92+93+94+95)/6 = 93(分)
今若自該母體中隨機抽取兩名同學為樣本(n=2)
計算平均成績,則該平均成績之抽樣分配為何?
 解答:若自該母體中隨機抽取兩名同學為樣本
(n=2)計算平均成績,則所有可能抽出之成對
樣本及其平均成績見下表 。
例 1 考試平均成績(續)
表 2 所有可能樣本及樣本平均(n=2)
樣本
樣本平均( x )
樣本
樣本平均( x )
91, 92
91.5
92, 94
93
91, 93
92
92, 95
93.5
91, 94
92.5
93, 94
93.5
91, 95
93
93, 95
94
92, 93
92.5
94, 95
94.5
例 1 考試平均成績(續1)
樣本平均( x )
機率(f( x ))
91.5
0.1
92.0
0.1
92.5
0.2
93.0
0.2
93.5
0.2
94.0
0.1
94.5
0.1
E(x )  91.5 * 0.1  92 * 0.1  92.5 * 0.2  93 * 0.2
 93.5 * 0.2  94 * 0.1  94.5 * 0.1  93
例 1 考試平均成績(續2)
圖 樣本平均的抽樣分配圖(n = 1 和 2)
例 1 考試平均成績(續3)
 今若自該母體中隨機抽取三名同學為樣本(n=3)
計算平均成績,則該平均成績之抽樣分配又為
何?
解:
表 所有可能樣本及樣本平均(n = 3)
樣本
樣本平均(
x)
樣本
樣本平均( x )
91, 92, 93
92.00
91, 94, 95
93.33
91, 92, 94
92.33
92, 93, 94
93.00
91, 92, 95
92.67
92, 93, 95
93.33
91, 93, 94
92.67
92, 94, 95
93.67
91, 93, 95
93.00
93, 94, 95
94.00
例 1 考試平均成績(續4)
表 5 樣本平均的抽樣分配表(n = 3)
樣本平均(
x)
機率(f( x ))
92.00
0.1
92.33
0.1
92.67
0.2
93.00
0.2
93.33
0.2
93.67
0.1
94.00
0.1
例 1 考試平均成績(續5)
樣本平均的抽樣分配圖(n = 3)
4. 樣本平均之抽樣分配
 取出放回或無限母體
自一平均數為  與標準差為的母體中抽取一
大小為 n 之隨機樣本(X1, X2, …, Xn),樣本平
均之期望值與變異數如下
4 樣本平均之抽樣分配(續)
X 之期望值
X 之變異數
1 n

 X  E ( X ) E   X i 
 n i 1 
1
 E ( X 1 )  E ( X 2 )    E ( X n )
n
1
 (n )  
n
1 n

  Var ( X ) Var   X i 
 n i 1 
1
 2 Var ( X 1 )  Var ( X 2 )    Var ( X n )
n
1
2
2
 2 (n ) 
n
n
2
X
4. 樣本平均之抽樣分配(續1)
 在有限母體中採抽出後不放回
樣本平均之期望值與變異數如下
X 之期望值  X  
X 之變異數
2

Nn
2
X 

n N 1
Nn
N 1
其中,
為有限母體修正因子,一般認為,
當n 0 .05N時,上式中的修正因子即可省略
不用 。
4. 樣本平均數的抽樣分配(續1)
抽樣分配:
(1) 若採放回抽樣
E  X    ,V  X  

2
n
, x  V  X  

n
(2)若採不放回抽樣
N n 2
E  X    ,V  X  

N 1 n
41
例2 平均月薪之期望值與標準差
 假設高科公司有 1000 名員工,已知其平均月薪為
40,000 元,月薪標準差為 5,000 元,今若自該公
司中隨機抽取 25 名員工調查其月薪,該25 名員
工之平均月薪之期望值與標準差為若干?今若改
自該公司隨機抽取 100 名員工調查其月薪,則該
100 名員工之平均月薪之期望值與標準差為若干?
例2 平均月薪之期望值與標準差(續)
解:
25 名員工之平均月薪期望值為 40,000 元。因
n  0.05N (25  0.051,000),平均月薪之標準差為
x 
 5,000

 1,000 (元)
5
n
100名員工之平均月薪期望值仍為 40,000 元。但因n >
0.05N ,須用有限母體修正因子計算標準差
X 

N  n 5,000


N 1
10
n

1,000  100
 474.58
(元)
1,000  1
4. 樣本平均之抽樣分配(續2)
【定理一】 在常態母體 X ~ N (, 2)的假設下
樣本平均的抽樣分配
σ2
X ~ N(,
)
n
若母體分配為常態分配,則抽樣
分配必為常態分配。
45
例 3 銀行等待時間
 假設泛太銀行每位顧客等待服務的時間呈常態分
配,平均等待時間為 10 分鐘,標準差為 2 分鐘。
為作服務品質調查,隨機抽選 16 名顧客瞭解其等
待服務時間,問該 16 名顧客平均等待時間超過 11
分鐘的機率為何?
解:
令X為每位顧客等待服務時間,由題意知為常態分
配且 = 10 、  = 2
X ~ N(10 , 22)
例 3 銀行等待時間(續)
故  X    10 , X
即



n
2
 0.5
16
X ~ N(10, (0.5) 2 )
P(X  11)  P(
X μX
σX

11  μ X
σX
)
11  10
)
0.5
 PZ  2 
 P(Z 
 0.5  0.4772  0.0228
因此該16名顧客平均等待時間超過11分鐘的機率為2.28%。
例 3 銀行等待時間(續1)
圖 顧客平均等待時間超過 11 分鐘的機率(例 3)
4. 樣本平均之抽樣分配(續3)
【定理二】在常態母體 X ~ N (, 2)的假設下
樣本和的抽樣分配
 n

  X i    X 1  X 2    X n    X 1    X 2      X n   n
 i 1 
n
Var ( X i )  Var ( X 1  X 2    X n )  Var ( X 1 )  Var ( X 2 )  Var ( X n )  n 2
i 1
n
X
i 1
i
~ N ( n , n 2 )
例 4. 飲料會被退貨嗎?
 「喝好茶」盒裝飲料平均每盒重量為 500 克,
標準差為 10 克。今「每日」便利商店進了一
批「喝好茶」盒裝飲料並隨機抽取一箱(內含
20 盒)飲料進行重量檢驗,若該箱飲料重量
不足 9900 克,則整批飲料通通退貨。若該盒
裝飲料之重量呈常態分配,請問該批飲料會被
退貨的機率為何?
解:令 X 為「喝好茶」盒裝飲料每盒之重量而
得到
X ~ N (500,100)
例 4 飲料會被退貨嗎?(續)
故
20
20
 X i ~ N(20  500,
20  100)
i 1
20
20
 Xi
 X i ~ N(10000,2000)
,
i 1
 10000
P ( X i  9900)  P ( i 1
i 1
2000
 P ( Z  2.24)

9900  10000
)
2000
 P ( Z  2.24)
 0.5  0.4875  0.0125
因此該批飲料會被「每日」便利商店退貨的可能性為
1.25%。
例4 飲料會被退貨嗎?(續1)
圖 整箱飲料不足 9900 克重的機率(例4)
樣本平均數抽樣分配的共通性質
 所謂共通性質,係指
分配的性質,是在
任何型態(不限型態)母體分配下都成立的。
 對抽樣分配而言,其標準差為標準誤。
x 
X

n
53
x 

n
 由標準誤公式可知:
1. x 與 成正比,表示母體分配的分散度直
接影響 X 分配的分散度。
2.  x 與
成反比,表示當樣本次數增大時,
分配的分散度會隨之減少。

n
較大的樣本次數,提高推論的可靠性。
54
樣本平均數抽樣分配的共通性質
 大數法則:不限母體分配型態為何,當
樣本次數增大時,樣本平均數 X n 與母體
分配之平均數 μ 會逐漸接近。
 中央極限定理(central limit theorem) :
 無論母體分配為何,自平均數為 、標準差
為 的母體中抽取 n 個隨機樣本,當 n  
(在實務上, n  30 即可適用)時,則樣本平
均數 X 的抽樣分配會趨近於常態分配。
55
56
4. 樣本平均數之抽樣分配(續4)
 中央極限定理 (central limit theorem)
 無限母體樣本平均數的抽樣分配
σ2
X ~ N(n,
)
n
 有限母體抽出後不放回
σ2 Nn
X ~ N(,

)
n N 1
4. 樣本平均之抽樣分配(續5)
 中央極限定理亦適用於樣本和的抽樣分配
 無限母體
n
2
X
~
N
(
n

,
nσ
)
 i
i 1
 有限母體抽出後不放回
n
 X i ~ N(n,
i 1
nσ
2

Nn
)
N 1
4. 樣本平均之抽樣分配(續5)
圖 不同母體分配下,不同樣本大小樣本平均之抽樣分配
均勻分配
指數分配
例 5 年終獎金與減薪
 假設某產品推銷員平均每天賣出 1000 件產品,
每天賣出產品數之標準差為 100 件。今公司於
年終欲瞭解該銷售員之銷售業績,遂隨機選取
了 100 天的銷售業績來檢驗,若該 100 天的平
均銷售數量超過 1025 件,則發給該銷售員年
終獎金;若該 100 天的平均銷售數量不足 985
件,則要扣減其薪資。問該銷售員既得不到獎
金亦沒有受到減薪懲罰之機率為何?
例 5 年終獎金與減薪(續)
解:
令X為該銷售員之每天銷售產品數量,雖然X
之分配未知,因為樣本夠大(n= 100 > 30),
所以該銷售員任 100 天的平均銷售數量之抽樣
分配近似常態分配 ,故
 X    1000
X 

100

 10
n
100
X ~ N (1000, 100)
今欲求該銷售員既得不到獎金亦沒有受到減薪
懲罰之機率,即為
例 5 年終獎金與減薪(續1)
P(985  X  1025)  P(
985  1000

X  1000

1025  1000
100
100
 P(1.5  Z  2.5)
)
100
 P(0  Z  1.5)  P(0  Z  2.5)
 0.4332  0.4938  0.927
因此該銷售員年終收入沒有任何新的變化之機
率為 0.927。
例 5 年終獎金與減薪(續2)
圖 平均銷售數量介於 985 與 1025 件之機率(例 5)
Z
-1.5
0
2.5
X
985
1000
1025
例 6 接力賽破紀錄
 假設某大專院校全體學生參加 100 公尺賽跑的
平均時間為 15 秒,標準差為 3 秒。今學校隨
機抽選 36 位同學參加大專運動會之 3600 公尺
接力賽跑,若 3600 公尺接力賽跑之大會紀錄
為 8 分鐘整,試問該 36 位同學破紀錄之機率
為何?
例 6 接力賽破紀錄(續)
解:
令X1, X2, …, X36為該校隨機抽選之 36 位同學
各跑 100 公尺所花時間,因學生人數夠多(n=
36>30)
36
2
X
~
N
(
36

15
,
36

3
)
 i
i 1
36
 X i ~ N(540,324)
i 1
該 36 位同學跑出的成績是低於8分鐘(或 480
秒)之機率為
例 6 接力賽破紀錄(續1)
36
36
 X i  540
P( X i  480)  P( i 1
i 1
324
 P( Z  3.33)

480  540
)
324
 0.5  0.4996  0.0004
因此,若自該校中隨機抽取 36 位同學參加
3600公尺 接力賽跑,其成績破大會紀錄之機
率為 0.04%。
例 6 接力賽破紀錄(續2)
圖 接力賽跑破紀錄之機率(例 6)
Z
-3.33
0
480
540
X
4 樣本平均之抽樣分配(續6)
 結論
1. 母體是常態分配,則樣本平均的抽樣分配亦是
常態分配。
2. 母體不是常態分配,則在樣本夠大時,樣本平
均的抽樣分配會近似常態分配。
3. 樣本平均的期望值等於母體平均數 。
1
4. 樣本平均的標準差比母體標準差小
倍。
n
5. 樣本比例之抽樣分配
 樣本比例(Sample Proportion)
pˆ  X / n
其中X: 樣本中某特定類別族群之發生次數
n: 樣本大小
5. 樣本比例 之抽樣分配(續)
 樣本比例之平均數與變異數
 無限母體
X E ( X ) np
 pˆ  E ( ) 
 p
n
n
n
X
np(1  p) p(1  p)
 p2ˆ  Var ( pˆ )  Var ( ) 

2
n
n
n
 有限母體且母體大小(N)與樣本大小(n)的
比例關係n/N為> 0.05 情況下,
X E ( X ) np
 pˆ  E ( ) 
 p
n
n
n
p (1  p ) N  n
  Var ( pˆ ) 

n
N 1
2
pˆ
5. 樣本比例之抽樣分配(續1)
 自一成功機率為 p 的二項分配抽取 n 之隨機樣

本,在大樣本(np
 5 且 n (1-p) ≦ 5)的情
況下,樣本比例 ( p̂  X )的抽樣分配近似為
n
 無限母體或有限母體大小N滿足
p (1  p )
pˆ ~ N ( p,
)
n
 有限母體大小N滿足
n
 0.05
N
p (1  p ) N  n
pˆ ~ N ( p,

)
n
N 1
n
 0.05
N
例 7 保單之續保率
 某保險公司宣稱其保單每年之續保率為 85%,
遠高於全國所有保險公司之總續保率。假設全
國的續保率為 80%,並且該保險公司之宣稱正
確,今自該公司去年之保單中隨機抽取 100 份
檢查是否在今年又續保,問這 100 份隨機抽取
之保單之續保率高於全國之機率為何?
例 7 保單之續保率(續)
解:
令p為該公司保單之續保率,n為樣本大小,由題意
知, p= 0.85且n= 100。因np = (100)(0.85) = 85 >5
且n(1-p)= (100)(0.15) = 15 > 5,根據中央極限定理,
該100 份隨機保單之續保率的抽樣分配近似常態分
配
0.85  0.15
p̂ ~ N(0.85,
)
100
例 7 保單之續保率(續1)
 p̂ 
0.85  0.15
 0.0357
100
p̂  0.85 0.8  0.85
P(p̂  0.8)  P(

)
0.0357
0.0357
 P( Z  1.40)
 0.5  0.4192  0.9192
因此在續保率為 85% 之保險公司中隨機抽取
100 份保單,而此 100 份保單之續保率高於全
國續保率 80% 之機率為 0.9192。
例 7 保單之續保率(續2)
圖 樣本保單續保率超過全國平均的機率(例 7)
X
-1.4
0
.80
.85
p
6. 兩樣本平均數差的抽樣分配
假設有兩個獨立母體,分別具有平均數為1,2,
標準差為1,2,隨機抽出 n1,n2個樣本,則兩樣本
平均數差 X  Y 的抽樣分配為何呢?
不管來自常態母體或是來自非常態母體之大樣本,
則

 12  22 

( X  Y )  N  1   2 ,

n1 n2 

或
Z =
( X  Y )  ( 1   2 )
 12
n1

 22
n2
 N(0, 1)
例 8 兩條獨立之生產線
 假設有兩條獨立之生產線,已知兩生產線產品之平
均重量分別為6.5公克及6公克,標準差分別為0.9公
克及0.8公克,今隨機由兩生產線分別抽出36件及49
件產品為樣本。請問第一組樣本平均數大於或等於
第二組樣本平均數1公克之機率為何?
例 8 兩條獨立之生產線 (續)
解:
令 X  Y 分別表兩組樣本之平均重量
0.81
0.64
X ~ N (6.5,
)
Y ~ N (6,
)
36
49
0.81 0.64
X  Y ~ N (6.5  6,

)
36
49
P( X  Y  1)  P( Z 
1  (6.5  6)
0.81 0.64

36
49
 P( Z  2.65)  1  P( Z  2.65)
 1  0.9960  0.004
)
∴第一組樣本平均數大於或等於第二
組樣本平均數1公克之機率為0.004
7.兩樣本比例差的抽樣分配
設從兩個獨立二項母體 X~B(n1, p1),and Y~B(n2, p2) ,
當 n1,n2 夠大時,( 通常,n1 p1  5,n1(1 - p1)  5,
and n2 p2  5, n2 (1  p2)  5),依 C L T,
可知兩樣本比例差 Pˆ1  Pˆ2  X  Y 的抽樣分配為
近似於常態分配,
則
或
n1
n2

p1 (1  p1 ) p2 (1  p2 ) 
ˆ
ˆ


N
p

p
,

P1  P2   1 2
n1
n2


Z=
( Pˆ1  Pˆ2 )  ( p1  p2 )
 N (0, 1)
p1 (1  p1 ) p2 (1  p2 )

n1
n2
【練習3】
一個在全省各地開了三千家分店的大企業,想
要抽樣估計去年每家分店發生物品損壞的平均
損失金額。假設母體平均數   1630 元,而母
體標準差   400 元,試求
(a)倘若抽取n=100家分店當成隨機樣本,則樣本平均
數與母體平均數之差在60元以內的機率是多少?
(b)倘若將抽取的分店家數增加到n=256家,則樣本平均
數與母體平均數之差在60元以內的機率又是多少?
解:
由題意可以得知,母體平均數   1630與標準差   400
分別為與,令 X 代表該企業的去年的損失金額,則
X~N(1630 ,400 )。
(a) 由於母體總數N=3000,而樣本數n=100,這兩者的比例相當小,
因此在求 時,可以將有限母體校正因子省略不計,因此我們
可以求得  X
X 

n

400
100
 40
由此可知,樣本平均數 X 的抽樣分配為X ~N(1630,40 2 ),而所欲
求的機率為:


 60
X 
60 


 X    60    60  X    60      
40
40 
 40
   1.5    1.5     1.5     1.5
 0.9332  0.0668  0.8664
由以上的結果,我們有約 87%的信心,
斷定的誤差不會超過60元
(b) 倘若將樣本數增加到n=256時,其 X 依然等於
母體平均數 ,而樣本平均數 X 的標準差則為
X 

n

400
256
 25
此時樣本平均數 X 的抽樣分配為 樣本數增加到256家時,
估計誤差不超過60元
X ~ N (1630,25 2 )
的機率增加到了98%
所欲求的 機率為:
 X    60   60  X    60
 60 X   60 


  

 
25
25 
 25
  2.4    2.4
   2.4    2.4
 0.9918  0.0082  0.9836
結論:當樣本數愈大時,估
計值將愈精確,其樣本平均
數 愈趨近於母體的平均數。
【練習4】
在上次的選舉,一位州代表得到52% 的選票。
在選後的一年這位代表發起一個調查,詢問300
位民眾的隨機樣本,在下次的選舉中他們是否還
會投給他。
如果我們假設他受歡迎的程度沒有改變,則此樣
本中會有一半以上的民眾投票給他的機率為何?
將會投給這位代表的受訪者人數是一具有n =
300 與 p = .52 的二項隨機變數。
X ~ Bin (300,0.52)
我們想要決定樣本比例大於50% 的機率。也就是,
我們要找出
P(P̂  .50)
我們現在知道樣本比例 P̂ 是服從近似的常態分配,
有平均數p = .52與標準差 p(1  p) / n  (.52 )(1  .52 ) / 300
= .0288。
Pˆ ~ N (0.52,0.0288 2 )
Pˆ ~ N (0.52,0.0288 2 )
因此,
結論: 如果我們假設支持度維持在52%,則在
300位民眾的樣本中,超過半數會投票給此位
代表的機率是.7549。
【練習5】
假設 (WLU) MBA 畢業生與 (UWO) MBA 畢業生的起薪是
常態分配,且具有平均數與標準差。如果WLU 以及UWO
的MBA 畢業生的隨機樣本分別被選出,如下所示……
WLU
UWO
平均數
62,000 $/年
60,000 $/年
標準差
14,500 $/年
18,300 $/年
50
60
樣本大小
n
求WLU 畢業生的樣本平均起薪超過UWO 畢業生的樣本平均
起薪的機率為何?
我們想要決定 P( X 1  X 2 )  P( X 1  X 2  0)
我們知道
X1  X 2
是常態分配

 12  22 

( X 1  X 2 )  N  1   2 ,

n1
n2 

E ( X 1  X 2 )  1   2  62,000  60,000  2,000
X
1X2

 12
n1

 22
n2

14500 2 18300 2

 3,128
50
60

 ( X 1  X 2 )  N 2,000 , 3,128 2


 ( X 1  X 2 )  N 2,000 , 3,128 2

我們可以將此項變數標準化:
P ( X 1  X 2 )  P ( X 1  X 2  0)
 P(
Z
( X 1  X 2 )  ( 1   2 )
 12
n1
 P ( Z  0.64)
 0.5  0.2389
 0.7389

 22
0  2000

)
3128
n2
結論: 對於50 位從WLU 畢業生與60 位UWO 畢業生的樣本而
言,WLU 的樣本平均起薪超過 UWO 的樣本平均起薪的
機率是.7389
8. 與常態分配有關之三種抽樣分配
• 學生 t 分配(Student t distribution)
• 卡方分配(chi-squared distribution)
• F 分配(F distribution)
(1) 學生t 分配
使用字母 t 代表隨機變數[Gosset以筆名「學生」發表他
的發現,並且使用字母 t 代表隨機變數,又被稱為學生
的 t 分配(Student’s t distribution) ]。
學生 t 分配的密度函數如下:
(  1) / 2  t 
f t  
1  
 ( / 2)   
2
 ( 1) / 2
ν (希臘字母nu) 被稱為自由度(degrees of freedom),
π 等於3.14159,
Γ 是gamma函數,Γ(k)=(k-1)(k-2)…(2)(1)
(1) 學生t 分配
這個分配與標準常態分配是類似的。學生 t 分配
為山形(mound shaped)以及對稱於0 (兩隨機變數
的平均數皆為0)
。
 一個學生 t 隨機變數的平均數與變異數是:
以及
E(t) = 0

Var t  
對  2
 2
學生t 分配
如同µ 與 σ 解釋常態分配, ν (自由度數值) 解釋學生 t
分配:
當 ν 越大,學生 t 分配越接近標準常態分配。
學生t 分配的性質
(1) 期望值 E(t) = 0
(2) 變異數 Vart   
 2
對  2
(3) E(t)=0得 t 分配為對稱分配,
(4) 當   (實務上   30 ),t 分配以
標準常態分配為極限。
93
學生t 分配之性質
5. 【定理】 (重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一
具有常態母體N (, 2)之隨機樣本,若
X 1  X 2  ...  X n
X
n
( X 1  X ) 2  ( X 2  X ) 2  ...  ( X n  X ) 2
S 
n 1
2
X 與 S 2 互相獨立,
則
X 
~ t (n  1)
S
n
決定學生 t 的數值
學生 t 分配廣泛應用於統計推論。表三 列出tA,ν
的數值。
它們是具有自由度 ν 且滿足下列關係式的學生 t
隨機變數的數值
P(t  t A, )  A
A 值是預定的“關鍵的”
數值,具代表性的數值在
0.100, 0.050, 0.025, 0.010 and 0.005 範圍之內。
用 t 表 (表三) 求值…
例如,要找自由度為10,並且使得在它左邊
的面積為.05 的t 值是:
面積 (tA) : 行
t.05,10
t.05,10=1.812
自由度 : 列
8.96
(2)卡方分配
卡方密度函數是:
 
f 
2
1
1
2 ( / 2 ) 1   2 / 2
2

(

)
e

0
 /2
( / 2) 2
參數ν是自由度的數值。
 
Var    2
E  2 
2
(2)卡方分配
注意:
卡方分配
是不對稱的。
平方,如 ,影響不對稱的值(如:發現
P(
< 0) 是不合邏輯的)。
附錄B的表四 讓我們很容易的查看這類的機率,
如:
P( >
) = A:
(2) 卡方分配
這個類型的可能性:
我們用1–A, 如:我們決定
P(
<
)=A
範例: 求

2
0.0 5, 8
代表意義為:
要找出在自由度為8的卡方分配上的一個點,其
右邊面積為.05
找出在列上自由度8與欄位中
我們得到數值15.5
的交叉點,
範例: 求

2
0.9 5, 8
代表意義為:
要找出在自由度為8的卡方分配上的一個點,
其左邊面積為.05
找出在列上自由度8與欄位中
我們得到數值2.73
的交叉點,
範例
因此,下列是有意義 (合理)的:
=15.5
=2.73
記得
的開始,零與增加!
卡方 χ2 分配之性質
2
2
X
~

(
X
~

( 1 ) , 2
1. (加法性) 1
相獨立,則
2)
,且 X 1 與 X 2 互
X 1  X 2 ~  2 (1  2 )。
2. 若 Z  X   ~ N (0,1) ,則 Z 2  ( X   ) ~  2 (1)。


3. 【定理】(重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一
具有常態母體N (, 2)之隨機樣本,若
Xn   2
X1   2 X 2   2 X 3   2
Y (
) (
) (
) .....  (
)




則 Y 為具有自由度n的χ2分配
2
i.e. Y ~  ( n )
卡方 χ2 分配之性質:
4. 【定理】 (重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一
具有常態母體N (, 2)之隨機樣本,若
X 1  X 2  ...  X n
X
n
( X 1  X ) 2  ( X 2  X ) 2  ...  ( X n  X ) 2
S 
n 1
2
X 與 S 2 互相獨立,
則
(n  1) S 2
2
~  2 ( n 1)
卡方 χ2 分配之用途
單一母體之母體變異數 σ 2 之估計與檢
定。
無參數統計中一些檢定方法如,適合
度檢定、獨立性檢定、齊一性檢定等。

例9
 由常態母體N (μ , 6 ) 抽出一組樣本數為25的隨機
樣本,問
2
(1) 樣本變異數S2會超過9.1的機率為多少?
(n  1) S (25  1)  9.1
(1) P( S  9.1)  P(

)
2
6

2
 P(  n1  36.4)
2
 P(  24  36.4)
 0.05
2
2
例9
 由常態母體N (μ , 6 ) 抽出一組樣本數為25的隨機
樣本,問
2
(2) S2會介於3.462與10.745之間的機率為多少?
(2) P(3.462  S 2  10.745)
(25  1)  3.462 (n  1) S 2 (25  1)  9.1
 P(


)
2
6
6

 P(13.848   242  42.98)
 0.95  0.01
 0.94
(3) F 分配
 F 分配(F distribution) 的密度函數如下所列:
 1  2
f F  
(
1
(
2
2
)
2
) (
2
)

( 1)
2
1
2
1 2
F
2
 1F
(1 
)
2
 1  2
F0
2
其中F 的範圍從0 到∞,並且ν1 與ν2 是分配的
參數被稱為自由度。
為分子自由度(numerator d.f.)
為分母自由度(denominator d.f.)
F 分配
 F分配隨機變數的平均數與變異數為:
E(F ) 
2
2 2
,  2 2
2 2 ( 1   2  2)
Var ( F ) 
, 2  4
2
 1 ( 2  2) ( 2  4)
2
 F分配隨機變數像卡方隨機變數一樣只能為
正數。
F 分配的圖形
範例: 求F 0.05,3,7 的數值
代表意義為:
在右邊曲線尾端之下的面積為0.05,分子自由度3與分母
自由度7的 F值
解: 使用F 查 (表五)
不同的表有不同的A值。
確認你使用正確的表!!
F.05,3,7
分母自由度: 列
分子自由度 : 行
F.05,3,7 =4.35
F 分配 的性質
1. 若
12
與
 22
互相獨立 ,
且 12 ~  2 ( ) , 22 ~  2 ( ),則
2
1
 / 1
F 
~ F ( 1 , 2 )
 / 2
2
1
2
2
稱為自由度為ν1 與ν2之F分配
114
F 分配 的性質
2 . 在左邊曲線之下的面積,我們可以使用槓
桿原理來平衡下列關係:
F1 , 1, 2 
1
F , 2 , 1
請密切注意各項目的順序!
範例: 求F 0.95,3,7 的數值
代表意義為:
在右邊曲線尾端之下的面積為0.95,分子自由度3與分母
自由度7的 F值
查表F
=8.89
.05,7,3
解: 使用F 查 (表五)
F.95,3,7
F0.95,31,7 
1
F0.05, 7 ,3
1

 0.1125
8.89
分母自由度: 列
分子自由度 : 行
F 分配 的性質
3 . 設(X1,X2,. . . . ,Xn1)與(Y1,Y2,. … ,Yn2)
為分別由常態母體N (1, 12) 與N (2, 22)抽出之
二組獨立之隨機樣本,
( n1  1) S12

2
1
(n 2  1) S
 22
(n1  1)
2
2
(n 2  1)
 n2 1
1


2
n2 1
(n1  1)
~ F ( n1  1, n 2  1)
( n2  1)
S12

S
2
2
 12
 22
~ F (n1  1, n 2  1)
F分配之用途
(1) 檢定二母體變異數12及22是否相等。
(2) 變異數分析之檢定。