Transcript 上課ppt
第七章 抽樣及抽樣分配
學習目標
1.
2.
3.
4.
5.
6.
學習為何樣本經常是唯一用來認識母體的途
徑。
學習如何抽取樣本。
學習樣本平均數之抽樣分配。
學習中央極限定理。
學習樣本比例之抽樣分配。
學習 t 分配。
本章架構
1 抽樣
2 抽樣方法
3 統計量與抽樣分配
4 樣本平均之抽樣分配
5 樣本比例之抽樣分配
6 t 分配
1. 抽樣理論及方法
母體(Population )
在所欲研究之問題中,合於研究之元素其相關的測量
值及司能的數值所成之集合稱之為母體,而其部份
集合稱之為樣本。
母體中包含有限個元素稱之為有限母體。母體中包含
無限個元素稱之為無限母體。
普查(Census )
普查乃是對母體中全部個體都逐一加以調查。
1. 抽樣理論及方法
抽樣調查(Sampling survey)
抽樣調查乃是對所欲研究問題之母體中抽取其中一部分個
體,構成所謂之樣本,再利用此樣本之分析結果去推估母
體之一些特徵。
估計誤差(error of estimation)
抽樣誤差(sampling error):由隨機抽樣代替普查所
發生之不確定性。
非抽樣誤差(nonsampling error):其他種種非因隨
機抽樣之不確定性所造成的誤差
包括樣本選擇偏差(sample selection bias)、測量偏差
(response bias)以及自我選擇偏差(self-selection bias)。
1. 抽樣理論及方法 (續)
非抽樣誤差的來源
1.
樣本選擇偏差(sample selection bias)
由於抽樣方法的不正確所造成的 。
測量偏差(response bias)
包含了資料記錄錯誤、受訪者故意提供不實資
訊等。
3. 自我選擇偏差(self-selection bias)
包含了受訪者拒絕回答、或在 call-in 投票中,
投票者通常是有主動傾向且有強烈意見者 。
2.
普查與抽樣調查之優劣點
普查之優劣點
優點
缺點
受調查之資料及對象完整
可取得較精確之資料
沒有抽樣誤差
所耗費之人力、財力、物力較多
因調查人員多,故品質難以保證
耗費時間久,更不具時效性
普查與抽樣調查之優劣點
抽樣調查之優劣點
優點
缺點
節省人力、財力、物力)
縮短調查、整理及發表時間,故
具有時效性
對樣本可作精細調查,提高品質)
彌補非普查年資料受調查之資料
及對象完整
需要較好之抽樣方法及技術
抽樣誤差無法避免。
抽樣調查實例—電視收視率調查
以國內的收視率調查公司來看,共分幾種不同的類型,
AC尼爾森公司以裝設people-meter來進行家戶收視調
查。潤利收視率調查公司所做的收視率調查則採用分
層隨機抽樣電話訪問的方式,與潤利相同的還有天和
水行銷顧問公司(僅作廣播收聽率調查)。此外,從
民國八十九年起,財團法人廣播電視事業發展基金也
加入收視率調查的準備工作,與日本的收視率調查公
司合作,先期以進行電視收視行為調查和廣播收聽行
為調查研究為主。
以現有的收視率調查技術而言,其調查僅以量化的衡
量為原則,無法進行質的調查。若僅作為節目品質評
定的單一標準,在說服力上略顯不足,因為收視率調
查為一「點人頭式」的調查方式,可算出「有多少人
正在看」,但卻無法調查收視者對該節目的優劣評價,
因此,收視率高低與節目品質並無直接關係。
2 . 常見之抽樣方法
簡單隨機抽樣(simple random sampling)
分層隨機抽樣(stratified random sampling)
部落抽樣(cluster sampling)
系統抽樣(systematic sampling)
非隨機抽樣(nonrandom sampling)
(1) 簡單隨機抽樣
定義
使得母體內所有可能抽出的樣本被抽出的機率均
相等,而由這種方法所抽出的樣本就稱為簡單隨
機樣本(simple random sample),或簡稱為隨機樣
本( random sample)。
重要的統計特質
1. 不偏(unbiased)
母體內每一個體被抽到的機會均等。
2. 獨立(independence)
母體內某一個體被抽到與否不會影響其他個體
被抽到之機會。
簡單隨機抽樣(續)
優點:
1. 母體名冊完整時,樣本抽取方便,方法簡單 。
2. 估計式簡單(樣本機率為定值,甚至相等)。
缺點:
1. 完整母體名冊不易取得,或取得成本很大時實行困難 。
2. 當母體樣本單位過多時,抽樣作業相對上不便(如母
體名冊幾萬戶)。
3. 樣本分配分散,增加調查行政作業困難(如台灣地區
住戶580萬戶要抽18000戶)。
4. 當樣本單位差異大時,樣本代表性恐有不足(如估計所
得,抽到高所得或偏低所得) 。
簡單隨機抽樣實例
某公司舉辦尾牙餐會,會中並有抽獎活動,為了獎勵員工這
一年來的辛勞,公司提供一部汽車及若干家電作為抽獎用,
與會的員工每人發給一張兩頭印有號碼的摸彩券(兩頭的號
碼相同,且一半為存根聯,一半為抽獎聯),撕下其中的抽
獎聯後投入摸彩箱中,然後由董事長將之攪拌均勻,依序請
公司各級主管抽出摸彩券,以決定家電與汽車的得獎人。這
就是簡單隨機抽樣。
抽樣方法實例—電腦輔助電話訪問系統
近年來,國內的民意調查幾乎都採電話訪問方
式來進行。主要原因是電話在國內普及率已近
99%,幾乎家家都有電話,無法接受電話訪問
的民眾極少。電腦輔助電話訪問系統
(Computer Assisted Telephone Interviewing
System,簡稱CATIS) , 利用電腦儲存電話號
碼的母體清冊,利用電腦程式執行統計的隨機
取樣,架設問卷在電腦中,然後由電腦直接自
動撥號,訪員在線上直接鍵入訪問結果,再經
由電腦的監聽、看、錄系統,更有效的管理電
訪的執行,使民意調查在統計抽樣調查執行技
術上的可能缺失減到最低程度。
(2) 分層隨機抽樣(Stratified Random
Sampling)
定義
將母體依母體內個體的某些特性分為若干沒有
交集的層(strata),務必使層內的差異小(又稱
為同質(homogeneity)),而層間的差異大(又
稱為異質(heterogeneity))。
母體內的每一個體均只屬於其中一層,再自每
層中抽取簡單隨機樣本,這些來自各層之簡單
隨機樣本即構成一分層隨機樣本(stratified
random sample)。
2. 分層隨機抽樣(續)
比例分層隨機抽樣
(proportionate stratified random sampling)
在每一層中所抽取之隨機樣本數若按照每一層
中個體數在總母體中所佔比例決定。
非比例分層隨機抽樣
(disproportionate stratified random sampling)
若各層所抽出之隨機樣本數不能反映出各層在
母體中所佔比例。
2. 分層隨機抽樣(續1)
分層隨機抽樣
第一層
第二層
第三層
母
體
樣本
…………
第K層
2 分層隨機抽樣(續2)
優點:
1. 樣本分配較均勻,可提高估計確度 。
2. 可以分別得各層訊息,並做比較分析。
3. 各層可視情形採取不同之抽樣方法。
4. 便於尋找樣本跳動之來源(如連續性調查每季每
月就業、失業、人力資源調查)。
5. 可在各層設立行政單位,以利調查方便。
限制:
1. 分層變數之選取(分層特性)需多加注意。
2. 分層不能有重疊現象。
3. 分層後樣本資料之整理與估計較簡單隨機抽樣複
雜。
分層抽樣實例
交通部觀光局為瞭解週休二日制度實施後,對
國人國內旅遊的影響及改變,於87年首次辦理
『週休二日實施對國內旅遊的影響調查』,
以提供政府及旅遊相關業者參考之依據。
以各縣市之住宅電話號碼簿做為抽樣清冊,
即抽樣母體之來源。抽樣方式採分層抽樣法:
臺灣地區依北、中、南、東分為四層,各層依
照層內戶數占台灣省總戶數的比例分配樣本數;
層內各縣市再依照其戶數比例分配其樣本。預
計樣本數1,500人。以電話訪問調查,居住在
臺灣地區之家庭住戶內十二歲以上之國民,且
就讀學校或服務單位已實施週休二日或隔週休
二日者。<資料來源:行政院主計處>
(3) 部落抽樣
定義
將母體分為若干沒有交集的部落,母體內的每
一個體均只屬於其中一部落,再自所有部落中
簡單隨機抽取若干部落樣本,並對這些簡單隨
機部落樣本作完整的普查。
不同於分層隨機抽樣,其要求部落內要異質。
理論上,每一個部落均可視為母體的縮小,最
常見的部落區分便是按照地域來區分。
部落抽樣(續)
部落抽樣之優點
部落抽樣因調查範圍僅限於較小範圍的部落內,
因此也較節省人力時間與經費。
3. 部落抽樣(續1)
圖 部落抽樣
部落抽樣實例
假設某公司想調查高雄市市民每月消費在甲產
品的支出,計畫在所有11個行政區中隨機抽出
4個行政區,然後再從被抽出的行政區中隨機
抽出一條路(街) (如遇街道跨區時,則僅調查
屬於該區的住戶),然後普查該條路(街)的所有
住戶。這就是部落抽樣。
分層與部落抽樣兩方法之差異為何?
分層抽樣
部落抽樣
層內變異小,而層與層之
間變異大
每層內至少有一個體被選
入樣本中
每層內皆進行抽查
此方法之目的在降低抽樣
偏差,提高精確度
群體內變異大,群體之間
變異小
在所有群體中,只有部份
群體被選為樣本
對被選中之群體,進行普
查
此方法之目的在降低抽樣
成本
(4) 系統抽樣
系統抽樣之定義
將大小為N的母體內之個體隨機排序,再自前k個
個體中隨機抽取一個體作為第一個樣本,然後自
該個體起,每隔k個個體選取一個樣本,直到選滿
n個樣本為止。k值的決定
N
k
n
其中,n=樣本大小
N=母體大小
k=樣本選取間隔
4. 系統抽樣(續)
1. 當母體大小為無限時,k值大小則可依方便決
定之。
2. 系統抽樣的目的並不在降低抽樣誤差,而是純
粹為了方便及管理考量。
3. 當母體內個體排序出現某一週期性或規則時,
系統抽樣的使用就必須非常小心,不然,則很
容易增加抽樣誤差 。
系統抽樣實例
某製造燈泡的工廠,計畫生產5000個燈泡,想
從中抽取50個樣本,以了解不良品的比例,若
採取系統抽樣,則依5000個燈泡生產的順序,
做為假想的編號,其次決定抽樣區間k,
k=5000/50 =100,然後從1至100中以簡單隨機
抽樣抽出一數,做為起始點,如抽出35,最後
只要每生產第100個燈泡,便將該燈泡抽出,
即生產順序為35,135,235,335,…,4935的燈泡,
就被抽出做為樣本。
(5) 非隨機抽樣
非隨機抽樣(nonrandom sampling)
任何一種抽樣方法在自母體選取樣本的過程中
並不包括隨機選取者,均屬於非隨機抽樣。
非隨機抽樣方法因非機率抽樣,所以也不適合
做統計分析與推論,抽樣誤差也無法客觀的計
算出來。一般在廣播電視常出現的叩應(callin)民調即屬非隨機抽樣的一種。
隨機抽樣與非隨機抽樣的比較
1.
2.
3.
4.
5.
6.
估計值的信賴度:機率抽樣可依統計理論求得樣本的估
計值、抽樣誤差和信賴區間。非機率抽樣的估計值則包
含難以衡量的偏差,無法客觀評估樣本估計值的正確性。
統計效率評估:機率抽樣可比較不同樣本設計的相對效
率,非機率抽樣則沒有客觀的統計方法比較。
母群體的情報:機率抽樣所需有關母群體的情報較少。
非機率抽樣,所需的情報較多。
經驗和技巧:機率抽樣的設計和執行比非機率抽樣需要
專業化的技巧和經驗。
時間:機率抽樣的設計和執行較繁雜,花費時間較長。
成本:機率抽樣的設計和執行為達到某些目的,費用較
多。
3. 統計量與抽樣分配
母數(parameter)
由母體中計算出用來描述母體的數值測量結果。
統計量(statistic)
由樣本中計算出用來描述樣本的數值測量結果。
抽樣分配(sampling distribution)
在一母體中重複抽取固定大小的隨機樣本,由
該隨機樣本所計算出之統計量的所有可能結果
之機率分配, 稱為該統計量的抽樣分配。
例 1 考試平均成績
假設某次統計學考試前五名高分的成績分別為
91、92、93、94及 95 分,若將這五名同學當
成一母體,則母體之平均成績為
= (91+92+93+94+95)/6 = 93(分)
今若自該母體中隨機抽取兩名同學為樣本(n=2)
計算平均成績,則該平均成績之抽樣分配為何?
解答:若自該母體中隨機抽取兩名同學為樣本
(n=2)計算平均成績,則所有可能抽出之成對
樣本及其平均成績見下表 。
例 1 考試平均成績(續)
表 2 所有可能樣本及樣本平均(n=2)
樣本
樣本平均( x )
樣本
樣本平均( x )
91, 92
91.5
92, 94
93
91, 93
92
92, 95
93.5
91, 94
92.5
93, 94
93.5
91, 95
93
93, 95
94
92, 93
92.5
94, 95
94.5
例 1 考試平均成績(續1)
樣本平均( x )
機率(f( x ))
91.5
0.1
92.0
0.1
92.5
0.2
93.0
0.2
93.5
0.2
94.0
0.1
94.5
0.1
E(x ) 91.5 * 0.1 92 * 0.1 92.5 * 0.2 93 * 0.2
93.5 * 0.2 94 * 0.1 94.5 * 0.1 93
例 1 考試平均成績(續2)
圖 樣本平均的抽樣分配圖(n = 1 和 2)
例 1 考試平均成績(續3)
今若自該母體中隨機抽取三名同學為樣本(n=3)
計算平均成績,則該平均成績之抽樣分配又為
何?
解:
表 所有可能樣本及樣本平均(n = 3)
樣本
樣本平均(
x)
樣本
樣本平均( x )
91, 92, 93
92.00
91, 94, 95
93.33
91, 92, 94
92.33
92, 93, 94
93.00
91, 92, 95
92.67
92, 93, 95
93.33
91, 93, 94
92.67
92, 94, 95
93.67
91, 93, 95
93.00
93, 94, 95
94.00
例 1 考試平均成績(續4)
表 5 樣本平均的抽樣分配表(n = 3)
樣本平均(
x)
機率(f( x ))
92.00
0.1
92.33
0.1
92.67
0.2
93.00
0.2
93.33
0.2
93.67
0.1
94.00
0.1
例 1 考試平均成績(續5)
樣本平均的抽樣分配圖(n = 3)
4. 樣本平均之抽樣分配
取出放回或無限母體
自一平均數為 與標準差為的母體中抽取一
大小為 n 之隨機樣本(X1, X2, …, Xn),樣本平
均之期望值與變異數如下
4 樣本平均之抽樣分配(續)
X 之期望值
X 之變異數
1 n
X E ( X ) E X i
n i 1
1
E ( X 1 ) E ( X 2 ) E ( X n )
n
1
(n )
n
1 n
Var ( X ) Var X i
n i 1
1
2 Var ( X 1 ) Var ( X 2 ) Var ( X n )
n
1
2
2
2 (n )
n
n
2
X
4. 樣本平均之抽樣分配(續1)
在有限母體中採抽出後不放回
樣本平均之期望值與變異數如下
X 之期望值 X
X 之變異數
2
Nn
2
X
n N 1
Nn
N 1
其中,
為有限母體修正因子,一般認為,
當n 0 .05N時,上式中的修正因子即可省略
不用 。
4. 樣本平均數的抽樣分配(續1)
抽樣分配:
(1) 若採放回抽樣
E X ,V X
2
n
, x V X
n
(2)若採不放回抽樣
N n 2
E X ,V X
N 1 n
41
例2 平均月薪之期望值與標準差
假設高科公司有 1000 名員工,已知其平均月薪為
40,000 元,月薪標準差為 5,000 元,今若自該公
司中隨機抽取 25 名員工調查其月薪,該25 名員
工之平均月薪之期望值與標準差為若干?今若改
自該公司隨機抽取 100 名員工調查其月薪,則該
100 名員工之平均月薪之期望值與標準差為若干?
例2 平均月薪之期望值與標準差(續)
解:
25 名員工之平均月薪期望值為 40,000 元。因
n 0.05N (25 0.051,000),平均月薪之標準差為
x
5,000
1,000 (元)
5
n
100名員工之平均月薪期望值仍為 40,000 元。但因n >
0.05N ,須用有限母體修正因子計算標準差
X
N n 5,000
N 1
10
n
1,000 100
474.58
(元)
1,000 1
4. 樣本平均之抽樣分配(續2)
【定理一】 在常態母體 X ~ N (, 2)的假設下
樣本平均的抽樣分配
σ2
X ~ N(,
)
n
若母體分配為常態分配,則抽樣
分配必為常態分配。
45
例 3 銀行等待時間
假設泛太銀行每位顧客等待服務的時間呈常態分
配,平均等待時間為 10 分鐘,標準差為 2 分鐘。
為作服務品質調查,隨機抽選 16 名顧客瞭解其等
待服務時間,問該 16 名顧客平均等待時間超過 11
分鐘的機率為何?
解:
令X為每位顧客等待服務時間,由題意知為常態分
配且 = 10 、 = 2
X ~ N(10 , 22)
例 3 銀行等待時間(續)
故 X 10 , X
即
n
2
0.5
16
X ~ N(10, (0.5) 2 )
P(X 11) P(
X μX
σX
11 μ X
σX
)
11 10
)
0.5
PZ 2
P(Z
0.5 0.4772 0.0228
因此該16名顧客平均等待時間超過11分鐘的機率為2.28%。
例 3 銀行等待時間(續1)
圖 顧客平均等待時間超過 11 分鐘的機率(例 3)
4. 樣本平均之抽樣分配(續3)
【定理二】在常態母體 X ~ N (, 2)的假設下
樣本和的抽樣分配
n
X i X 1 X 2 X n X 1 X 2 X n n
i 1
n
Var ( X i ) Var ( X 1 X 2 X n ) Var ( X 1 ) Var ( X 2 ) Var ( X n ) n 2
i 1
n
X
i 1
i
~ N ( n , n 2 )
例 4. 飲料會被退貨嗎?
「喝好茶」盒裝飲料平均每盒重量為 500 克,
標準差為 10 克。今「每日」便利商店進了一
批「喝好茶」盒裝飲料並隨機抽取一箱(內含
20 盒)飲料進行重量檢驗,若該箱飲料重量
不足 9900 克,則整批飲料通通退貨。若該盒
裝飲料之重量呈常態分配,請問該批飲料會被
退貨的機率為何?
解:令 X 為「喝好茶」盒裝飲料每盒之重量而
得到
X ~ N (500,100)
例 4 飲料會被退貨嗎?(續)
故
20
20
X i ~ N(20 500,
20 100)
i 1
20
20
Xi
X i ~ N(10000,2000)
,
i 1
10000
P ( X i 9900) P ( i 1
i 1
2000
P ( Z 2.24)
9900 10000
)
2000
P ( Z 2.24)
0.5 0.4875 0.0125
因此該批飲料會被「每日」便利商店退貨的可能性為
1.25%。
例4 飲料會被退貨嗎?(續1)
圖 整箱飲料不足 9900 克重的機率(例4)
樣本平均數抽樣分配的共通性質
所謂共通性質,係指
分配的性質,是在
任何型態(不限型態)母體分配下都成立的。
對抽樣分配而言,其標準差為標準誤。
x
X
n
53
x
n
由標準誤公式可知:
1. x 與 成正比,表示母體分配的分散度直
接影響 X 分配的分散度。
2. x 與
成反比,表示當樣本次數增大時,
分配的分散度會隨之減少。
n
較大的樣本次數,提高推論的可靠性。
54
樣本平均數抽樣分配的共通性質
大數法則:不限母體分配型態為何,當
樣本次數增大時,樣本平均數 X n 與母體
分配之平均數 μ 會逐漸接近。
中央極限定理(central limit theorem) :
無論母體分配為何,自平均數為 、標準差
為 的母體中抽取 n 個隨機樣本,當 n
(在實務上, n 30 即可適用)時,則樣本平
均數 X 的抽樣分配會趨近於常態分配。
55
56
4. 樣本平均數之抽樣分配(續4)
中央極限定理 (central limit theorem)
無限母體樣本平均數的抽樣分配
σ2
X ~ N(n,
)
n
有限母體抽出後不放回
σ2 Nn
X ~ N(,
)
n N 1
4. 樣本平均之抽樣分配(續5)
中央極限定理亦適用於樣本和的抽樣分配
無限母體
n
2
X
~
N
(
n
,
nσ
)
i
i 1
有限母體抽出後不放回
n
X i ~ N(n,
i 1
nσ
2
Nn
)
N 1
4. 樣本平均之抽樣分配(續5)
圖 不同母體分配下,不同樣本大小樣本平均之抽樣分配
均勻分配
指數分配
例 5 年終獎金與減薪
假設某產品推銷員平均每天賣出 1000 件產品,
每天賣出產品數之標準差為 100 件。今公司於
年終欲瞭解該銷售員之銷售業績,遂隨機選取
了 100 天的銷售業績來檢驗,若該 100 天的平
均銷售數量超過 1025 件,則發給該銷售員年
終獎金;若該 100 天的平均銷售數量不足 985
件,則要扣減其薪資。問該銷售員既得不到獎
金亦沒有受到減薪懲罰之機率為何?
例 5 年終獎金與減薪(續)
解:
令X為該銷售員之每天銷售產品數量,雖然X
之分配未知,因為樣本夠大(n= 100 > 30),
所以該銷售員任 100 天的平均銷售數量之抽樣
分配近似常態分配 ,故
X 1000
X
100
10
n
100
X ~ N (1000, 100)
今欲求該銷售員既得不到獎金亦沒有受到減薪
懲罰之機率,即為
例 5 年終獎金與減薪(續1)
P(985 X 1025) P(
985 1000
X 1000
1025 1000
100
100
P(1.5 Z 2.5)
)
100
P(0 Z 1.5) P(0 Z 2.5)
0.4332 0.4938 0.927
因此該銷售員年終收入沒有任何新的變化之機
率為 0.927。
例 5 年終獎金與減薪(續2)
圖 平均銷售數量介於 985 與 1025 件之機率(例 5)
Z
-1.5
0
2.5
X
985
1000
1025
例 6 接力賽破紀錄
假設某大專院校全體學生參加 100 公尺賽跑的
平均時間為 15 秒,標準差為 3 秒。今學校隨
機抽選 36 位同學參加大專運動會之 3600 公尺
接力賽跑,若 3600 公尺接力賽跑之大會紀錄
為 8 分鐘整,試問該 36 位同學破紀錄之機率
為何?
例 6 接力賽破紀錄(續)
解:
令X1, X2, …, X36為該校隨機抽選之 36 位同學
各跑 100 公尺所花時間,因學生人數夠多(n=
36>30)
36
2
X
~
N
(
36
15
,
36
3
)
i
i 1
36
X i ~ N(540,324)
i 1
該 36 位同學跑出的成績是低於8分鐘(或 480
秒)之機率為
例 6 接力賽破紀錄(續1)
36
36
X i 540
P( X i 480) P( i 1
i 1
324
P( Z 3.33)
480 540
)
324
0.5 0.4996 0.0004
因此,若自該校中隨機抽取 36 位同學參加
3600公尺 接力賽跑,其成績破大會紀錄之機
率為 0.04%。
例 6 接力賽破紀錄(續2)
圖 接力賽跑破紀錄之機率(例 6)
Z
-3.33
0
480
540
X
4 樣本平均之抽樣分配(續6)
結論
1. 母體是常態分配,則樣本平均的抽樣分配亦是
常態分配。
2. 母體不是常態分配,則在樣本夠大時,樣本平
均的抽樣分配會近似常態分配。
3. 樣本平均的期望值等於母體平均數 。
1
4. 樣本平均的標準差比母體標準差小
倍。
n
5. 樣本比例之抽樣分配
樣本比例(Sample Proportion)
pˆ X / n
其中X: 樣本中某特定類別族群之發生次數
n: 樣本大小
5. 樣本比例 之抽樣分配(續)
樣本比例之平均數與變異數
無限母體
X E ( X ) np
pˆ E ( )
p
n
n
n
X
np(1 p) p(1 p)
p2ˆ Var ( pˆ ) Var ( )
2
n
n
n
有限母體且母體大小(N)與樣本大小(n)的
比例關係n/N為> 0.05 情況下,
X E ( X ) np
pˆ E ( )
p
n
n
n
p (1 p ) N n
Var ( pˆ )
n
N 1
2
pˆ
5. 樣本比例之抽樣分配(續1)
自一成功機率為 p 的二項分配抽取 n 之隨機樣
本,在大樣本(np
5 且 n (1-p) ≦ 5)的情
況下,樣本比例 ( p̂ X )的抽樣分配近似為
n
無限母體或有限母體大小N滿足
p (1 p )
pˆ ~ N ( p,
)
n
有限母體大小N滿足
n
0.05
N
p (1 p ) N n
pˆ ~ N ( p,
)
n
N 1
n
0.05
N
例 7 保單之續保率
某保險公司宣稱其保單每年之續保率為 85%,
遠高於全國所有保險公司之總續保率。假設全
國的續保率為 80%,並且該保險公司之宣稱正
確,今自該公司去年之保單中隨機抽取 100 份
檢查是否在今年又續保,問這 100 份隨機抽取
之保單之續保率高於全國之機率為何?
例 7 保單之續保率(續)
解:
令p為該公司保單之續保率,n為樣本大小,由題意
知, p= 0.85且n= 100。因np = (100)(0.85) = 85 >5
且n(1-p)= (100)(0.15) = 15 > 5,根據中央極限定理,
該100 份隨機保單之續保率的抽樣分配近似常態分
配
0.85 0.15
p̂ ~ N(0.85,
)
100
例 7 保單之續保率(續1)
p̂
0.85 0.15
0.0357
100
p̂ 0.85 0.8 0.85
P(p̂ 0.8) P(
)
0.0357
0.0357
P( Z 1.40)
0.5 0.4192 0.9192
因此在續保率為 85% 之保險公司中隨機抽取
100 份保單,而此 100 份保單之續保率高於全
國續保率 80% 之機率為 0.9192。
例 7 保單之續保率(續2)
圖 樣本保單續保率超過全國平均的機率(例 7)
X
-1.4
0
.80
.85
p
6. 兩樣本平均數差的抽樣分配
假設有兩個獨立母體,分別具有平均數為1,2,
標準差為1,2,隨機抽出 n1,n2個樣本,則兩樣本
平均數差 X Y 的抽樣分配為何呢?
不管來自常態母體或是來自非常態母體之大樣本,
則
12 22
( X Y ) N 1 2 ,
n1 n2
或
Z =
( X Y ) ( 1 2 )
12
n1
22
n2
N(0, 1)
例 8 兩條獨立之生產線
假設有兩條獨立之生產線,已知兩生產線產品之平
均重量分別為6.5公克及6公克,標準差分別為0.9公
克及0.8公克,今隨機由兩生產線分別抽出36件及49
件產品為樣本。請問第一組樣本平均數大於或等於
第二組樣本平均數1公克之機率為何?
例 8 兩條獨立之生產線 (續)
解:
令 X Y 分別表兩組樣本之平均重量
0.81
0.64
X ~ N (6.5,
)
Y ~ N (6,
)
36
49
0.81 0.64
X Y ~ N (6.5 6,
)
36
49
P( X Y 1) P( Z
1 (6.5 6)
0.81 0.64
36
49
P( Z 2.65) 1 P( Z 2.65)
1 0.9960 0.004
)
∴第一組樣本平均數大於或等於第二
組樣本平均數1公克之機率為0.004
7.兩樣本比例差的抽樣分配
設從兩個獨立二項母體 X~B(n1, p1),and Y~B(n2, p2) ,
當 n1,n2 夠大時,( 通常,n1 p1 5,n1(1 - p1) 5,
and n2 p2 5, n2 (1 p2) 5),依 C L T,
可知兩樣本比例差 Pˆ1 Pˆ2 X Y 的抽樣分配為
近似於常態分配,
則
或
n1
n2
p1 (1 p1 ) p2 (1 p2 )
ˆ
ˆ
N
p
p
,
P1 P2 1 2
n1
n2
Z=
( Pˆ1 Pˆ2 ) ( p1 p2 )
N (0, 1)
p1 (1 p1 ) p2 (1 p2 )
n1
n2
【練習3】
一個在全省各地開了三千家分店的大企業,想
要抽樣估計去年每家分店發生物品損壞的平均
損失金額。假設母體平均數 1630 元,而母
體標準差 400 元,試求
(a)倘若抽取n=100家分店當成隨機樣本,則樣本平均
數與母體平均數之差在60元以內的機率是多少?
(b)倘若將抽取的分店家數增加到n=256家,則樣本平均
數與母體平均數之差在60元以內的機率又是多少?
解:
由題意可以得知,母體平均數 1630與標準差 400
分別為與,令 X 代表該企業的去年的損失金額,則
X~N(1630 ,400 )。
(a) 由於母體總數N=3000,而樣本數n=100,這兩者的比例相當小,
因此在求 時,可以將有限母體校正因子省略不計,因此我們
可以求得 X
X
n
400
100
40
由此可知,樣本平均數 X 的抽樣分配為X ~N(1630,40 2 ),而所欲
求的機率為:
60
X
60
X 60 60 X 60
40
40
40
1.5 1.5 1.5 1.5
0.9332 0.0668 0.8664
由以上的結果,我們有約 87%的信心,
斷定的誤差不會超過60元
(b) 倘若將樣本數增加到n=256時,其 X 依然等於
母體平均數 ,而樣本平均數 X 的標準差則為
X
n
400
256
25
此時樣本平均數 X 的抽樣分配為 樣本數增加到256家時,
估計誤差不超過60元
X ~ N (1630,25 2 )
的機率增加到了98%
所欲求的 機率為:
X 60 60 X 60
60 X 60
25
25
25
2.4 2.4
2.4 2.4
0.9918 0.0082 0.9836
結論:當樣本數愈大時,估
計值將愈精確,其樣本平均
數 愈趨近於母體的平均數。
【練習4】
在上次的選舉,一位州代表得到52% 的選票。
在選後的一年這位代表發起一個調查,詢問300
位民眾的隨機樣本,在下次的選舉中他們是否還
會投給他。
如果我們假設他受歡迎的程度沒有改變,則此樣
本中會有一半以上的民眾投票給他的機率為何?
將會投給這位代表的受訪者人數是一具有n =
300 與 p = .52 的二項隨機變數。
X ~ Bin (300,0.52)
我們想要決定樣本比例大於50% 的機率。也就是,
我們要找出
P(P̂ .50)
我們現在知道樣本比例 P̂ 是服從近似的常態分配,
有平均數p = .52與標準差 p(1 p) / n (.52 )(1 .52 ) / 300
= .0288。
Pˆ ~ N (0.52,0.0288 2 )
Pˆ ~ N (0.52,0.0288 2 )
因此,
結論: 如果我們假設支持度維持在52%,則在
300位民眾的樣本中,超過半數會投票給此位
代表的機率是.7549。
【練習5】
假設 (WLU) MBA 畢業生與 (UWO) MBA 畢業生的起薪是
常態分配,且具有平均數與標準差。如果WLU 以及UWO
的MBA 畢業生的隨機樣本分別被選出,如下所示……
WLU
UWO
平均數
62,000 $/年
60,000 $/年
標準差
14,500 $/年
18,300 $/年
50
60
樣本大小
n
求WLU 畢業生的樣本平均起薪超過UWO 畢業生的樣本平均
起薪的機率為何?
我們想要決定 P( X 1 X 2 ) P( X 1 X 2 0)
我們知道
X1 X 2
是常態分配
12 22
( X 1 X 2 ) N 1 2 ,
n1
n2
E ( X 1 X 2 ) 1 2 62,000 60,000 2,000
X
1X2
12
n1
22
n2
14500 2 18300 2
3,128
50
60
( X 1 X 2 ) N 2,000 , 3,128 2
( X 1 X 2 ) N 2,000 , 3,128 2
我們可以將此項變數標準化:
P ( X 1 X 2 ) P ( X 1 X 2 0)
P(
Z
( X 1 X 2 ) ( 1 2 )
12
n1
P ( Z 0.64)
0.5 0.2389
0.7389
22
0 2000
)
3128
n2
結論: 對於50 位從WLU 畢業生與60 位UWO 畢業生的樣本而
言,WLU 的樣本平均起薪超過 UWO 的樣本平均起薪的
機率是.7389
8. 與常態分配有關之三種抽樣分配
• 學生 t 分配(Student t distribution)
• 卡方分配(chi-squared distribution)
• F 分配(F distribution)
(1) 學生t 分配
使用字母 t 代表隨機變數[Gosset以筆名「學生」發表他
的發現,並且使用字母 t 代表隨機變數,又被稱為學生
的 t 分配(Student’s t distribution) ]。
學生 t 分配的密度函數如下:
( 1) / 2 t
f t
1
( / 2)
2
( 1) / 2
ν (希臘字母nu) 被稱為自由度(degrees of freedom),
π 等於3.14159,
Γ 是gamma函數,Γ(k)=(k-1)(k-2)…(2)(1)
(1) 學生t 分配
這個分配與標準常態分配是類似的。學生 t 分配
為山形(mound shaped)以及對稱於0 (兩隨機變數
的平均數皆為0)
。
一個學生 t 隨機變數的平均數與變異數是:
以及
E(t) = 0
Var t
對 2
2
學生t 分配
如同µ 與 σ 解釋常態分配, ν (自由度數值) 解釋學生 t
分配:
當 ν 越大,學生 t 分配越接近標準常態分配。
學生t 分配的性質
(1) 期望值 E(t) = 0
(2) 變異數 Vart
2
對 2
(3) E(t)=0得 t 分配為對稱分配,
(4) 當 (實務上 30 ),t 分配以
標準常態分配為極限。
93
學生t 分配之性質
5. 【定理】 (重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一
具有常態母體N (, 2)之隨機樣本,若
X 1 X 2 ... X n
X
n
( X 1 X ) 2 ( X 2 X ) 2 ... ( X n X ) 2
S
n 1
2
X 與 S 2 互相獨立,
則
X
~ t (n 1)
S
n
決定學生 t 的數值
學生 t 分配廣泛應用於統計推論。表三 列出tA,ν
的數值。
它們是具有自由度 ν 且滿足下列關係式的學生 t
隨機變數的數值
P(t t A, ) A
A 值是預定的“關鍵的”
數值,具代表性的數值在
0.100, 0.050, 0.025, 0.010 and 0.005 範圍之內。
用 t 表 (表三) 求值…
例如,要找自由度為10,並且使得在它左邊
的面積為.05 的t 值是:
面積 (tA) : 行
t.05,10
t.05,10=1.812
自由度 : 列
8.96
(2)卡方分配
卡方密度函數是:
f
2
1
1
2 ( / 2 ) 1 2 / 2
2
(
)
e
0
/2
( / 2) 2
參數ν是自由度的數值。
Var 2
E 2
2
(2)卡方分配
注意:
卡方分配
是不對稱的。
平方,如 ,影響不對稱的值(如:發現
P(
< 0) 是不合邏輯的)。
附錄B的表四 讓我們很容易的查看這類的機率,
如:
P( >
) = A:
(2) 卡方分配
這個類型的可能性:
我們用1–A, 如:我們決定
P(
<
)=A
範例: 求
2
0.0 5, 8
代表意義為:
要找出在自由度為8的卡方分配上的一個點,其
右邊面積為.05
找出在列上自由度8與欄位中
我們得到數值15.5
的交叉點,
範例: 求
2
0.9 5, 8
代表意義為:
要找出在自由度為8的卡方分配上的一個點,
其左邊面積為.05
找出在列上自由度8與欄位中
我們得到數值2.73
的交叉點,
範例
因此,下列是有意義 (合理)的:
=15.5
=2.73
記得
的開始,零與增加!
卡方 χ2 分配之性質
2
2
X
~
(
X
~
( 1 ) , 2
1. (加法性) 1
相獨立,則
2)
,且 X 1 與 X 2 互
X 1 X 2 ~ 2 (1 2 )。
2. 若 Z X ~ N (0,1) ,則 Z 2 ( X ) ~ 2 (1)。
3. 【定理】(重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一
具有常態母體N (, 2)之隨機樣本,若
Xn 2
X1 2 X 2 2 X 3 2
Y (
) (
) (
) ..... (
)
則 Y 為具有自由度n的χ2分配
2
i.e. Y ~ ( n )
卡方 χ2 分配之性質:
4. 【定理】 (重要!!!) 設X1,X2,. . . . . . ,Xn為出自於一
具有常態母體N (, 2)之隨機樣本,若
X 1 X 2 ... X n
X
n
( X 1 X ) 2 ( X 2 X ) 2 ... ( X n X ) 2
S
n 1
2
X 與 S 2 互相獨立,
則
(n 1) S 2
2
~ 2 ( n 1)
卡方 χ2 分配之用途
單一母體之母體變異數 σ 2 之估計與檢
定。
無參數統計中一些檢定方法如,適合
度檢定、獨立性檢定、齊一性檢定等。
例9
由常態母體N (μ , 6 ) 抽出一組樣本數為25的隨機
樣本,問
2
(1) 樣本變異數S2會超過9.1的機率為多少?
(n 1) S (25 1) 9.1
(1) P( S 9.1) P(
)
2
6
2
P( n1 36.4)
2
P( 24 36.4)
0.05
2
2
例9
由常態母體N (μ , 6 ) 抽出一組樣本數為25的隨機
樣本,問
2
(2) S2會介於3.462與10.745之間的機率為多少?
(2) P(3.462 S 2 10.745)
(25 1) 3.462 (n 1) S 2 (25 1) 9.1
P(
)
2
6
6
P(13.848 242 42.98)
0.95 0.01
0.94
(3) F 分配
F 分配(F distribution) 的密度函數如下所列:
1 2
f F
(
1
(
2
2
)
2
) (
2
)
( 1)
2
1
2
1 2
F
2
1F
(1
)
2
1 2
F0
2
其中F 的範圍從0 到∞,並且ν1 與ν2 是分配的
參數被稱為自由度。
為分子自由度(numerator d.f.)
為分母自由度(denominator d.f.)
F 分配
F分配隨機變數的平均數與變異數為:
E(F )
2
2 2
, 2 2
2 2 ( 1 2 2)
Var ( F )
, 2 4
2
1 ( 2 2) ( 2 4)
2
F分配隨機變數像卡方隨機變數一樣只能為
正數。
F 分配的圖形
範例: 求F 0.05,3,7 的數值
代表意義為:
在右邊曲線尾端之下的面積為0.05,分子自由度3與分母
自由度7的 F值
解: 使用F 查 (表五)
不同的表有不同的A值。
確認你使用正確的表!!
F.05,3,7
分母自由度: 列
分子自由度 : 行
F.05,3,7 =4.35
F 分配 的性質
1. 若
12
與
22
互相獨立 ,
且 12 ~ 2 ( ) , 22 ~ 2 ( ),則
2
1
/ 1
F
~ F ( 1 , 2 )
/ 2
2
1
2
2
稱為自由度為ν1 與ν2之F分配
114
F 分配 的性質
2 . 在左邊曲線之下的面積,我們可以使用槓
桿原理來平衡下列關係:
F1 , 1, 2
1
F , 2 , 1
請密切注意各項目的順序!
範例: 求F 0.95,3,7 的數值
代表意義為:
在右邊曲線尾端之下的面積為0.95,分子自由度3與分母
自由度7的 F值
查表F
=8.89
.05,7,3
解: 使用F 查 (表五)
F.95,3,7
F0.95,31,7
1
F0.05, 7 ,3
1
0.1125
8.89
分母自由度: 列
分子自由度 : 行
F 分配 的性質
3 . 設(X1,X2,. . . . ,Xn1)與(Y1,Y2,. … ,Yn2)
為分別由常態母體N (1, 12) 與N (2, 22)抽出之
二組獨立之隨機樣本,
( n1 1) S12
2
1
(n 2 1) S
22
(n1 1)
2
2
(n 2 1)
n2 1
1
2
n2 1
(n1 1)
~ F ( n1 1, n 2 1)
( n2 1)
S12
S
2
2
12
22
~ F (n1 1, n 2 1)
F分配之用途
(1) 檢定二母體變異數12及22是否相等。
(2) 變異數分析之檢定。