機率抽樣

Download Report

Transcript 機率抽樣

社會科學研究方法
第七章
抽樣的邏輯
指導老師:王謙 教授
報告學生:趙純億
2012/11/04
導讀內容
1
抽樣的發展簡史
2
非機率抽樣的類型
3
機率抽樣的理論與邏輯
4
機率抽樣的類型
2012/11/04
第七章 抽樣的邏輯
機率抽樣
樣本不具代表性
1948年以後
1948預測杜威當選失利
1936~1944總統大選
蓋洛普
配額抽樣
1936預測羅斯福當選成功
1936預測艾福.藍登當選失利
電話簿、汽車所有人的登記簿
(抽樣架構有問題)
文學文摘
1920~1932總統大選
抽樣的簡史發展
P272~275
兩種抽樣方法
近便抽樣法
立意抽樣法
滾雪球抽樣法
配額抽樣
簡單隨機抽樣
系統抽樣
分層抽樣
集群抽樣
非
機
率
抽
樣
1
便利抽樣
2
判斷抽樣
3
滾雪球抽樣
4
配額抽樣
(1)純粹以方便基本著眼的抽樣方法。
(2)樣本之選擇只考慮到容易得到樣本或
容易觀察為主。
(3)樣本的代表性值得懷疑,因為偶然遇見的人
和沒有遇到的人可能有所不同。
(4)不容許抽樣者對於樣本的代表性有任何的
控制。
Ex: 街頭訪問
P276
※依研究者本身判斷選擇樣本,挑選最符合研
究目的的樣本。
※如果研究者對母體不是很了解,很容易發生
抽樣偏 差。
P277
※在特定的母體成員難以找到時,或針對特殊
族群之調查,是最適合採用的方式。
※從起始受訪者所提供之資訊去取得其他受訪者。
※利用樣本尋找樣本。對找出遊民、外勞或非法
移民等樣本頗為適用。
P278
※藉由選擇樣本,使樣本中具有某種特質的比
率和母體具有某種特質的比率大約是一致的。
但取樣時卻由調查員任意抽取, 可能會造成偏差。
Ex:某大學有10000名學生,我們要抽取1000名。將學生依年級分成
四 個子母體。
年級
一
二
三
四
學生數 在母體之百分比 樣本人數
3200
32%
320
2600
26%
260
2200
22%
220
2000
20%
200
但對子母體抽樣時,仍採便利抽樣。
P279
難以評估樣本之代表
無法估計精確度
樣本偏差往往較大。
機率抽樣的理論與邏輯
機率抽樣 (probability sampling)
(1)根據機率理論選擇樣本的一般用詞
(2)假使整個母群的描述是有用的,從母群
產生的個別樣本,就必須包含有母群所
就有的相同特性。
(3)所有大型研究調查都會使用機率抽樣。
P281
有意無意的抽樣誤差
※抽樣容易取得方便的樣本,但含有偏
差的風險很高。
※偏差:所選取的樣本不能代表從中
抽樣的母體。
◎路上隨便選人訪問
◎不自覺的選人偏見
◎CALL IN 節目
◎出口民調
P282~283
代表性與選樣機率
※代表性
*樣本具有和母體相同的特質。
※等機率選擇法 (EPSEM)
Equal probability of selection method
*母群的每一個成員有相等機會被選為樣本設計。
※機率抽樣的兩個優點
*比其他樣本更具備代表性,可以避免偏差。
*機率理論可以讓研究者估計樣本的精確度或
代表性。
P284
抽樣專有名詞解釋
1.母體(population):
是研究中所有單元的集合,也是我們藉由樣本
想要推論的標的。
2.研究母體 (study population):
實際從中選取樣本單元(elements)的集合體。
3.抽樣架構:
從中選取機率樣本的清冊或準清冊,也就是整體
抽樣單位的詳細名單。
P285~286
抽樣專有名詞解釋
4.抽樣單位(sampling unit):
是指被抽取樣本中的一個或是一組單元。
5.單元(element):
是指研究的基本單位,亦是蒐集資料的根據。
6.隨機選擇(random selection):
每一個元素有相等被選取的機會 。
P285~286
機率理論
※機率理論:
*提供研究人員設計能產生具代表性樣本的抽樣方法。
*以統計的方式分析抽樣結果時所需的利器。
※抽樣分配:
*它是由所有可能之樣本所得到的結果來組成的。
*當抽樣時所用的樣本數愈大,則所有可能平均數所構成
的抽樣分配愈集中於此抽樣分配的平均數。當樣本愈大,
平均數抽樣分配的標準誤差(standard error)也就愈小。
※抽樣誤差的估計:
*抽樣誤差就是對於某一個抽樣設計預估錯誤
發生的程度。
*公式:
P*Q
S=
n
P、Q代表兩項名義變項的母體母數
n是每一樣本組的學生樣本數
S是標準誤差
P287~293
機率理論
※信心水準(confidence level):以樣本估計值推論
母群體實際值大小時,正確估計的概率有多少。
即樣本統計量的精確度。
※信賴區間(confidence interval):表示我們對真
實的母體母數值的估計有多接近的程度。
P294
信心水準
68%
95%
99%
標準誤
正負1
正負2
正負3
試算抽樣
誤差(假設
n=900)
正負1.6%
正負3.3%
正負5%
機
率
抽
樣
1
簡單隨機抽樣
2
系統抽樣
3
分層抽樣
4
集群抽樣
※將抽樣架構的清單名冊中的每一個單元編碼,不
可以漏掉任何一個單元,然後用亂數表抽取不同
的單元當作樣本。
P301~303
亂數表
10480
22368
24130
42167
37570
77921
99562
96301
89579
85475
28918
63553
09429
15011
46573
48360
93093
39975
06907
72905
91977
14342
36857
69578
40961
93969
01536
25595
22527
06243
81837
11008
56420
05463
63661
53342
88231
48235
52636
30
67
70
21 62
1
79
75
18 53
亂數表
10480
22368
24130
42167
37570
77921
99562
96301
89579
85475
28918
63553
09429
15011
46573
48360
93093
39975
06907
72905
91977
14342
36857
69578
40961
93969
01536
25595
22527
06243
81837
11008
56420
05463
63661
53342
88231
48235
52636
930
399
69
729
919
143
368
695 409 939
※從清單中選取間隔一定距離(K)的單元當作樣本。
※抽樣間距 (K)
=母體數/樣本數
(1000單位的母群,抽出(樣本數)100個,
樣本間距為10)
※抽樣比例
=樣本數/母體數
(1000個單位的母體,樣本數100個,
抽樣比例為10%)
P303~304
K(抽樣間距)
以隨機起始的抽樣系統
※在抽樣前事先分類母群的構成單位成為同性質的組別
※將母群分成幾個同質的次集合,然後從每個次集合中
選取適當的樣本數。
*分層變項的選擇,依賴現有的變項而定。
※在選擇分層化的變項時,首先應該考慮與你想要的
精確描述的變項是否相關。
P305~307
※系統抽樣所隱含的分層化
※分層系統抽樣
*大學生的分層系統抽樣
*年級
母群體
樣本
第一層
第二層
抽樣
第三層
第四層
※集群抽樣 (cluster sampling)
*無法完整地整理出一份囊括目標母體的所有單元的清單 。
*沒有辦法建構出一個包含所有元素的名冊。
*先抽單元的群組(集群),再從選中的集群中抽選單元。
EX: 全美教會教友、伊朗抽樣
◎重複兩個基本步驟:編列清單及抽樣
1.表列名冊(先編列原先抽樣單元的名冊:EX:教會、
區、街道、學校)
2.抽樣以分層的方式歸類
EX: 多段 不同行政單位 (縣市、鄉市鎮、區里鄰)
P310
※多段設計與抽樣誤差
*抽樣誤差較大
*解決原則
◎盡量使集群的數量最大化
◎每個集群中的單元數量減少
P312~313
第一群
第二群
第一群
第K群
第二群
基本原則:使集群的數量最大化,每個
集群中的單元數量減少
第k群
※抽取機率與單位大小成比例的抽樣(PPS)
*多段集群隨機抽樣的一種。每一集群樣本的選取
不是相等的機率,而是隨著樣本大小成比例抽樣。
*每一個抽樣單位被抽到的機會與該抽樣單位的
大小度量正好成正比的不等機率抽樣。
P314~315
※非比例抽樣與加權
*實施情況:為了確保各次級母體。均擁有足夠的
代表樣本以供分析。
*加權:對不同選取機率的個案給予不同的權重 (weight)
◎職場性騷擾,將女性加權 (weighting)
◎族群關係,將少數民族加權
P316
樣本較具代表性
可計算估計的精確度
可隨不同的抽樣設計
做不同的抽樣方法
隨不同的抽樣方法
採取配合的估計方法