关于样本量的确定

Download Report

Transcript 关于样本量的确定

第三章 简单随机抽样(SRS)
第一节
概述
第二节
估计量及其误差
第三节
样本量的确定
1
第一节
概述
一、定义
二、抽取方法
三、方法评估
四、两个试验
2
一、定义
所有概率抽样的出发点和理论基础都是简单
随机抽样。简单随机抽样是一种一步抽样法,它
保证样本量为n的每个可能的样本都有相同的被抽
中的概率p=n/N。
简单随机抽样有两个相互等价的定义。
3
随机样本的优点:
1.随机选择可以消除“偏心”;也就是说随机
抽样把偏差给消灭了。
2.如果我们从同一个总体,重复抽取许多大小
一样的随机样本,所有样本的变异状况就会遵循某
种可预测的形态 (pattern)。从这个可预测的形态
可以得知,由较大样本所得结果的变异.会小于小
样本结果的变异。
4
二、抽取方法
抽样可以是放回的,也可以是不放回的。如
果抽样比非常小,则放回抽样与不放回抽样实际
上是差不多的。一般情况下,不放回抽样的结果
更精确,实际操作也更方便些。在本课程中,除
非特别指明,抽样都是指不放回的。
简单随机抽样一般有抽签法和随机数法两种
实施方法。
5
三、方法评估
简单随机抽样被用作评估其他抽样策略的效
率的基准,这里抽样策略是指抽样方法与所用估
计量的结合。一个估计量就是一个用来计算估计
值的公式。估计量的抽样误差是通过其抽样方差
来测量的,而抽样方差定义为对采用这种抽样设
计的所有可能样本,估计值距其平均值的差(称
为离差)平方的平均。
6
如果一种抽样策略的抽样方差比另一种抽样
策略的抽样方差小,我们就称这种抽样策略更有
效率(这种效率也称统计效率)。一个有较小抽
样方差的估计量具有较高的精度。
基什提出用设计效果(Deff)来衡量一种抽
样策略的效率。
一个复杂抽样设计的抽样方差
Deff 
相同样本量的简单随机抽样的抽样方差
7
与其他抽样技术相比,简单随机抽样有以下优
点:
是最简单的抽样技术;
抽样框不需要其他(辅助)信息,唯一需要的
只是一个关于调查总体所有单元的一个完全的清单
和与其如何联系的信息;
关于样本量的确定、总体估计与方差估计都有
现成的标准公式可以利用,因此技术发展已经成熟。
8
简单随机抽样的缺点是:
抽样框中即使有现成的辅助信息也不加利用,
使得估计的统计效率较其他利用辅助信息的样本设
计低;
由于样本在总体中的地理分布范围比较广,如
果采用面访,费用较高;
有可能抽到一个“差的”样本。原因是这种方
法不对抽中哪一个样本进行控制,所有样本量为n的
样本都有相同的被抽中的机会,因此抽出来的样本
有可能分布不好,不能很好地代表总体;
如果不用计算机,而用随机数表抽一个大样本
将十分单调劳神。
9
四、两个试验
也许有人会认为,在抽样时不用随机数表,
而采取随意抽选的办法也可以达到预期的抽样效
果。表面上看,这种想法似乎有一定道理,但实
际试验的结果证明随意抽样不等于随机抽样。以
下是两个有名的试验:
10
试验一:随意数试验
让六个人写下100个自己随意想到的三位数,
将这些数内的0、1、2、…、9数字列成次数分布
表如下:
11
可以看出,六个人都对数字存在偏好,如第一
个人更加偏好数字4、3、0;第二个人则偏好数字1、
8、4;等等。这种由于数字偏好所引起的偏估类型
可称之为数字偏误。
12
试验二:着色试验
让四个人将10×10方格的纸板着色,可供选
择的颜色有蓝、绿、红、白和黄色五种,对每一
个四分象限来说,规定每种颜色只能在每行和每
列出现一次。每个方格以其所在的列号与行号表
示,如(4,6)代表第四列第六行的方格。请四个
人对这100个方格随意选择行列号,而对其着色。
将这些由这四个人着色所得到的资料形成次数分
布表如下:
13
14
可见四个人都对颜色存在偏好,如第一个人
偏爱绿色,第二个人偏爱蓝色等。这种由于对颜
色偏好所引起的偏估类型,可称之为颜色偏误。
15
从上述两个试验可以发现,利用人为的随意
抽样方法都会产生偏差。每个试验者均有较为喜
欢的数字和颜色,因此,使得样本变成非随机的,
进而给抽样估计带来困难。
16
第二节
估计量及其误差
一、数据类型
二、估计量的性质
三、在简单随机抽样条件下的其他估计量
四、抽样误差的其它度量
17
一、数据类型
几乎每项调查都需要计算诸如比例、均值、总
量这样的简单描述统计量,当然也会用到一些更为
复杂的统计量和分析方法。大多数调查都要求收集
很多个指标,这些指标也称作变量。变量既可以是
定性的(或称分类的),也可以是定量的(或称计量
的)。
18
样本单元可以按某些指标划分成不同的类别,
所得的数据就称为分类数据或定性数据。这些变
量中,如性别或婚姻状况,通常只有几个可能的
取值。民意调查中,通常用量表的形式收集所需
的数据也是定性数据,例如很赞成,赞成,既不
赞成也不反对,不赞成,很不赞成。必须注意的
是,这种情况下每个单元属于而且只属于其中一
个类别。
19
如果度量的单位是诸如米或年这种数量形式,
就称这样的数据为定量数据。定量数据一般是对
“多少”、“多大”这样的问题所作的回答,例
如年龄、孩子的数量、工作的小时数、支出与收
入、血压等等。
对于不同类型的变量,需要使用不同类型的估计。
通常,对定性变量,我们计算比例与总数;对定
量变量,我们计算平均数与总量。
20
在估计时,需要考虑的另一个问题是,估计
针对的是总体的什么范围。估计既可以针对整个
调查总体,也可以针对特定的子总体或特定的域。
例如,除需要计算全国估计值外,可能还需要省
及地市的估计值。同时,还可能需要诸如分性别、
年龄、受教育水平等这样的域估计值。
21
对下述问题的回答将有助于决定如何计算估
计值:
——需要估计什么类型的参数?是比例,均
值,还是总量?
——数据是什么类型的?是定性数据,还是
定量数据?
——采用怎样的权数?是自加权设计吗?
——需要估计的是什么样的域?
22
二、估计量的性质
不同的样本将得到不同的估计值。
一个估计量的抽样分布,是指使用相同的抽样
设计,从同一个总体抽取的所有可能样本的估计值
的分布。
显然,这样的抽样分布依赖于估计量的形式和
所采用的抽样设计(例如简单随机抽样、系统抽样、
分层抽样、多阶抽样等)。
23
要想知道抽样分布,就必须知道样本是怎么抽
取的。在概率抽样的情况下,我们知道样本是如何
抽取的,因此可以确定其抽样分布。对非概率抽样,
由于无法得知各个不同样本的入选概率,从而不能
计算抽样分布。抽样分布对确定估计量的一些重要
性质,例如偏倚及抽样方差等非常重要。
24
如果一个估计量对于所有可能样本计算的估
计值的平均数等于参数的真值,称这个估计量是
无偏的。
另一个所需要的估计量的性质是它的抽样分
布应与其平均数尽可能地靠拢。对这种性质的一
个度量指标是抽样方差。
我们通常希望估计量具有一些好的性质:其
中的一个性质就是估计量应是无偏的或近似无偏
的,另一个是抽样方差较小的估计量被认为是精
确的:抽样方差越小,估计的精度越高。
25
对于简单随机抽样,总体均值的估计量为:
n
yi
ˆ
Y   y
i 1 n
其中,n是样本量,yi是样本中第i个单元的值,
对应某特定样本的值即是估计值。也就是说,将样
本中所有yi的值加起来再除以样本量就得到了总体
平均数的估计值。
26
在简单随机抽样中,y 既是总体均值的一致
估计,也是总体均值 Y 的无偏估计。
27
估计量 y 的方差为:
( N  n) 2 1  f 2
V ( y)  E( y  Y ) 
S 
S
nN
n
2
V ( y ) 可以用下式估计 :
2
ˆ
n S
ˆ
V ( y )  (1  )
N n
28
项n/N称为抽样比,用f表示。从这个公式我
们可以看出,随着样本量n的增加,均值估计的抽
样方差将减少。当进行普查即n=N时,均值估计就
完全没有抽样方差。当抽样比很小即样本量相对
于总体很小时,因子(1-n/N)可以忽略。
Cochran(1977)说过,当抽样比不超过5%,
甚至在很多情况下高达10%时,这个因子都可以
被忽略。另外,应注意上述公式仅应用于当回答
率为100%,且没有使用任何辅助信息对样本权数
进行调整的情形。
29
对 于估 计 量 Sˆ 2 的 选 取 , 我 们通 常 使用 样 本 方
2
n
差s 。
( yi  y ) 2
可以证明: 2
i
s 

n 1
N
是总体方差 S 2 
2
(
y

Y
)
 i
i
N 1
的无偏估计量。
30
三、其他估计量
当总体为正态分布时,用Me(中位数)来估
计Y 。
可以证明:
E(Me)  Y

1.57 
V ( Me) 

2n
n
n
2
2
2
31
在有放回简单随机抽样时,样本中有重复单
元,去掉重复单元,用其中d个不同单元的信息来
估计,即
d
1
y 
d
y
i
i
可以证明, E( y )  Y 。方差介于放回与无放回之间:
V ( y不放回 )  V ( y)  V ( y放回 )
32
总体N个单元的值Y1,…,YN,已知Y1很小,YN
很大,用估计量
y  c

ˆ
Ys   y  c
 y

当样本单元中包括Y1不包括YN 时
当样本单元中包括YN 不包括Y1时
其他
可以证明:E (Yˆs )  Y ,
且当
2c
(YN  Y1  nc)>0
N 1
时, V(Yˆs) V(y)。
33
关于子总体(域)的估计
实际中常需要对大总体中的一部分(即子总体)
进行估计。
在简单随机抽样条件下,无论是定量数据还是
定性数据,对于感兴趣第j子总体(域)的大小都可
以用下式估计:
Nˆ 域 
w
iS r 域
i
34
对定量数据,域总值的估计值为:
Yˆ域 
w y
iS r 域
i
i
对定量数据,域均值的估计值为:
ˆ
Y域 
w y
iS r 域
i
i
w
iS r 域
i
35
对定性和定量数据,域比例估计值为 :
Pˆ域 
w
i
iS r 域 C
w
iS r 域
i
可以证明,上述几个估计是无偏的。
36
四、抽样误差的其它度量
有多种方式可以用来表示估计量的抽样误差
的大小,除方差外,下列的一些度量也会经常用
到:
——标准差(指估计量的标准差,也称标准
误);
——变异系数;
——误差限;
——置信区间。
37
第三节
样本量的确定
一、引言
二、精度与样本量
三、费用与样本量
四、精度与费用间的协调
一、引言
1.为什么要确定样本量?
由于样本量直接影响到样本的代表性、调查
的费用、完成调查所需要的时间、所需调查人员
的数量以及其他一些现场操作的限制条件。
2.影响样本量的因素
估计量的精度要求;提供的经费能支持多大
的样本;调查的时间要求;需要和能招聘到的合
格调查员数量等。
3.必要样本量和可能样本量
必要样本量是由精度要求出发所确定的样本
量,是能满足精度要求的最少样本量;
可能样本量是由费用约束条件出发所确定的
样本量,是在一定费用预算下最多所能调查的样
本量。
二、精度与样本量
(一)精度的表示方法
1.用抽样方差或抽样误差 V (ˆ) 来表示,方差
越小精度越高;
2.用置信度和误差限来表示,以 ˆ 表示一个任
意的估计量, S (ˆ) 为估计标准误,一定置信度的误
差限为 zS (ˆ) ,z值与置信度相对应。
3、一定置信度下用相对误差表示精度
 ˆ  

ˆ
zS
(

)


P

 1

 
 


其中:1-α为置信度或可靠性
1
zS (ˆ)

称做估计精度
(二)确定精度需要考虑的因素
1.可接受(允许)多大的误差限?
如果调查结果将用于进行一项有重大影响或
有较大风险的决策,那么,客户对估计值就需要
较高的精度;如果他们只是简单地希望取得对所
研究总体某个指标的感性认识,那么,低一点的
精度就可以满足要求了。
2.是否需对子总体进行估计?
如果需要估计子总体,则应该确定各子总体
合适的精度,不同的子总体对精度的要求可能不
同。
3.与调查估计值有关的抽样方差有多大?
在确定调查估计值所需的精度时,统计调查
机构应该考虑当达到某个既定精度时可能的最小
估计值。如果最小的估计值是5%,那么统计调查
机构(和客户)要求的误差限就应该小于5%。
4.精度要求的实际含义是什么?
为得到最小的误差限而选择最大可能的样本
并不总是最佳的解决办法。有时,我们可以在有
效利用现有资源的基础上,获得相对精确的估计
结果,接受一个较大的误差限。采用一个较小的
样本而不是一个较大样本,节省下来的费用,可
用来调整其它影响调查结果精度的因素,例如减
少无回答率,这样做也许更有效。 (表1)
(三)影响精度的因素
1.总体的变异程度
(1)随着调查总体中所研究指标的实际变
异程度的增加,样本量也必须随之增大;
(2)若总体指标变异性很大,或具有所研
究特征的单元数量很少,对这样的总体,要求精
确估计是很困难的,需要较大的样本量;
(3)为确保达到调查要求的精度,在计算
样本量时,建议对某一指标的总体变异程度采用
较为保守的估计。
(表2)
2、总体大小
在样本量确定过程中,总体所起的作用因它
的大小而有所差异。对于小规模总体,它起着重
要作用;对于中等规模的总体,其作用中等;而
大总体对样本量的影响很小。
3、样本设计和估计量
设计效应是对于相等的样本量,给定样本设
计估计量的抽样方差对简单随机抽样估计量的抽
样方差的比率。对于简单随机抽样设计,设计效
应等于1;对于分层抽样设计,设计效应一般小
于等于1;对于整群抽样设计,设计效应一般大
于等于1。
4、调查的回答率
为了达到调查估计值要求的精度,常根据预
计的回答率确定一个较大的样本才可能达到精度
要求。
(四)必要样本量的确定
1.给定均值估计的精度(100%回答)
简单随机抽样下,通常使用误差限和估计量
的标准差来确定所需的样本量。例如,在不放回
简单随机抽样情况下,当允许的误差限为e时,
样本量为:
2
ˆ
Z S

2 ˆ2
Z
S
2
e 
N
2
n必要
2.给定比例估计的精度(100%回答)
这种情况下,用误差限表示所需的精度,可
通过总体比例P来表示。当精度要求为e时,由于
比例的方差
Sˆ 2  Pˆ (1  Pˆ )
于是计算样本量的公式变为:
n必要
Z 2 Pˆ (1  Pˆ )

2 ˆ
ˆ
Z
P
(
1

P
)
2
e 
N
3.回答率小于100%时的调整
设r为预计回答率,则根据回答率调整确定的
必要样本量的步骤为:
第一步,确定初始样本量
Z Sˆ 2

2 ˆ2
Z S
2
e 
N
n初始
Z Pˆ (1  Pˆ )

2 ˆ
Z
P(1  Pˆ )
2
e 
N
2
2
或
n初始
第二步,确定必要样本量
n必要 
n初始
r
(五)总体方差的事先确定
运用精度要求来确定样本容量时,必须事先
知道总体的方差。确定方法有:
1.两步抽样法
2.试点调查法
3.历史数据估计法
4.数学模型法
5.经验估计法
(六)多目标时的协调
首先在众多的目标中挑选出最重要的K个目标,
根据这些目标的估计精度要求,求出每个目标所
必需的样本量。
若各目标的必要样本量很接近,其中最大的
是可行的,则选最大者为n。
若各目标的必要样本量相差太大,选其中最
大者为n,则费用不允许或使总的精度大大高于原
来的标准,没有必要,这时,可降低某些项目的
精度要求,甚至取消一些项目。
三、费用与样本量
1.建立费用函数
在简单随机抽样条件下,一个最简单的费用
函数可表示为以下形式
C  C0  nC1
2.确定可能样本量
当总费用一定,且固定费用和平均每调查一
个单元的费用也大致确定时,就可推算出可能样
本量
C C
n可能 
0
C1
四、精度与费用间的协调
1.若 n可能  n必要
则取n  n必要
2.若 n可能  n必要
则取n  n必要
3.若 n可能  n必要
则考虑以下四种情况:
若费用能增加,就取n  n必要
若精度可降低,就取n  n可能
若费用可增、精度也可降,就找新的平衡点
若费用不能增、精度不能降,暂时放弃调查
结束语
确定样本量是为控制抽样误差,而不是对非
抽样误差进行控制。
样本量的确定,既没有什么神秘的办法,也
没有什么完美的处方,它是在精度、费用、时间、
访问员等多种约束条件下不断进行折衷的过程。
本章内容讲授结束