概率抽样

Download Report

Transcript 概率抽样

第五章
抽样与抽样估计
重点:不同抽样组织形式的抽样误差计算;总体
均值及比例的区间估计;必要抽样数目的计算方
法。抽样估计的基本理论;抽样误差的含义与计
算方法;区间估计问题。
难点:抽样估计的基本理论;抽样误差的含义与
计算方法;区间估计问题。
所需课时:7课时
本章主要内容
第一节
有关基本概念
第二节
抽样分布
第三节
抽样误差
第四节
抽样估计
第一节
有关基本概念
一、总体和样本
二、必要样本量和样本可能数目
三、抽样框
四、抽样效率与设计效果
五、抽样的类型
六、几种主要的概率抽样方法
一、总体和样本
总体是指研究对象的全体`,它是由研究对象中的
单元组成的。总体中包含单元的数目称作总体容量(或
大小);样本是指抽样时按照抽样的规则所抽中的那部
分单元所组成的集合。
抽取样本
总体
样本
推断总体
抽样调查中的总体是有限的。在抽样以前,必须根
据实际情况把总体划分成若干个互不重叠并且能组合成
总体的部分,每个部分称为一个抽样单元,不论总体是
否有限,总体中的抽样单元数一定是有限的,而且是已
知的,因此说抽样调查的总体总是有限的。
抽样调查中影响样本代表性的因素有以下几个方面:
(1)总体标志值分布的离散程度。
(2)抽样单元数的多少(或称样本量的大小)。
(3)抽样方法。
通常将反映总体数量特征的综合指标称为总体参
数。常见的总体参数主要有:总体总和;总体均值;总
体比率;总体比例。
一般将反映样本数量特征的综合指标称之为统计
量。统计量是n元样本的一个实值函数,是一个随机变
量,统计量的一个具体取值即为统计值。主要的样本统
计量有:样本总和;样本均值;样本比率;样本比例。
二、必要样本量和样本可能数目
样本中包含的抽样单元个数称为样本容量,又称样本含
量或样本大小 。必要样本量是能够满足估计精度要求的最少
样本量。
样本可能数目则是在容量为N的总体中抽取容量为n的样
本时,所有可能被抽中的不同样本的个数。用A表示。当N和n
一定时,A的多少与抽样方法有关,其计算方法列表如下:
抽样方法
放回抽样
考虑顺序
AN
不考虑顺序
AC
不放回抽样
n
n
N  n 1
A P 
n
N
A  CN 
n
N!
( N  n )!
N!
n! ( N  n )!
三、抽样框
抽样框是在抽样前,为便于抽样工作的组织,在可
能条件下编制的用来进行抽样的、记录或表明总体所有
抽样单元的框架,在抽样框中,每个抽样单元都被编上
号码。抽样框可以是一份清单(名单抽样框)、一张地
图(区域抽样框)。
编制抽样框是一个实际的、重要的问题,因此必须
要认真对待。
常见的抽样框问题可以概括为四种基本类型:
(1)缺失一些元素,即抽样框涵盖不完全;
(2)多个元素对应一个号码;
(3)空白或存在异类元素;
(4)重复号码,即一个元素对应多个号码。
对抽样框存在的缺陷要认真对待,有效处理。
四、抽样效率与设计效果
在样本容量相同的情况下,抽样方差越小表明抽样
效率越高。设计效果是设计方案的方差与简单随机抽
样的方差之比。设计效果通常用英文字母Deff表示:
deff 

2

2
D
srs
五、抽样的类型
非概率抽样:采用非随机的方法从总体
中抽选单元
抽
样
调
查
概率抽样:基于随机的原则从总体中抽
取单元
(一)非概率抽样
1.非概率抽样及其优缺点
非概率抽样是用非随机的方法抽选样本。
优点:
快速简便;
费用相对比较低;
不需要任何抽样框;
对探索性研究和调查设计的开发很有用。
缺点:
不能对总体进行推断;
由于不知总体单元的入样概率,故不能计算估计
值的抽样误差。
2.各种非概率抽样方法
随意抽样。样本单元的抽选以随意的方式进行。如街道
拦截访问。
志愿者抽样。被调查者都是自愿参与调查。如网上问卷,
自愿回答。
判断抽样。由专家有目的地挑选“有代表性”的样本进
行调查。如典型调查。
配额抽样。从总体的各个子总体中选取特定数量的样本
单元组成样本。如市场调查中,规定男女消费者的样本
各多少。
 滚雪球抽样。适合于总体中某种较为稀少的特殊子总
体而又缺少完整的抽样框。抽样时通过已知的少数个体
获得信息逐渐扩大。
(二)概率抽样
概率抽样是从总体中随机抽选样本单元,被抽中的单
元既不取决于调查人员的愿望,也不取决于被被调查者的
态度。其次每一个单元都有一定的概率被抽中。
优点:
可以对总体进行推断,并能计算估计值的抽样误差。
缺点:
相对于非概率抽样,设计比较复杂,而且费用也比较高。
常见的概率抽样方法主要有:
简单随机抽样、系统抽样、与大小(或规模)成比例的
概率(PPS)抽样、整群抽样、分层抽样(STR)、多阶抽样、
以及多相抽样等。
六、几种主要的概率抽样方法
(一)简单随机抽样
1、定义:简单随机抽样是从总体的N个抽样单元
中,每次抽取一个单元时,使每一个单元都有相等的
概率被抽中,连续抽n次,以抽中的n个单元组成简单
随机样本。
2、优点: (1)比较容易理解和掌握;(2)抽
样框不需要其他辅助信息;(3)理论上比较成熟,
有现成的方差估计公式。
3、缺点: (1)没有利用辅助信息;(2)样本
分散,面访费用较高;(3)有可能抽到较差的样本;
(4)抽选大样本比较费时。
(二)系统抽样
1、定义:又称等距抽样,对研究的总体按一定
的顺序排列,每隔一定的间隔抽取一个单元的抽样方
法。
2、抽选方法:设总体单元数为N,要抽n个单元
为样本,先计算抽样间隔k=N/n,在1到k之间抽取一
个随机起点r,则被抽中单元的顺序位置是:r,r+k,
r+2k,…。
起点r
r+k
r+2k
r+3k
圆形系统抽样方法:当N不能被n整除时,用圆形系
统抽样法可以避免出现样本量可能不一致的情况。把总
体单元假想排列在一个圆上,取 k = N/n 最接近的整数,
作为间隔,然后在1到N之间,抽取随机起点 r,则被抽
中的单元顺序号为: r,r+k,r+2k,……r+(n-1)k。
如:N=55,n=9,就取k=6,在1到55之间取一个随机
起点。例如r=42,则被抽中的单元是42,48,54,5,11,
17,23,29和35 。
3、系统抽样的优点
(1)没有抽样框时可代替简单随机抽样方法简单;
(2)不需要辅助的抽样框信息;
(3)样本的分布比较好;估计值容易计算。
4、系统抽样的缺点
(1)若抽样间隔与总体的某种周期性变化一致,会得
一个差的样本;
(2)不使用辅助信息使抽样效率不高;
(3)使用概念框时,不能预先知道样本量;
(4)没有一个无偏的方差估计量;
(5)当N不能被n整除时会得到样本量不同的样本。
(三)整群抽样
1、定义:由若干个有联系的基本单元组成的集合称为
群,抽样时以群为抽样单元的抽样方法就称为整群抽样。
整群抽样示意图:
黄色为总体
红色为群
白点为基本单元
2、整群抽样的优点:
(1)能大大减低收集数据的费用;
(2)当总体单元自然形成的群时,容易取得抽样框,
抽样也更容易;
(3)当群内单元差异大,而不同群之间的差异小时,
可以提高效率。
3、缺点:
(1)若群内个单元有趋同性,效率将会降低;
(2)通常无法预先知道总样本量,因为不知道群内有
多少单元;
(3)方差估计比简单随机抽样更为复杂。
(四)分层抽样
1、定义:在抽样之前将总体分为同质的、互不重叠
的若干子总体,也称为层。然后在每一个层独立地随机
抽取样本。
分层抽样示意图:
2、优点:
(1)由于性质相同的单元分在同一层,层内差异缩小,可
以提高抽样效率;
(2)可以得到各层子总体的估计;
(3)操作与管理方便;
(4)能避免得到一个“差”的样本。
3、缺点:
(1)对抽样框的要求比较高,必须有分层的辅助信息;
(2)收集或编制抽样框的费用比较高;
(3)若调查变量与分层的变量不相关,效率可能降低;
(4)估计值的计算比简单随机抽样复杂。
(五)多阶抽样
1、定义:它是由两个或更多个连续的阶段抽取样本
的方法。
多阶抽样示意图:
第一阶样本
最终样本
总体
2、优点:
(1)当群具有同质性时,多阶抽样的效率高于整群抽
样;
(2)样本的分布比简单随机抽样集中,采用面访可以
节约时间和费用;
(3)不需要整个总体单元的名录框,只要群的名录框
和抽中群的单元名录框。
3、缺点:
(1)效率不如简单随机抽样;
(2)通常不能提前知道最终的样本量;
(3)调查的组织较整群抽样复杂;
(4)估计值与抽样方差的计算较为复杂。
(六)多相抽样
1、定义:在同一个抽样框内,先抽一个大样本,
收集基本的信息,然后在这个大样本中再抽一个子样本,
收集调查的详细信息。
多相抽样示意图:
。。。。。。。。
。。。。。。。。
。。。。。。。。
。。。。。。。。
第一相样本
第二相样本
。。。。。
。。。。。
。。。。
2、优点:
能显著提高估计值精度(与简单随机抽样相比);能
用来获得抽样框中所没有的辅助信息(特别是分层信息);
适用于某些调查指标的数据收集费用特别高,或
会给被调查者带来较重的回答负担的情况。
3、缺点:
如果需要根据第一相的结果来进行第二相调查,得到
整个调查结果的时间比单相调查长;由于对某些样本单元
访问次数超过一次,故所需费用比一相调查要多;调查的
组织会很复杂;估计值和抽样误差的计算会相当复杂。
第二节
抽样分布
一、正态分布
二、抽样分布
一、正态分布
如果总体各个体的标志值以总体平均数为中心,形成
钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼
近,无限延伸出去,但不接触横轴,则这种分布就叫做
正态分布,或高斯分布、常态分布。服从正态分布的总
体称为正态总体。
如果一个随机变量X服从正态分布,则其分布的密度
函数(分布曲线方程)为:
f ( x) 

1

2
e
1
(
x
2

)
2
当μ=0,σ2=1时,称该分布为标准正态分布。标准正
态分布的密度函数为
f ( x) 
1
2

e
1
2
x
2
任何正态分布,它的样本落在任意区间(a,b)内的概
率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可
由正态分布概率积分表查得)。经计算,正态总体的样本
落在:
(-σ, +σ)概率是68.27%;
(-2σ, +2σ)概率是95.45%;
(-3σ, +3σ)概率是99.73%;
(-1.96σ, +1.96σ)概率是95%;
二、抽样分布
抽样分布是根据所有可能样本计算出来的某一
统计量的数值分布。
抽样分布有极限分布和精确分布两类。极限分
布也叫做大样本分布,它只有正态分布一种形
式;精确分布又叫做小样本分布,其前提是总体
服从正态分布,它是正态分布的导出分布,包括
有t分布、F分布和  分布等形式。
2
(一)样本统计量的极限分布
1、如果总体服从正态分布,且均值和方差均为已知,即
Y ~ N ( , )
2
则可以证明不论样本量大小如何,样本均值都围绕总体
均值而服从正态分布,并且其抽样分布的方差等于总体方差
的n分之一,即
y ~ N ( ,
2
/ n)
2、对于非正态总体,若均值μ和σ2有限,则根据中心极限
定理,当样本量n充分大时,样本均值仍然围绕着总体均值
而近似地服从正态分布,即
y ~ N ( ,
2
/ n)
(二)样本统计量的精确分布
1、  分布
2
设随机变量Yi~N(0,1)(i=1,2,…,n),且相互独立,则
2
2

Y=∑Y i服从自由度为n的
分布,记作
Y ~  (n)
2
其概率密度函数为:
n
x
1 

1
2
2
x
e
, x  0;
 n

f  x    2 2   n 
2

 0
, x  0.
式中 n 是正整数,Γ(n/2)是Γ(伽马)函数
( y) 


0
当 y=n/2 时的函数值。
t
e t
y 1
dt
( y0)
χ2 分布的主要性质有:①f(y)恒为正;②χ2 分布呈右偏形态;③χ2 分布
随 n 的不断增大而逐渐趋于正态分布。
可以证明,χ2 分布χ2(n)的数学期望和方差分别为
EY=n, DY=2n.
f(x)
n=1
n=4
n=10
n=20
0
x
图 3.6 χ2 分布的概率密度曲线
2、t分布
若X~N(0,1),Y~χ2(n),且X与Y相互独立,则称随机变量
T 
X
Y /n
服从自由度为n的t分布,记作:T~t(n)。
推论:若X~N(μ,σ2),σ2未知,则
T 
X  
S /
n
f(t)
t 分布
服从自由度为n-1的t分布,记作:T~t(n-1)
正态分布
t分布t(n)的概率密度函数为
(
f (t ) 
n 1
)
2
n  (
n
2
(1 
)
t
2

)
n 1
2
n
0
图 3.7 t 分布的概率密度曲线
t
t分布具有如下性质:
①t分布对称于纵轴,与N(0,1)相似;
②在n<30(小样本)时,t分布的方差大于N(0,1)的方
差;
③在n≥30(大样本)时,t分布随n的增大而趋于N(0,
1)。
t分布t(n)的数学期望与方差分别为:
ET=0,DT=n/(n-2).(n>2)
3、F分布
若X~χ2(n1),Y~χ2(n2),且X与Y相互独立,则称随机变量
F 
X / n1
Y / n2

X
Y

n2
n1
服从第一自由度为n1,第二自由度为n2的F分布,记作:F
~F(n1,n2) 。其概率密度函数为
x0
0,

n1  n 2
)
n1
n1  n 2
 (

1

n
n
n
f ( x)  
2
( 1 )( 1 x ) 2 (1  1 x ) 2 , x  0

n1
n2 n2 n2
n2
  ( ) ( )
2
2

F分布的主要性质有:
①F分布呈右偏态;
②f(x)恒为正;
③在F0处取最大值(n1>2,f0<1);
F0 
n1  2
n1

f(x)
n2
n2  2
0
x
图 3.8 F 分布的概率密度曲线
④随n1,n2的不断增大,F分布的右
偏程度逐渐减弱,但不会趋向正态;
⑤具有倒数性质,即若X~F(n1,n2),则1/X~F(n1,n2);
⑥若t~t(n),则t2(n)~F(1,n)。
其数学期望和方差分别为
EX 
n2
n2  2
2 n 2 ( n1  n 2  2 )
2
,
DX 
n1 ( n 2  2 ) ( n 2  4 )
2
.
(n 2  4)
第三节
抽样误差
一、抽样调查中的误差来源
二、抽样误差的计算
一、抽样调查中的误差来源
误差就是调查结果与现象的实际结果之间的偏
差,它几乎在所有的统计调查中都或大或小的存在
着。
在抽样调查中,按照形成原因的不同,一般可
将误差分成抽样误差和非抽样误差两大类。
抽样误差是用样本统计量推断总体参数时的误
差,它属于一种代表性误差。在抽样调查中抽样误
差是不可避免的。但同非抽样误差不同的是,抽样
误差可以计算,并可以被控制在任意小的范围内。
影响抽样误差的因素:
1.抽样误差通常会随样本量的大小而增减。
2.所研究现象总体变异程度的大小。
3.抽样的方式方法。
非抽样误差不是由于抽样引起的。它又包括:调
查误差;无回答误差;抽样框误差;登记性误差。
同抽样误差相反,非抽样误差是随着样本量的增
加而增大的。由于抽样调查的访问和资料整理都比普
查更便于进行,因此非抽样误差也远远小于普查。有
时,普查中的非抽样误差甚至大于抽样调查中抽样误
差与非抽样误差的总和。
二、抽样误差的计算
1.对于不放回简单随机抽样,其总体均值简单估计
量的方差为
( N  n) 2 1  f 2
V (Yˆ ) 
S 
S
nN
n
2.对于系统抽样,如果总体单元是按无关变量排列
(即随机排列)的,则其均值或比例估计量的方差可
按简单随机抽样去做;若总体单元是按有关变量排列
的,则可根据等距样本内方差计算来均值估计量的方
差:
V ( y sy ) 
N 1
N
S 
2
k ( n  1)
N
S
2
wsy
S
2
wsy

1
K

k ( n  1)
i
n
 ( y ij  y i )
j
2
3.对于群大小相等的整群抽样,其均值估计量的方
差计算公式为:V (Yˆ )  1  f S 2 S 2  1 N (Y  Y ) 2
b
nM
b
N 1

i
i 1
4.对于分层随机抽样,其均值估计量的方差的计算方
法为:
V  y st

L
1
2
N


W
h 1
h
N h
 nh
h 1
L

N
2
1 fh
h
nh
2
Sh
当采用按比例分配时
V  y st  
1 f
n
L
 WhSh
2
h 1

2
Sh
nh
特别说明
(1)由于比例问题实际上就是一种特殊的均值问
题(这一点很容易可以证明),所以,总体比例估计
量的方差计算公式可在均值估计量的方差计算公式
基础上推出;
(2)上面给出的是不放回抽样时估计量方差的算
法公式,忽略其中的因子(1-f),即可得到有关放回
抽样时估计量方差的计算公式。
第四节
抽样估计
一、抽样估计的特点
二、抽样估计的基础理论
三、抽样估计的方法
四、几种主要概率抽样的估计量
五、置信区间
六、估计量的优良标准
七、样本量的确定
一、抽样估计的特点
第一,抽样估计在逻辑上运用的是归纳推
理而不是演绎推理。
第二,抽样估计在方法上运用不确定的概
率估计法而不是运用 确定的数学分析法。
第三,抽样估计的结论存在着一定程度的
抽样误差。
二、抽样估计的基础理论
大数定律是用样本估计总体的理论基础。其直观
含义是随机事件的规律性是在大量观察中才能显露出
来,随着观察次数的增加,随机影响将相互抵消而使
规律具有稳定的性质。如随着样本的增大样本均值会
与总体均值接近。
中心极限定理是进行区间估计的理论基础。它证
明了不论总体服从什么分布,只要方差有限,在观察
值足够多时,估计量的分布就趋向正态分布。
三、抽样估计的方法
抽样估计的方法多种多样。如果以估计中所依据
的资料不同来区分,一般可以有简单估计、比估计和
回归估计等三种方法。
简单估计是单纯依靠样本调查变量的资料估计总
体参数,其估计结果称为简单估计量;
比估计和回归估计是同时依据样本调查变量以及
已知的有关辅助变量的资料来对总体参数做出估计,
其结果分别称为比估计量和回归估计量。
如果以估计结果的表示方式来区分,则抽样估计
可以有两种形式,即定值估计和区间估计。
四、几种主要概率抽样的估计量
1、简单随机抽样
总体均值的无偏估计量为
1
ˆ
Y 
n
n

yi  y
i 1
总体比例的无偏估计量为
Pˆ  p
2、系统抽样
在总体容量N能被样本量n整除的情况下,总体均值
的无偏估计量为等距样本的均值:
y sy  y i 
1
n

n
y ij
j 1
总体比例的无偏估计量为等距样本的比例:
Pˆ  p i
3、整群抽样
如果群大小是相等,并且群的抽取是按简单随机
方式进行的,则总体均值的简单估计量为
ˆ
1
Y  y 
n
n
Y
i
i 1
总体比例的无偏估计量为
Pˆ  p 
1
n
P

n
i
i 1
4、分层随机抽样
均值的无偏估计量为:
L
y st 
W
L
h
Yh 
h
W
h
yh
h
ph
h
总体比例的无偏估计量为:
Pˆst 
L
W
h
Pˆh 
h
L
W
h
当采用按比例分配时,其均值估计量的方差可进一步
简化为如下形式:
1
ˆ
Y st  y st 
n
L
nh
y
h 1 i 1
hi

1
n
y
两点说明
(1)上面所给出的估计量均为简单估计量;
(2)在总体均值估计量的基础上可以方便地推出总体
总和的简单估计量。
五、置信区间
一般地说,若估计量 ˆ 是无偏的,且呈正态分布,则参数θ的置信度为 1-
α的置信区间可以写成
(ˆ  KS (ˆ ), ˆ  KS (ˆ ))
当调查变量的总体方差σ2已知时,上述置信区间可表示为
(ˆ  Z  S (ˆ ), ˆ  Z  S (ˆ ))
2
2
当调查变量的总体方差未知时,则用相应的样本方差
代替,并用较大的tα/2值来代替Zα/2。此时,置信区间就
可以表示成
(ˆ  t  Sˆ (ˆ ), ˆ  t  Sˆ (ˆ ))
2
2
六、估计量的优良标准
1、无偏性
用样本指标估计总体指标要求所有可能的样本指
标的平均值等于对应的总体指标值。
2、一致性
用样本指标估计总体指标要求当样本容量充分大
时,抽样指标也充分地靠近总体指标。换言之,随着
样本单元数n的无限增大(无限接近于总体单元数N),
抽样指标和总体指标间的绝对离差可以无限缩小。
3、有效性
用抽样指标估计总体指标要求作为优良估计量的
方差应该比其他估计量的方差小。
七、样本量的确定
确定样本容量时,必须在估计的精度要求和可供
调查使用的费用之间进行权衡,使在费用一定的条件
下精度达到最高,或在精度要求得到保证的前提下使
费用最省。
对于给定的均值或比例估计的精度水平,所需的
样本量按如下思路确定:
1.对于简单随机抽样,给定均值估计的精度(100
%回答)。通常使用误差限和估计量的标准差来确定
所需的样本量。设允许的误差限为e,则由
得
ˆ
Sˆ (Y ) 
(1 
n
N
)
Sˆ
n
2
2
z Sˆ
n 
e 
2
2
2
z Sˆ
N
2.对于简单随机抽样,给定比例估计的精度
(100%回答率)
2
z Pˆ (1  Pˆ )
n 
2
z Pˆ (1  Pˆ )
2
e 
N
如果抽样不是简单随机的,那么在计算样本量时,
还需要对抽样设计的设计效应deff的估计值,若回答
率小于100%,还需要一个回答率的估计值r。
3.对一般抽样设计,给定比例估计的精度,逐步
计算样本量(回答率小于100%),即先计算初始样本
量,然后根据总体大小、设计效应和回答率分别对它进
行调整,最后求得最终样本量。
第l步:计算初始样本量
n1 
2
z Pˆ (1  Pˆ )
e
2
第2步:对总体大小进行调整
n 2  n1
N
N  n1
第3步:如果抽样设计不是简单随机抽样,则用下
面公式对样本量进行调整
n 3  deffn
2
第4步:根据无回答再次进行调整,以确定最终的
样本量n:
n3
n 
r
其中,r为预计的回答率。
本章小结
1、必要样本量和样本可能数目
2、抽样框
3、抽样的类型
4、常见的概率抽样方法
5、正态分布
6、样本统计量的极限分布
7、样本统计量的精确分布
8、误差及其种类
9、抽样误差的影响因素
10、抽样误差的计算
11、抽样估计的特点
12、抽样估计的方法
13、置信区间的构造
14、样本量的确定