对于πPS等距抽样

Download Report

Transcript 对于πPS等距抽样

第八章
系统抽样
第一节 概述
第二节 等距抽样的实施方法
第三节 总体参数的估计
第四节 其它形式的等距抽样
1
第一节
概述
1.定义
2.排序标志
3.特点
4.与整群抽样和分层抽样的关系
2
1.定义
设总体中的N个单元按一定顺序(随机的或按某
种规律排列),编号为1,2,…,N,采取如下方法从总
体中抽取一个样本量为的样本:
先抽取一个或一组随机数字作为起始单元的编
号,然后按一个确定的规则抽取其他单元。称为系
统抽样。
3
最简单的系统抽样是等距抽样 :
在抽取起始单元的编号后,按一确定间距k,
逐个抽取样本单元 ,其中k称为抽样间距。具体
地说,先在1至k之间随机抽取一个整数i,以它作
为起始单元的编号,则整个样本是由以下编号的
单元组成的:
i  ( j  1) k
( j  1, 2 ,  , n )
4
如果总体容量N是所需样本容量n的整数倍,
则抽样间隔k=N/n也是一个整数。
但当总体容量N不是n的整数倍时,可以考虑
采用以下一些变通方法:
取k为最接近于N/n的整数;
可以挑选k以使得大于nk,但小于(n+1)k;
用等概率的方法删去一些单元,以使k=N/n ;
采用小数表示的分数间隔;
5
2.排序标志
等距抽样需要有作为排序依据的辅助标志。
排序标志各式各样,可自由选择,但归纳起来,
可分为两类,即无关标志和有关标志。
6
按无关标志排序
所谓无关标志排序,即用来对总体单元进行
排序的标志,与所要调查研究的标志是不同性质
的,二者没有任何必然的关系。如研究人口的收
入状况时,按身份证号码、按门牌号码排序非常
方便。
这实质上相同于简单随机抽样,二者只是抽
样形式不同而已,完全无损于随机原则,它们在
估计精度上也是一致的。
7
若将总体看做是固定的 ,则有定理:
对固定的有限总体 Y 1, Y 2, , Y N  ,以 V sy 表示
从中抽取样本量为n的简单随机样本估计量的方差,
以
表示对某个确定的单元排列进行系统抽样
V srs
估计量(样本量皆为n)的方差。则全部种单元不
同排列的
的均值满足:
V sy
E ( V sy) V ran
8
若将总体看做是从一个无限的超总体中随机
抽取的一个样本量为的样本,“平均”是指对从
该超总体中所有可能的容量为N的样本求期望值,
则:
E ( V sy) E ( V ran )
9
按有关标志排序
所谓有关标志排序,即用来对总体单元规定
排列次序的辅助标志,与调查标志具有共同性质
或密切关系。
线性趋势
单元指标呈周期性变化的情形
单元指标呈自相关的情形
10
此外,在对某些总体进行排序时,也可以使
用时间标志,即按时间先后顺序进行等距抽样。
如对连续性生产(或作业)的产品每隔一定时间抽
取一件或若干件样品作质量检验;每隔若干天进
行市场物价抽查;按时间先后顺序排列的发票每
隔多少张抽取一张进行审核等。时间标志等距抽
样有时与调查标志无关,有时则可能有关,这要
视具体情况而定。
11
3.等距抽样的特点
(1)将总体各单元按一定的顺序排列后再抽样,
使得样本单元的分布更加均匀,因而样本也就更
具代表性,比简单随机抽样更精确,在某些场合
下甚至可以不用抽样框。
(2)等距抽样简单明了,快速经济,操作灵活
方便,使用面广,是单阶段抽样中变化最多的一
种抽样技术。
12
(3)当N=nk时,等距抽样就等同于每层只抽一
个单元的分层抽样或群的大小相等时只抽一个群
的整群抽样。
(4)等距抽样的样本常被视为一个集体单元,
一般不计算样本调查变量的方差,所以它只能抽
象地进行理论分析,而不能对抽样方差进行估计。
(5)若总体中的单元呈周期性的变化,等距抽
样的精度可能很高也可能很差。这时要慎重地选
择k。
13
4.与整群抽样和分层抽样的关系
系统抽样可以看成是一种特殊的整群抽样,
也可以看成是一种分层抽样。
以等距抽样为例,将总体中的N个单元按k个
一组排成表,共有k列n行。
1
2
…
i
…
k
1
y 11
y 21
…
y i1
…
y k1
2
y 12
y 22
…
yi2
…
yk2





n
y 1n
y 2n
…
y in

…

y kn
14
每个系统样本都是由上表中的一列单元所组
成的,如果将每一列单元看作为一个群(大小为
n),则总体由k个群组成。
若将上表中的行看成为层,则每个系统样本
都包含每层中的一个单元,因此系统抽样也是一
种分层抽样,不过由于样本单元在层中的位置都
是一样的,因此它不是分层随机抽样。
15
第二节
等距抽样的实施方法
1. 随机起点等距抽样
2. 循环等距抽样
3. 中点等距抽样
4. 对称等距抽样法
5. 两端修正法
6. 总体有周期性变化时的等距抽样
7. 累计和等距抽样
16
在等距抽样中,最简单最基本的方法是随机
起点等距抽样。但在实际实施等距抽样时,考虑
到排序标志的不同,以及总体单元数是否能被某
一数值整除等因素,具体的抽样实施方法又可以
有一系列不同的变化。下面介绍几种常见的等距
抽样实施方法。
17
1.随机起点等距抽样
随机起点等距抽样就是前面概念所描述的方
法。具体地说,它是在总体单元排序后的第1至k
单元之间(第一个抽样间隔之内)随机抽取一个整
数i,以它作为起始单元的编号,以后按固定的
顺序和间隔依次在每个间隔之内各抽取一个单元
组成等距样本,则整个样本是由以下编号的单元
所组成的:
i  ( j  1) k ( j  1, 2 ,  , n )
18
由于N不一定恰好是k的整数倍,所以按上述方法得
到的等距样本的样本量可能
为
N 
n   
k 
或
N 
n    1
k 
。
为避免这种样本量不能确定的情况,确保样本量
为,1952年拉希里提出了循环等距抽样的方法。
19
2.循环等距抽样
在 N  nk 时,把总体中的N个单元按一定
顺序排列成一个首尾相接的环。取最接近于N/n
的整数为抽样间隔k。随机抽取一个单元(设为第
单元i)作为起点,再沿着圆圈按一定方向每间隔
k抽取一个单元,直到抽够n个单元为止。
按此方法,可以保证样本量n不变。不过此
时首尾两个样本单元的间隔不一定恰好为k。循
环等距抽样从本质上看仍然是随机起点等距抽样。
20
3.中点等距抽样
1953年麦多为克服随机起点等距抽样容易产
生系统性偏差的缺点,提出中点等距抽样(即抽取
中心位置的样本)法:计算出抽样间隔k后,以第
一组的组中点为起点,等距抽取单元组成样本。
如果k为奇数,以(k+1)/2为起点,k为偶数,以
k/2或(k+2)/2为起点。
显而易见,这一方法是比较合乎逻辑的。
21
4.对称等距抽样法
对称等距抽样也是针对有序等距抽样所提出
的,其基本思想是使低标志值的单元与高标志值
的单元在样本中对等出现。从而使样本的偏差缩
小,代表性增强。由于具体的方法不同,对称等
距抽样又有两种类型。
塞蒂的方法——两两对称等距抽样
辛的修正方法——中心对称等距抽样
22
对称等距抽样既不违反随机原则,又能避免
样本产生系统性偏差,改进样本的代表性,因而
其估计效率比一般等距抽样要高,所以是实际中
应用最多的方法。
23
5.两端修正法 (首位校正法)
抽样方法同随机起点等距抽样时的情形。但
在计算总体均值的估计量时,对第一个和最后一
个样本单元加权,其余单元的权数仍为1/n,以
矫正由于起点不在中心位置而引起的系统偏差。
耶茨的方法
贝尔豪斯与拉奥的方法
24
6.总体有周期性变化时的等距抽样
有一些总体,其单元的标志值在随时间的自
然排列顺序中,会呈现某种明显或不明显的周期
变化趋势。对有周期变化趋势的总体进行等距抽
样时,抽样间隔k的选择,对估计效率的影响是
极为重要的。
25
我们不妨假定总体单元标志值的变化为一正
弦曲线。如果选择的抽样间隔恰好等于周期或周
期的整倍数,则那样的样本只反映了变化周期同
一相位的信息,每个样本单元的值都一样,必然
产生显著的系统性误差,所以是最不好的选择。
如果选择抽样间隔K等于半周期或半周期的奇数
倍,则会反映变化周期中相反的两个相位的信息,
当n为偶数时,各样本单元的离差相互抵消,样
本平均数恰好等总体平均数,所以是较好的选择。
26
7.累计和等距抽样
如果抽样单元的大小不同,且单元的大小又与
调查变量相关时,用上述方法就不大合适了,此时,
应采用不等概率抽样。
其基本思路是:在总体各单元按某一标志排序
后,累计各单元的大小Mi(当各抽样单元的大小用
所含下一阶单元的数目表示时,也可直接累计其下
一阶单元数)并进行编码,以总的累计数除以n作为
抽样间隔,用K表示,然后在最初的1到K个数中随
机确定一个数j(1≤j≤K),j所对应的单元即为第
一个被抽中单元,以后每间隔K抽取一个随机数,
并按同样的方法确定出对应的单元作为样本单元,
组成等距样本。
27
第三节
总体参数的估计
1. 等概率抽样的情形
2. 不等概率抽样的情形
28
1. 等概率抽样的情形
为讨论方便,仍假设N=nk,则在如下的排列
形式中,有:
yi 
1
n

n
y ij (i=1,2,…,k)
j 1
29
我们记 y ij 表示第i个等距样本中第j个单位。
第i个样本的均值记 y i ,总体均值 Y 的估计量
用 y sy 表示,则
n
y sy  y i 
1

n
y ij
j 1
是总体均值的无偏估计。
若N≠nK,则上述估计量是有偏的,但当n充
分大时,其偏倚可以充分小。
30
估计量的方差
如前所述,如果总体单元是按无关标志排列
的,则其方差可按简单随机抽样去做。若总体单
元是按有关标志排列的,则此时的等距抽样可以
看作是整群抽样或分层抽样的特例,因此,等距
抽样估计量的方差可以比照整群抽样或分层抽样
的方法构造,有几种表示方法:
31
用等距样本内(群内)方差表示
设等距样本为表中第i列单元,且i是随机决
定的,则
V ( y sy ) 
其中
S wsy 
2
1
K ( n  1)
K
N 1
K ( n  1)
N
N
2
S wsy
n
 
i
S 
2
( y ij  y i )
2
j
为等距样本(群)内方差; S 2 为总体方差。
32
用等距样本内(群内)相关系数表示
V ( y sy ) 
其中 
wsy

N 1
N
S [1  ( n  1)  w sy ]
E ( y ij  Y ) E ( y iu  Y )
E ( y ij  Y )
2
2

K
1
( n  1)( N  1) S
2
n
  (y
i
ij
 Y )( y iu  Y )
ju
为同一等距样本内(群内)成对的单元之间的相关系
数。
33
用同一等距样本内单元对关于层平均值的
相关系数表示
S w st N  n
2
V ( y sy ) 
其中:S
2
wst
n
1

n(K
N
n
[1  ( n  1)  w st ]
K
(y


 1)
S wst N  n
h
ij
 yh )
2
为层内方差;
i
2
n
N
yh 
 wst 
1
K
恰为比例分配分层随机抽样的方差;
K

i 1
y ih
是第h层即第h间隔的平均值;
E ( y ih  y h ) E ( y iu  y u )
E ( y ih  y h )
2

2
n ( n  1)( K  1)
K
n
( y ih  y h )( y iu  y u )
hu
S wst

i
2
是等距样本内单位对关于层平均值的相关系数。
34
方差估计量
总体单元无序排列时,
1 f 2
ˆ
V ( y sy ) 
s
n
其中
s
2

1
n 1
n

( y j  y sy )
2
j 1
35
总体单元有序排列时,把相邻两行(层)的2K个单
元组成一层,从中抽取2个单元作为样本,这样总
体就被合成了n/2层(假设n为偶数) 。则:
第h层的层内方差为:S 
2
h
1
2
( y i 2 h  y i 2 h 1 )
2
代入比例分配的分层随机抽样的有关公式,得:
n
Vˆ ( y sy ) 
1 f
n
2
2
 (y
i2 j
 y i 2 j 1 )
2
j 1
36
n/2
 (y
i2 j
 y i 2 j 1 ) 是相邻两个标志值的一阶差分,
j 1
它们间互不重叠, Vˆ ( y sy ) 中利用了n/2个这样的
一阶差分,这就要求n必须是偶数。为摆脱这个限
制,增加平方和的自由度,以每相邻两个标志值
的一阶差分(它们是重叠的,共n-1个)代替n/2个
不相重叠的一阶差分,得:
1 f
ˆ
V ( y sy ) 
n
n

j2
( y ij  y ij 1 )
2
2 ( n  1)
37
第2和第3种估计量只是考虑了样本观测值的
二阶差分,可以考虑用更高阶的差分,于是有以
下三种方差估计:
Vˆ4 ( y sy ) 
1 f
n
1 f
ˆ
V 5 ( y sy ) 
n
Vˆ6 ( y sy ) 
1 f
n
n
b
2
6 ( n  2 ) 
2
3 . 5 ( n  4 ) 
ij
j3
n
c
ij
j5
n
d
j9
2
ij
7 . 5 ( n  8 ) 
其中:
2
b ij   a ij   Y ij  Y ij  2 Y i , j 1  Y i , j  2
c ij 
1
d ij 
1
1
1
 Y ij   Y i , j 1  Y ij  Y i , j 1  Y i , j  2  Y i , j  3  Y i , j  4
2
2
2
2
1
4
2
 Y ij  3  Y i , j 1  5  Y i , j  2  2  Y i , j  3
8
6
4
2
1
 Y ij  Y i , j 1  Y i , j  2  Y i , j  3    Y i , j  7  Y i , j  8
2
2
39
若将样本随机地分成m个子样本,每个包含
n/m个单元,令 y  为第  个子样本的平均数,
则
1 m
y sy 
y

m  1
于是
V ( y sy )
也可用下式估计:
Vˆ7 ( y sy ) 
1 f
m ( m  1)
m

( y   y sy )
2
 1
40
最后一个估计量是用估计中相距为k的两个单元的
相关系数  k 来表示的,事实上,可以用此构造
一类估计量:
1  f


2
2
2
s 1 


,若 ˆ k  0;
1
 n
ln ˆ k
ˆ k  1 

ˆ

V 8 ( y sy )  
1  f 2
s , 若 ˆ k  0

 n
41
不同估计量的比较
1.随机模型.可以证明的前七个估计的期望偏
倚皆为零,因此对于随机模型,所有估计的效果都
不错,但鉴于 Vˆ1 ( y sy ) 最简单,故它是最佳选择。
2. 线 形 趋 势 模 型 . 从 相 对 期 望 偏 倚 的 观 点
看, Vˆ2 ( y sy ) , Vˆ3 ( y sy )
最好。
3.分层效应模型. Vˆ5 ( y sy ) 与 Vˆ6 ( y sy ) 一般较好。
4.自相关模型. Vˆ ( y ) ,Vˆ ( y ) ,Vˆ6 ( y sy ) 较好。
5.如果模型不了解,建议使用 Vˆ ( y ) ,Vˆ8 ( y sy )
具体过程可见冯书P254-P258
4
sy
5
sy
2
sy
42
2.不等概率抽样的情形
不等概率系统抽样是使用最为广泛的不放回
不等概率抽样方法之一。它之所以受欢迎,主要
是因为它结合了系统抽样方便易行与不等概率抽
样的高效率的共同特点。作为一种不放回的不等
概率抽样,它很容易地成为一种πPS抽样,其方
法也适用于任意样本量n的情形。这与许多实用的
πPS抽样仅适用于n=2的情况完全不同。因此不等
概率系统抽样的总体效率较高,不过与其他一些
系统抽样一样,它的方差估计是较为困难的。
43
估计量及方差估计
概率抽样中的Horwitz—Thomposon估计量:
YˆHT 
n
yi

i 1
i
对于πPS等距抽样,又有 YˆHT 
1
n
yi

n

i 1
i
是无偏的,其方差可表示为(此时,n是固定的)
44
对于πPS等距抽样,又有
YˆHT 
1
n
n

i 1
yi

i
是无偏的,其方差可表示为(此时,n是固定的)
V (YˆH T ) 
N

i 1
1i
i
N
N
Yi  2  
2
i 1 j 1
 ij   i j
 i j
N

N
  ( i j   ij )(
i 1 j 1
Yi
i

Yj
j
)
2
45
由于对一般的n,  ij 的形式极为复杂,且有
可能为零,因此,关于的估计可按如下思路进行:
一种考虑是将不放回的πPS等距样本作为放回的
PPS样本处理可得到如下的方差估计形式
1
n
yi
(

n ( n  1)
z
i 1
i
 YˆHT ) 
2
1
ny i
(

n ( n  1)

2
ˆ
 Y HT )
i
46
因为实际抽样是不放回的,为此,应考虑乘
上有限总体修正系数1-f,由于这里的单元实际上
是不平等的,因此,f不是简单的等于n/N。我们
使用f的以下估计
1
ˆ
f 
n
n

i
i 1
47
则可以得到方差估计量的另一种形式:
n
1
V (YˆHT ) 

i
/n
i 1
n ( n  1)
n
ny i
(
i 1
2
ˆ
 Y HT )
i
对于随机排列的总体,V (YˆHT ) 的效果很好。
48
第四节
其它形式的等距抽样
1. 分层等距抽样
2. 二维等距抽样
3. 空白问题
49
1. 分层等距抽样
我们已经看出,若单位的顺序安排得恰当,等
距抽样给出了一种具有相同抽样比的分层抽样。假
如按另一某种标准分层,我们可以在每一层内分别
抽得一个的等距样本,它的起点是独立决定的。若
要对每一层进行分别估计,或要用不同的抽样比,
这样是合适的,这就是所谓的分层等距抽样。而一
般的等距抽样实际上就是一种特殊的比例分配分层
抽样。所谓特殊,是指在各层中起点的选取不是相
互独立的,而是由第一层起点所决定的。
50
分层等距抽样可以集中发挥分层抽样和等距抽
样的优点。实际中,如果需要知道各层的估计资料,
或者需要在各层安排不同的抽样比,或者在各层内
等距抽样比简单随机抽样更精确更方便,显然应该
采用分层等距抽样方法。
51
分层等距抽样时,总体平均数的估计量应该是:
将各层等距抽样的估计量加权平均。即若 y syh 为
第h层等距样本的平均数,则总体平均数的估计量
为
y sy 
其中
y syh 
1
N

N
h
y syh 
W
h
y syh
y hi / n h
52
估计量的方差为
V ( y sy ) 
K
1
N
2

2
N h V ( y syh )
h 1
K
 Wh Sh
2
K


h 1
2
2
Wh Sh
nh
K
(1  f h ) 

h 1
2
2
Wh Sh
nh

2
h 1
N
其中 S h2 为第h层估计量的方差,在相应的条件下,
可由前面所介绍的方差估计量进行估计。
53
若从每一层抽取两个等距样本,具有不同的
随机起点,相同区间2k,就能得到误差方差的无
偏估计,每层提供一个自由度。若等距抽样是有
效的,这样做在精确度上是有些损失的。若有很
多层,为了估计误差这个目的,可对大部分层用
一个等距样本,每个层抽取两个随机子样本。
54
2.二维等距抽样
二维等距抽样,是对分布在平面上的总体单
元直接进行的等距抽样。如农产量调查和森林木
材积蓄量调查中,从抽中地块抽取样本点,即属
这种情况。
实际上,我们所研究的总体单元绝大多数分
布在平面上,以前是通过对总体单元的编号,排
队等方法,将它化为“一维等距抽样”。但在一
些情况下,还需直接在平面上抽取样本。
1 方格法
2 垄测法
55
3.空白问题
总体清单中可能分散着许多空白或异类元素,
有时重编号太困难了,这些空白仍必须保留着。
而且在处理一个次级组时,不属于该组的单位在
清单上是以空白的形式出现的。无回答的项目也
可以看成是空白。考察一个有m个成员和B个空白
的清单,nk=N=M+B。间隔k将以概率1/k选出m个
单位,但m不是固定的,而是一个变数,其期望
值为M/k
56
如果已知总体的容量M,我们可以用所希望
的样本容量m*来计算k=M/m*,并获得一个与所希
望的m*差不多大的实际的m。如果M是未知的,则
样本容量将因为我们对M的无知而受到影响。可
以抽取一个容量为m的预备样本,如果这个预备
样本的容量比我们所想要的大(m> m*),则可
以用间隔m/(m- m*)从预备样本中抽选,并将
选出的单位从预备样本中删去以使其容量降低到
m*。
57
如 果 预 备 样 本 的 容 量 比 我 们 所 想 要 的 小 ( m<
m*),则我们可以用间隔km/(m- m*)对总体再
进行选样并把结果补充到预备样本中去。上述两
个样本的容量最后都应该和m*的大小差不多。这
些方法并不是严格的等概率选样方法。但如果m*
较大或我们对号码顺序有足够了解的话,这些方
法在很多情况下都是可用的。否则,我们可能回
放弃等距选样方法而采用随机选样方法,或者是
分层随机选样方法。
58
本章内容讲授结束