抽样调查

Transcript 抽样调查

例：某城市三个市场上有关同一种商品销售资料如下
市场销售价格（元）
基
期
A
2.5
B
2.4
C
2.2
合计 ——
劳动生产率（吨/人）
报告期
基期
报告期
3.0
2.8
2.4
——
700
670
550
1960
560
710
820
2090
要求：建立指标体系，对平均销售价格变动进行因素
分析。
第七章
•
•
•
•
•
抽样调查
第一节抽样调查的概念和作用
第二节抽样调查中的几个基本概念
第三节抽样误差和抽样估计
第四节抽样调查的组织形式
第五节必要样本容量的确定和总量指标的
推算
例.某服装厂生产了一批棉衣1200件,从
中任意抽取了60件进行检验,其中合格品
58件,其余不合格,试估计这批棉衣中有多
少件不合格?
解：设这批棉衣中有x件不合格，则：
60-58
60
≈
x
1200
答：这批棉衣中有40件不合格
第一节抽样调查的概念和
作用
• 一、抽样调查的概念和特点
• 1.抽样调查的概念
• 抽样调查是一种非全面调查，是按照随机原则
从所要研究的总体（调查对象）中抽取一部分
单位进行调查，用调查所得的指标数值对总体
的相应指标数值作出具有一定可靠性的估计和
判断的一种统计调查方法。
随机抽取
总体
推断
样本
2.抽样调查的特点
• 1）按随机原则抽取调查单位
随机原则是指，排除人们主观意愿的干扰，使
得总体中每个单位都有同等被抽中的机会。
• 2）用部分单位（样本）的指标数值去推断
和估计总体的指标数值
抽样调查的中心问题是如何根据已知的（样本）
资料来推断未知的总体情况。
• 3）抽样调查必然会产生抽样误差，但这个
误差是可以事先计算并加以控制的
通过各种组织措施来控制抽样误差范围，保证
抽样推断的结果达到预定可靠程度的要求。
二、抽样调查的作用
• 1.有些现象不可能进行全面调查，为了测算全面资
料，必须采用抽样调查的方法
如调查某地区的矿藏、某城市的空气质量等。
• 2.有些现象不必要或很难进行全面调查，也要采用
抽样调查
如炮弹射程的测量，电视、灯泡等耐用时数的检验等。
• 3.对全面调查资料进行检验和修正
如某市居民家计调查，某林区的木材储存量调查等。
• 4.可以用于工业生产过程的质量控制
第二节
抽样调查中的几个基本概
念
• 一、全及总体和抽样总体
• 1.全及总体(唯一）
• 全及总体是指统计研究对象的全体，简称为总
体，也叫母体。用字母“N”来表示。
• 2.抽样总体（多样）
• 抽样总体是按照随机原则从全及总体中抽取出
来的一部分单位组成的小总体。抽样总体也称
样本总体，简称样本、子样。用字母“n”来表
示。
（n≥30时，称为大样本；否则为小样本。）
二、全及指标和抽样指标
• 1.全及指标
• 全及指标又称总体指标和总体参数，是根据
全及总体各单位标志值计算的综合指标。
• 1）总体平均数
X X
X 

• 在总体未分组的情况下：
N
i
i 1
N
N
k
• 在总体分组的情况下：

X 
X i Fi
i 1

k
F
i 1
i
 XF
F
2）总体成数
P 
N1
Q 
P Q 1
N0
N
N
3）总体数量标志标准差和方差
在总体未分组的情况下：
 X
N
 X
i

2
i 1
 

N
在总体分组的情况下：
 X
k
 
i
 X
i 1
F
i 1
i
 X

N

2
Fi
 X  X 
F
2

k
 X
F
2
4）总体是非标志标准差和方差
 

2
P 1  P 
 P (1  P )
2.抽样指标
• 抽样指标，又称样本指标和样本统计量，
是根据抽样总体计算的统计指标。和全及
总体一样，常用的抽样指标也有四种：抽
样平均数、抽样成数、样本数量标志标准
差及方差，样本是非标志标准差及方差。
1）抽样平均数
• 在抽样总体未分组的情况下：
x 
x
n
• 在抽样总体分组的情况下：
x 
 xf
 f
2）抽样成数
p 
n1
n
q 
n0
pq 1
n
3）样本数量标志标准差及方差
• 当抽样总体未分组时：
S 
 x  x 
2
n
• 当抽样总体分组时：
S 
 x  x 
 f
2
f
4）样本交替标志标准差及方差
S 
，
S
2
p 1  p 
 p 1  p 
三、重复抽样与不重复抽样
• 1.重复抽样
• 重复抽样也叫重置抽样，是从全及总体中
随机抽取一个样本单位，经调查登记有关
标志后将其放回到原总体中去，然后再从
总体中抽取第二个样本单位，记录它的有
关标志表现后，也把它放回到总体中去，
如此下去，直到抽够
个样本单位为止。
n
2.不重复抽样
• 不重复抽样也称为不重置抽样，是从全及
总体中按随机原则抽取一个样本单位，观
察记录其有关标志后，不再将它放回到总
体中去参加下一次抽选，而是从剩余的 N
－1个单位中抽取第二个样本单位。如此进
行 n 次，就可以得到容量为 n 的样本
总体。
(二)样本可能数目
指抽样组织和抽样方法一定时，从总体 N 个单位中随机抽
取一个容量为n 的样本，该样本不同构成的可能数目。
1. 重复抽样的样本可能数目
重复抽样，通常还要考虑样本单位的排列顺序，如电话号码
中的“863”和“368”不同。重复抽样的样本可能数目为：
m重  N
n
2. 不重复抽样的样本可能数目
不重复抽样，通常不考虑样本单位的排列顺序，如篮球队的
5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2.1”排队
是同一个队。不重复抽样的样本可能数目为：
m 不重  C N
n
例1：设总体有A、B、C、D 4个单位，现在要从中随机抽取2
个单位构成样本。试分别计算重复抽样的样本可能数目和不
重复抽样的样本可能数目。
解：编制样本构成表如下：
重置抽样
第
一
次
A
AA
BA
CA
DA
A
B
C
D
m重  N
n
 4  16（个）；
2
B
AB
BB
CB
DB
第二次
C
AC
BC
CC
DC
D
AD
BD
CD
DD
不重置
抽样
m 不重  C N  C 4  （个）
6
n
2
第二节
抽样误差
• 一、抽样误差
• 1.抽样误差的概念
• 抽样误差是指在遵守随机原则的条件下，用
抽样指标代表总体指标所产生的不可避免的
误差，抽样误差表现为抽样指标与总体指标
之间的绝对离差，即抽样平均数与总体平均
数之间的绝对离差 x  X 和抽样成数与总体
成数之间的绝对离差 p  P 。
抽样误差产生的原因
登记性误差
可消除性误差
统
计
误
差
的
产
生
原
因
系统性误差
技术性误差
不可消除性误差
抽样误差
3.影响抽样误差的因素
• 1）抽样单位数目的多少
抽样误差与样本容量(n)的算术平方根成反比。
• 2）总体各单位标志变异程度
抽样误差与总体标准差（σ) 成正比。
• 3）抽样的组织形式和方法
不重复抽样比重复抽样所产生的误差小。
常用抽样组织形式的抽样误
差由小到大的顺序是：
类型（分层）抽样、机械（等距）
抽样、纯随机（简单随机）抽样、整群抽样。
二、抽样平均误差
• 1.抽样平均误差的概念
• 抽样平均误差是所有可能出现的抽样指标
和全及指标之间的平均离差，也就是指所
有可能出现的样本指标的标准差，一般用
或
表示。
x
 x
p
m
x 
i
X
i 1

m
2

m
 x
 x
2
i
i 1
m
• 例：假设4个工人的日生产量为，甲40件、乙50件、
丙70件和丁80件，现在从四人中抽取三个人来估计
四个人的日平均生产量。
可见四个人总体的日平均生产量为（40+50+70+80）/4=60
• 现在从四个人中选三个人出来日平均产量，一共有4
种可能：
可能1：甲乙丙
可能2：甲乙丁
可能3：甲丙丁
可能4：乙丙丁
日平均产量
（ 40+50+70）/3=53.33
（ 40+50+80）/3=56.33
（ 40+70+80）/3=63.33
（ 50+70+80）/3=66.33
误差
|60-53.33|
|60-56.67|
|60-63.33|
|60-66.67|
可见这种抽样的四种可能与总体平均60，存在一定差异。
• 故抽样平均误差应表示为四种可能的平均误差，即
x 
 x
i

 X
|60-53.33|+ |60-56.67|+ |60-63.33|+ |60-66.67|
————————————————————
4
m
• 由于有绝对值不利于数学推导和运算，故将抽样平均误差
计为
 x
m
x 
i
X
i 1

2

m
60 - 53.33 2  (60
- 56.67)
2
 (60 - 63.33)
2
 (60 - 66.67)
4
=5.27
说明这种抽样方法估计日平均生产
量平均来说将会产生5.27件的误差。
2
• 所以，抽样平均误是综合衡量一种抽样
方法的抽样指标能反映总体指标的代表
性，如果某抽样方法抽样平均误差越大
则估计的总体指标的代表性越差，反之
则越好。
2.抽样平均误差的计算公式
• 1）平均数的抽样平均误差
• 重复抽样条件下    
2
x
• 在不重复抽样条件下
x 

n
n

2
n 

1 

n 
N 
不重复抽样的修正系数
当N 很大时，
N n
N 1
当抽样比（n／N）很小时，

1
n
N
1
n
N
1
例3：总体有A、B、C、D 4名学生，其考试成绩分别
为5分、4分、4分、3分，总体均值为4分，方差为
0.5。现要从中随机抽取2名学生构成样本。试分别
计算重复抽样和不重复抽样的抽样平均误差。
解：①重复抽样
x 


n
0 .5
2

1
4

1
 0 . 5（分）
2
②不重复抽样
x 

N n

 
n  N 1 
2
0 .5  4  2 

 
2  4 1 
1
4

2
3

1
6
 0 . 4082 （分）
2）成数的抽样平均误差
• 重复抽样条件下
p 
P (1  P )
n
• 不重复抽样的条件下
p 
P (1  P ) 
n 
1 

n
N 

【例】
• 某地区有奶牛2500头，随机抽选400头进行调查，
得出每头奶牛年平均产奶量为3000公斤，标准差
为280公斤，求抽样平均误差。
• 用重复抽样公式计算为：
x 

2

n
280
2
 14 （公斤）
400
• 用不重复抽样公式计算为：
x 

2
n 

1 
 
n 
N 
2
400 

1 
  12 . 83（公斤）
400 
2500 
280
【例】
• 某厂生产一批电视机共10000台，现从中抽
取300台进行质量检测，测得其合格率为
94%，试求其抽样平均误差。
p 
p 
p (1  p )

0 . 94  (1  0 . 94 )
n
p (1  p ) 
n 
1


 
n
N 

 1 . 37 %
300
0 . 94  (1  0 . 94 ) 
300 
1


  1 . 35 %
300
10000 

三、抽样极限误差
• 抽样极限误差，又称抽样允许误差。它是
表示样本指标与总体指标之间产生抽样误
差的最大可能范围，表现为样本指标允许
变动的上限或下限与总体指标之差的绝对
值，用  表示。

x  x  X
x
x ≤
X
≤
p
 pP
x
x
例子
• 要估计某乡粮食亩产，从8000亩粮食作物中，用不
重复抽样抽取400亩，求得平均亩产为450公斤。如
果确定抽样极限误差为5公斤，这就要求某乡粮食亩
产为450±5公斤，即在445公斤到455公斤之间。
• 要估计某农作物秧苗的成活率，从播种这一品种的
秧苗地块随机抽取秧苗1000棵，其中死苗80棵，则
样本成活率P=1-80/1000=92%。如果确定抽样极限
误差△p为2%，这就要求该种秧苗的成活率P为
92%±2%，即是在90%到94%之间
四、抽样误差的概率度
• 抽样极限误差与抽样平均误差的比值，
叫做误差的概率度，用 t 表示
t 
t 
x
x

p
p
或
 x  t x
或

p
 t p
借助t和  x 就可以计算极限误差
五、抽样估计
• 1.点估计
• 点估计，也称定值估计，是直接用实际样
本指标数值代替总体指标数值。
x X
p P
2.区间估计
• 区间估计是根据一定的概率保证程度把样
本指标和抽样误差结合起来去推断总体指
标所在可能范围的估计方法。
• 1）总体平均数的区间估计
x
x ≤
X
≤
x  x
• 误差率：
x
x

x X
x
• 估计精度：估计精度=1-误差率
x X
x
1
 1
x
x
例如已知样本平均数为500公斤，根据估计精度为90%
的要求，可推算出允许的抽样误差范围为：50公斤
如果已知总体平均数，
样本平均数的概率表
示为：
 3
 2
 1
P( X   x  x  X   x )
1
2
3
二）区间估计
1、建立置信区间……极限误差  x
x－X   x
（X－  x ） x （X   x ）

该不等式表明样本平均数以


X 为中心，在（X   x ）之间


变动，由于X未知，这一展开


式不用


（x－  x ） X （x   x ）


该不等式表明区间（x   x ）


包含总体平均数

同理：成数
（P－  p） p （P   p）

该不等式表明样本平均数以


 为中心，在（P   p）之间

变动，由于P未知，这一展开

p－P  P 
式不用

 p－  p） P （p   p）
（

该不等式表明区间（p   p）


包含总体平均数

2、误差范围的  x 进一步确定
x ±
x
 x ±t 
x
 
x
 （x－  x ） X （x   x ）



（
 x－ x ）  X （x   x ）

（
 x－ 2 x ） X （x  2 x ）
 x－
（
3 x ） X （x  3 x ）

3、把握程度的确定……概率
 （x－  x ） X （x   x ）
概率度



t＝1
 P（x－ x  X  x   x ） 0.6828

t＝2
 P（x－ 2 x  X  x  2 x ） 0.9545
 P（x－
t＝3
3 x  X  x  3 x ） 0.9973

3、把握程度的确定……概率
p（x）
68.27％
x X x
t＝1
p（x）
95.45％
X
2 x
2x
t＝2
p（x）
99.73％
X
3 x
3x
t＝3
p（x）
置信区间的概率（1  ）
1- 
/2
/2
置信区间 为不包含  的概率
总结：
1、认识…极限误差、概率度t、抽样平均误
差、置性区间等概念及其关系
x ± x  置性区间，其中  x 为极限误差
x ±t  x   x ＝ t  x
其中 t概率度
t 表示  x 有几倍的  x 、
 x 在此仅仅是计量单位
2、认识…精度与概率的关系
3、认识…概率的真实含义
如果已知样本平均数，总
体平均数的概率表示为：
P( X   x  x  X   x )
P(x   x  X  x   x )
【例7】
• 某进出口公司出口一种名茶，为检查其每包规格的质
量，现用重复抽样的方法抽取100包，检验结果如表3：
表3
某公司茶叶质量抽样表
每包重量（克）
包数
148～149
149～150
150～151
151～152
10
20
50
20
合计
100
按规定这批茶叶每包规格重量应不低于150克，试以99.73%的
概率推断这批茶叶每包平均重量所在的区间范围，并确定茶
叶每包规格质量是否达到要求。
表10-4
每包重量
（克）
某公司茶叶质量抽样误差计算表
包数 f
组中值
xf
x x
( x  x) f
2
148～149
149～150
150～151
151～152
10
20
50
20
148.5x
149.5
150.5
151.5
1485
2990
7525
3030
－1.8
－0.8
0.2
1.2
32.4
12.8
2
28.8
合计
100
—
15030
—
76
x 
x 
 xf
f


15030
100
2
n
 x  x 
f
2

0 . 76
 150 . 3（克） S 
 0 . 087 （克）
100
150 . 3  0 . 261
≤ X
150.039≤ X
x
 t  x
f

100
 0 . 76
（克）
3  0 . 087  0 . 261 （克）
≤ 150 . 3  0 . 261
≤150.561
76
2）总体成数的区间估计
p
≤P ≤ p p
【例18】仍利用上例资料，在95.45%的概率保证下推断每包重
量在150克以上的茶叶所占的比重范围。
p 
n1
n
 p


70
p
 70 %
100
p 1  p 
n

0 . 7  (1  0 . 7 )
100
 p  t  p =2×4.58%=9.16%
70%－9.16%≤ P ≤70%+9.16%
60.84%≤ P ≤79.16%
 4 . 58 %
第四节必要样本容量的确定
一、必要样本容量的确定
• 1.影响必要样本容量的因素
• 1）总体各单位的标志变异程度
• 2）允许的误差范围，即极限误差
• 3）抽样估计的概率保证程度
• 4）抽样调查的组织形式
2.必要样本容量的计算公式
• 必要样本容量的计算公式，是由抽样平均
误差与抽样极限误差的关系式变换而来的，
也分为重复抽样与不重复抽样两种计算方
法。
简单随机抽样的必要样本容量的
计算公式：
• 1）重复抽样的必要样本容量
• 平均数的必要样本容量：
t 
2
nx 
2
x
2
• 成数的必要样本容量：
t P (1  P )
2
np 

2
p
2）不重复抽样的必要样本容量
• 平均数的必要样本容量：
Nt 
2
• 成数的必要样本容量：
nx 
2
N x  t 
2
2
2
Nt P (1  P )
2
np 
N
2
p
 t P (1  P )
2
• [例] 对某油田的2000口油井的年产油量进行抽样
调查。根据历史资料可知，油井年产油量的标准
差为200吨，若要求抽样误差不超过15吨，概率保
证程度为95.45%，试求需要调查多少口油井
• 解：F（t）= 95.45% t = 2
• [例] 对某工厂的一批机械零件的合格率进行抽样调
查，根据过去的资料，合格率曾有过99%、97%和
94%三种情况，现要求允许误差不超过1%，要求
推断的把握程度为95.45%，问需要抽取多少个零件。
• 解：
（件）
2
2
n
t p(1  p )

2
p

2  0.0564
2
0.01
 2256
• p(1-p) 取最大值，即需抽取2256件产品才能满足要
求。
例题：某灯泡厂对一批灯泡的平均使用寿命和合格品率
进行检验，要求置信度为95%，前几批的经验数据资
料有：平均使用寿命的标准差为200、250、300小时，
合格品率为92%、93%、95%。要求：推断平均寿命
的抽样误差不超过50小时，推断合格率的误差不超过
2
2
5%，试问应至少抽多少只灯泡。
Z 
2
2
1
1
.
96

300
2
nx 

 138 . 3 ( 只 )
2
2
50
x
Z
np 
2
1

P (1  P )
2
p
2
1 . 96  92 %  8 %
2

( 5 %)
2
 113 . 1( 只 )
为了满足两者共同的需要，应抽取139只进行调查。
二、总体总量指标的推算
• 1.直接推算法
• 直接推算法是用样本指标数值或总体指标的
区间估计值乘以总体单位数来推算总体总量
指标的方法。
• 在点估计的情况下，可以直接用样本指标数
值乘以总体单位数，即 x N 或 pN 来推
断；
• 在区间估计的情况下，可以用区间估计值乘
以总体单位数，即
[
]或
(x   )N ,(x   )N
[
]来推算。
( p   p )N ,( p   p )N
x
x
修正系数法
• 1）比例修正
• 比例修正是指用同一抽样总体中各个有关标志比
例来修正全及总体指标的方法。
• 【例10.17】某县粮食预计产量为4000万公斤，
现随机抽取100个农户进行核实，结果这100个农
户原预计粮食总量为60万公斤，实际入库产量为
63万公斤，其修正比例为：
• 修正比例=
抽样实际产量
抽样预计产量

63
 1 . 05
60
则全县粮食实际产量可以修正为：4000×1.05=4200（万公斤）
第五节抽样调查的组织形式
• 一、简单随机抽样
• 简单随机抽样，又称纯随机抽样。它是对
全及总体的所有单位不进行任何分类或排
队处理，而是完全按照随机原则从总体中
抽出样本单位加以观察，以保证总体中每
个单位有相等被抽中的机会。
•
•
•
•
简单随机抽样具体抽取样本单位的方法有：
（1）直接抽选法
（2）抽签法
（3）随机数字表法
二、类型抽样
• 1.类型抽样的概念
• 类型抽样，也称为分层抽样或分类抽样。
它首先把全及总体按某一标志分成若干组
（或若干类、若干层），然后分别在各组
内按随机原则抽取一定数目的样本单位构
成样本的抽样方式。
2.类型抽样样本单位的分配方法
• 1）等比例抽样
ni

Ni
n
N
• 2）不等比例抽样
ni
n

Ni
N
3.类型抽样误差的计算公式
• 1）平均数的抽样平均误差
• 重复抽样条件下：
i
2
• 不重复抽样条件下：
x 
n
i 
2
x 
i Ni
2
i 
2
N
n 
1 

n 
N 
2）成数的抽样平均误差
• 在重复抽样条件下，
p 
Pi 1  Pi 
N
• 不重复抽样条件下
Pi 1  Pi  
n 
1 

N
N 

p 
P 1  P  N

P 1  P  
i
i
i
i
N
i
三、等距抽样
• 1.等距抽样的概念
• 等距抽样，又称机械抽样或系统抽样，它
是首先将总体各单位按某一标志排队，然
后按固定的顺序和间隔来抽选样本单位的
一种抽样组织形式。
2.等距抽样的分类
• 1）等距抽样按排队所依据的标志不同，可
以分为按无关标志排队和按有关标志排队
两种。
• 2）等距抽样按样本单位的抽选方法不同，
可以分为随机起点等距抽样、半距起点等
距抽样和对称等距抽样等。
3.等距抽样误差的计算公式
• 按无关标志排队的等距抽样，抽样误差的计算方
法比较复杂，一般可以按不重复简单随机抽样误
差公式来计算。
• 按有关标志排队的等距抽样具有类型抽样的性质，
因此，可用类型抽样的公式计算抽样误差。因为
按有关标志排队说明已经初步掌握了总体各单位
标志值的资料，因而可以直接用总体方差，而不
必用样本方差。
四、整群抽样
• 1.整群抽样的概念
• 整群抽样是将总体各单位划分成若干群或
组，然后以群或组为单位从中随机抽取一
些群，对中选群的所有单位进行全面调查
的抽样组织形式。
2.整群抽样误差的计算公式
• 1）平均数抽样平均误差
X R r
2
x 
 X
R
X 
2
i
i 1
 X


r  R 1 

x 
2
R
 x
r
2
i
i 1
r
 x

2
• 2）成数抽样平均误差
P  R  r 
2
p 
r
R
 P
i

2
P



r  R 1 
 P
i 1
R
  pi
2

2
p

i
r
 p
2

抽样调查

Transcript 抽样调查

Directory