Transcript 抽样调查
例:某城市三个市场上有关同一种商品销售资料如下
市场 销售价格(元)
基
期
A
2.5
B
2.4
C
2.2
合计 ——
劳动生产率(吨/人)
报告期
基 期
报告期
3.0
2.8
2.4
——
700
670
550
1960
560
710
820
2090
要求:建立指标体系,对平均销售价格变动进行因素
分析。
第七章
•
•
•
•
•
抽样调查
第一节 抽样调查的概念和作用
第二节 抽样调查中的几个基本概念
第三节 抽样误差和抽样估计
第四节 抽样调查的组织形式
第五节 必要样本容量的确定和总量指标的
推算
例.某服装厂生产了一批棉衣1200件,从
中任意抽取了60件进行检验,其中合格品
58件,其余不合格,试估计这批棉衣中有多
少件不合格?
解:设这批棉衣中有x件不合格,则:
60-58
60
≈
x
1200
答:这批棉衣中有40件不合格
第一节 抽样调查的概念和
作用
• 一、 抽样调查的概念和特点
• 1.抽样调查的概念
• 抽样调查是一种非全面调查,是按照随机原则
从所要研究的总体(调查对象)中抽取一部分
单位进行调查,用调查所得的指标数值对总体
的相应指标数值作出具有一定可靠性的估计和
判断的一种统计调查方法。
随机抽取
总体
推断
样本
2.抽样调查的特点
• 1)按随机原则抽取调查单位
随机原则是指,排除人们主观意愿的干扰,使
得总体中每个单位都有同等被抽中的机会。
• 2)用部分单位(样本)的指标数值去推断
和估计总体的指标数值
抽样调查的中心问题是如何根据已知的(样本)
资料来推断未知的总体情况。
• 3)抽样调查必然会产生抽样误差,但这个
误差是可以事先计算并加以控制的
通过各种组织措施来控制抽样误差范围,保证
抽样推断的结果达到预定可靠程度的要求。
二、 抽样调查的作用
• 1.有些现象不可能进行全面调查,为了测算全面资
料,必须采用抽样调查的方法
如调查某地区的矿藏、某城市的空气质量等。
• 2.有些现象不必要或很难进行全面调查,也要采用
抽样调查
如炮弹射程的测量,电视、灯泡等耐用时数的检验等。
• 3.对全面调查资料进行检验和修正
如某市居民家计调查,某林区的木材储存量调查等。
• 4.可以用于工业生产过程的质量控制
第二节
抽样调查中的几个基本概
念
• 一、 全及总体和抽样总体
• 1.全及总体(唯一)
• 全及总体是指统计研究对象的全体,简称为总
体,也叫母体。用字母“N”来表示。
• 2.抽样总体(多样)
• 抽样总体是按照随机原则从全及总体中抽取出
来的一部分单位组成的小总体。抽样总体也称
样本总体,简称样本、子样。用字母“n”来表
示。
(n≥30时,称为大样本;否则为小样本。)
二、 全及指标和抽样指标
• 1.全及指标
• 全及指标又称总体指标和总体参数,是根据
全及总体各单位标志值计算的综合指标。
• 1)总体平均数
X X
X
• 在总体未分组的情况下:
N
i
i 1
N
N
k
• 在总体分组的情况下:
X
X i Fi
i 1
k
F
i 1
i
XF
F
2)总体成数
P
N1
Q
P Q 1
N0
N
N
3)总体数量标志标准差和方差
在总体未分组的情况下:
X
N
X
i
2
i 1
N
在总体分组的情况下:
X
k
i
X
i 1
F
i 1
i
X
N
2
Fi
X X
F
2
k
X
F
2
4)总体是非标志标准差和方差
2
P 1 P
P (1 P )
2.抽样指标
• 抽样指标,又称样本指标和样本统计量,
是根据抽样总体计算的统计指标。和全及
总体一样,常用的抽样指标也有四种:抽
样平均数、抽样成数、样本数量标志标准
差及方差,样本是非标志标准差及方差。
1)抽样平均数
• 在抽样总体未分组的情况下:
x
x
n
• 在抽样总体分组的情况下:
x
xf
f
2)抽样成数
p
n1
n
q
n0
pq 1
n
3)样本数量标志标准差及方差
• 当抽样总体未分组时:
S
x x
2
n
• 当抽样总体分组时:
S
x x
f
2
f
4)样本交替标志标准差及方差
S
,
S
2
p 1 p
p 1 p
三、 重复抽样与不重复抽样
• 1.重复抽样
• 重复抽样也叫重置抽样,是从全及总体中
随机抽取一个样本单位,经调查登记有关
标志后将其放回到原总体中去,然后再从
总体中抽取第二个样本单位,记录它的有
关标志表现后,也把它放回到总体中去,
如此下去,直到抽够
个样本单位为止。
n
2.不重复抽样
• 不重复抽样也称为不重置抽样,是从全及
总体中按随机原则抽取一个样本单位,观
察记录其有关标志后,不再将它放回到总
体中去参加下一次抽选,而是从剩余的 N
-1个单位中抽取第二个样本单位。如此进
行 n 次,就可以得到容量为 n 的样本
总体。
(二)样本可能数目
指抽样组织和抽样方法一定时,从总体 N 个单位中随机抽
取一个容量为n 的样本,该样本不同构成的可能数目。
1. 重复抽样的样本可能数目
重复抽样,通常还要考虑样本单位的排列顺序,如电话号码
中的“863”和“368”不同。重复抽样的样本可能数目为:
m重 N
n
2. 不重复抽样的样本可能数目
不重复抽样,通常不考虑样本单位的排列顺序,如篮球队的
5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2.1”排队
是同一个队。不重复抽样的样本可能数目为:
m 不重 C N
n
例1:设总体有A、B、C、D 4个单位,现在要从中随机抽取2
个单位构成样本。试分别计算重复抽样的样本可能数目和不
重复抽样的样本可能数目。
解:编制样本构成表如下:
重置抽样
第
一
次
A
AA
BA
CA
DA
A
B
C
D
m重 N
n
4 16(个);
2
B
AB
BB
CB
DB
第二次
C
AC
BC
CC
DC
D
AD
BD
CD
DD
不重置
抽样
m 不重 C N C 4 (个)
6
n
2
第二节
抽样误差
• 一、 抽样误差
• 1.抽样误差的概念
• 抽样误差是指在遵守随机原则的条件下,用
抽样指标代表总体指标所产生的不可避免的
误差,抽样误差表现为抽样指标与总体指标
之间的绝对离差,即抽样平均数与总体平均
数之间的绝对离差 x X 和抽样成数与总体
成数之间的绝对离差 p P 。
抽样误差产生的原因
登记性误差
可消除性误差
统
计
误
差
的
产
生
原
因
系统性误差
技术性误差
不可消除性误差
抽样误差
3.影响抽样误差的因素
• 1)抽样单位数目的多少
抽样误差与样本容量(n)的算术平方根成反比。
• 2)总体各单位标志变异程度
抽样误差与总体标准差(σ) 成正比。
• 3)抽样的组织形式和方法
不重复抽样比重复抽样所产 生的误差小。
常用抽样组织形式的抽样误
差由小到大的顺序是:
类型(分层)抽样、机械(等距)
抽样、纯随机(简单随机)抽样、整群抽样。
二、 抽样平均误差
• 1.抽样平均误差的概念
• 抽样平均误差是所有可能出现的抽样指标
和全及指标之间的平均离差,也就是指所
有可能出现的样本指标的标准差,一般用
或
表示。
x
x
p
m
x
i
X
i 1
m
2
m
x
x
2
i
i 1
m
• 例:假设4个工人的日生产量为,甲40件、乙50件、
丙70件和丁80件,现在从四人中抽取三个人来估计
四个人的日平均生产量。
可见四个人总体的日平均生产量为(40+50+70+80)/4=60
• 现在从四个人中选三个人出来日平均产量,一共有4
种可能:
可能1:甲乙丙
可能2:甲乙丁
可能3:甲丙丁
可能4:乙丙丁
日平均产量
( 40+50+70)/3=53.33
( 40+50+80)/3=56.33
( 40+70+80)/3=63.33
( 50+70+80)/3=66.33
误差
|60-53.33|
|60-56.67|
|60-63.33|
|60-66.67|
可见这种抽样的四种可能与总体平均60,存在一定差异。
• 故抽样平均误差应表示为四种可能的平均误差,即
x
x
i
X
|60-53.33|+ |60-56.67|+ |60-63.33|+ |60-66.67|
————————————————————
4
m
• 由于有绝对值不利于数学推导和运算,故将抽样平均误差
计为
x
m
x
i
X
i 1
2
m
60 - 53.33 2 (60
- 56.67)
2
(60 - 63.33)
2
(60 - 66.67)
4
=5.27
说明这种抽样方法估计日平均生产
量平均来说将会产生5.27件的误差。
2
• 所以,抽样平均误是综合衡量一种抽样
方法的抽样指标能反映总体指标的代表
性,如果某抽样方法抽样平均误差越大
则估计的总体指标的代表性越差,反之
则越好。
2.抽样平均误差的计算公式
• 1)平均数的抽样平均误差
• 重复抽样条件下
2
x
• 在不重复抽样条件下
x
n
n
2
n
1
n
N
不重复抽样的修正系数
当N 很大时,
N n
N 1
当抽样比(n/N)很小时,
1
n
N
1
n
N
1
例3:总体有A、B、C、D 4名学生,其考试成绩分别
为5分、4分、4分、3分,总体均值为4分,方差为
0.5。现要从中随机抽取2名学生构成样本。试分别
计算重复抽样和不重复抽样的抽样平均误差。
解:①重复抽样
x
n
0 .5
2
1
4
1
0 . 5(分)
2
②不重复抽样
x
N n
n N 1
2
0 .5 4 2
2 4 1
1
4
2
3
1
6
0 . 4082 (分)
2)成数的抽样平均误差
• 重复抽样条件下
p
P (1 P )
n
• 不重复抽样的条件下
p
P (1 P )
n
1
n
N
【例】
• 某地区有奶牛2500头,随机抽选400头进行调查,
得出每头奶牛年平均产奶量为3000公斤,标准差
为280公斤,求抽样平均误差。
• 用重复抽样公式计算为:
x
2
n
280
2
14 (公斤)
400
• 用不重复抽样公式计算为:
x
2
n
1
n
N
2
400
1
12 . 83(公斤)
400
2500
280
【例】
• 某厂生产一批电视机共10000台,现从中抽
取300台进行质量检测,测得其合格率为
94%,试求其抽样平均误差。
p
p
p (1 p )
0 . 94 (1 0 . 94 )
n
p (1 p )
n
1
n
N
1 . 37 %
300
0 . 94 (1 0 . 94 )
300
1
1 . 35 %
300
10000
三、 抽样极限误差
• 抽样极限误差,又称抽样允许误差。它是
表示样本指标与总体指标之间产生抽样误
差的最大可能范围,表现为样本指标允许
变动的上限或下限与总体指标之差的绝对
值,用 表示。
x x X
x
x ≤
X
≤
p
pP
x
x
例子
• 要估计某乡粮食亩产,从8000亩粮食作物中,用不
重复抽样抽取400亩,求得平均亩产为450公斤。如
果确定抽样极限误差为5公斤,这就要求某乡粮食亩
产为450±5公斤,即在445公斤到455公斤之间。
• 要估计某农作物秧苗的成活率,从播种这一品种的
秧苗地块随机抽取秧苗1000棵,其中死苗80棵,则
样本成活率P=1-80/1000=92%。如果确定抽样极限
误差△p为2%,这就要求该种秧苗的成活率P为
92%±2%,即是在90%到94%之间
四、 抽样误差的概率度
• 抽样极限误差与抽样平均误差的比值,
叫做误差的概率度,用 t 表示
t
t
x
x
p
p
或
x t x
或
p
t p
借助t和 x 就可以计算极限误差
五、 抽样估计
• 1.点估计
• 点估计,也称定值估计,是直接用实际样
本指标数值代替总体指标数值。
x X
p P
2.区间估计
• 区间估计是根据一定的概率保证程度把样
本指标和抽样误差结合起来去推断总体指
标所在可能范围的估计方法 。
• 1)总体平均数的区间估计
x
x ≤
X
≤
x x
• 误差率:
x
x
x X
x
• 估计精度:估计精度=1-误差率
x X
x
1
1
x
x
例如已知样本平均数为500公斤,根据估计精度为90%
的要求,可推算出允许的抽样误差范围为:50公斤
如果已知总体平均数,
样本平均数的概率表
示为:
3
2
1
P( X x x X x )
1
2
3
二)区间估计
1、建立置信区间……极限误差 x
x-X x
(X- x ) x (X x )
该不等式表明样本平均数以
X 为中心,在(X x )之间
变动,由于X未知,这一展开
式不用
(x- x ) X (x x )
该不等式表明区间(x x )
包含总体平均数
同理:成数
(P- p) p (P p)
该不等式表明样本平均数以
为中心,在(P p)之间
变动,由于P未知,这一展开
p-P P
式不用
p- p) P (p p)
(
该不等式表明区间(p p)
包含总体平均数
2、误差范围的 x 进一步确定
x ±
x
x ±t
x
x
(x- x ) X (x x )
(
x- x ) X (x x )
(
x- 2 x ) X (x 2 x )
x-
(
3 x ) X (x 3 x )
3、把握程度的确定……概率
(x- x ) X (x x )
概率度
t=1
P(x- x X x x ) 0.6828
t=2
P(x- 2 x X x 2 x ) 0.9545
P(x-
t=3
3 x X x 3 x ) 0.9973
3、把握程度的确定……概率
p(x)
68.27%
x X x
t=1
p(x)
95.45%
X
2 x
2x
t=2
p(x)
99.73%
X
3 x
3x
t=3
p(x)
置信区间的概率(1 )
1-
/2
/2
置信区间 为不包含 的概率
总结:
1、认识…极限误差、概率度t、抽样平均误
差、置性区间等概念及其关系
x ± x 置性区间, 其中 x 为极限误差
x ±t x x = t x
其中 t概率度
t 表示 x 有几倍的 x 、
x 在此仅仅是计量单位
2、认识…精度与概率的关系
3、认识…概率的真实含义
如果已知样本平均数,总
体平均数的概率表示为:
P( X x x X x )
P(x x X x x )
【例7】
• 某进出口公司出口一种名茶,为检查其每包规格的质
量,现用重复抽样的方法抽取100包,检验结果如表3:
表3
某公司茶叶质量抽样表
每包重量(克)
包数
148~149
149~150
150~151
151~152
10
20
50
20
合计
100
按规定这批茶叶每包规格重量应不低于150克,试以99.73%的
概率推断这批茶叶每包平均重量所在的区间范围,并确定茶
叶每包规格质量是否达到要求。
表10-4
每包重量
(克)
某公司茶叶质量抽样误差计算表
包数 f
组中值
xf
x x
( x x) f
2
148~149
149~150
150~151
151~152
10
20
50
20
148.5x
149.5
150.5
151.5
1485
2990
7525
3030
-1.8
-0.8
0.2
1.2
32.4
12.8
2
28.8
合计
100
—
15030
—
76
x
x
xf
f
15030
100
2
n
x x
f
2
0 . 76
150 . 3(克) S
0 . 087 (克)
100
150 . 3 0 . 261
≤ X
150.039≤ X
x
t x
f
100
0 . 76
(克)
3 0 . 087 0 . 261 (克)
≤ 150 . 3 0 . 261
≤150.561
76
2)总体成数的区间估计
p
≤P ≤ p p
【例18】仍利用上例资料,在95.45%的概率保证下推断每包重
量在150克以上的茶叶所占的比重范围。
p
n1
n
p
70
p
70 %
100
p 1 p
n
0 . 7 (1 0 . 7 )
100
p t p =2×4.58%=9.16%
70%-9.16%≤ P ≤70%+9.16%
60.84%≤ P ≤79.16%
4 . 58 %
第四节 必要样本容量的确定
一、 必要样本容量的确定
• 1.影响必要样本容量的因素
• 1)总体各单位的标志变异程度
• 2)允许的误差范围,即极限误差
• 3)抽样估计的概率保证程度
• 4)抽样调查的组织形式
2.必要样本容量的计算公式
• 必要样本容量的计算公式,是由抽样平均
误差与抽样极限误差的关系式变换而来的,
也分为重复抽样与不重复抽样两种计算方
法。
简单随机抽样的必要样本容量的
计算公式:
• 1)重复抽样的必要样本容量
• 平均数的必要样本容量:
t
2
nx
2
x
2
• 成数的必要样本容量:
t P (1 P )
2
np
2
p
2)不重复抽样的必要样本容量
• 平均数的必要样本容量:
Nt
2
• 成数的必要样本容量:
nx
2
N x t
2
2
2
Nt P (1 P )
2
np
N
2
p
t P (1 P )
2
• [例] 对某油田的2000口油井的年产油量进行抽样
调查。根据历史资料可知,油井年产油量的标准
差为200吨,若要求抽样误差不超过15吨,概率保
证程度为95.45%,试求需要调查多少口油井
• 解:F(t)= 95.45% t = 2
• [例] 对某工厂的一批机械零件的合格率进行抽样调
查,根据过去的资料,合格率曾有过99%、97%和
94%三种情况,现要求允许误差不超过1%,要求
推断的把握程度为95.45%,问需要抽取多少个零件。
• 解:
(件)
2
2
n
t p(1 p )
2
p
2 0.0564
2
0.01
2256
• p(1-p) 取最大值,即需抽取2256件产品才能满足要
求。
例题:某灯泡厂对一批灯泡的平均使用寿命和合格品率
进行检验,要求置信度为95%,前几批的经验数据资
料有:平均使用寿命的标准差为200、250、300小时,
合格品率为92%、93%、95%。要求: 推断平均寿命
的抽样误差不超过50小时,推断合格率的误差不超过
2
2
5%,试问应至少抽多少只灯泡。
Z
2
2
1
1
.
96
300
2
nx
138 . 3 ( 只 )
2
2
50
x
Z
np
2
1
P (1 P )
2
p
2
1 . 96 92 % 8 %
2
( 5 %)
2
113 . 1( 只 )
为了满足两者共同的需要,应抽取139只进行调查。
二、 总体总量指标的推算
• 1.直接推算法
• 直接推算法是用样本指标数值或总体指标的
区间估计值乘以总体单位数来推算总体总量
指标的方法。
• 在点估计的情况下,可以直接用样本指标数
值乘以总体单位数,即 x N 或 pN 来推
断;
• 在区间估计的情况下,可以用区间估计值乘
以总体单位数,即
[
]或
(x )N ,(x )N
[
]来推算。
( p p )N ,( p p )N
x
x
修正系数法
• 1)比例修正
• 比例修正是指用同一抽样总体中各个有关标志比
例来修正全及总体指标的方法。
• 【例10.17】某县粮食预计产量为4000万公斤,
现随机抽取100个农户进行核实,结果这100个农
户原预计粮食总量为60万公斤,实际入库产量为
63万公斤,其修正比例为:
• 修正比例=
抽样实际产量
抽样预计产量
63
1 . 05
60
则全县粮食实际产量可以修正为:4000×1.05=4200(万公斤)
第五节 抽样调查的组织形式
• 一、简单随机抽样
• 简单随机抽样,又称纯随机抽样。它是对
全及总体的所有单位不进行任何分类或排
队处理,而是完全按照随机原则从总体中
抽出样本单位加以观察,以保证总体中每
个单位有相等被抽中的机会。
•
•
•
•
简单随机抽样具体抽取样本单位的方法有:
(1)直接抽选法
(2)抽签法
(3)随机数字表法
二、 类型抽样
• 1.类型抽样的概念
• 类型抽样,也称为分层抽样或分类抽样。
它首先把全及总体按某一标志分成若干组
(或若干类、若干层),然后分别在各组
内按随机原则抽取一定数目的样本单位构
成样本的抽样方式。
2.类型抽样样本单位的分配方法
• 1)等比例抽样
ni
Ni
n
N
• 2)不等比例抽样
ni
n
Ni
N
3.类型抽样误差的计算公式
• 1)平均数的抽样平均误差
• 重复抽样条件下:
i
2
• 不重复抽样条件下:
x
n
i
2
x
i Ni
2
i
2
N
n
1
n
N
2)成数的抽样平均误差
• 在重复抽样条件下,
p
Pi 1 Pi
N
• 不重复抽样条件下
Pi 1 Pi
n
1
N
N
p
P 1 P N
P 1 P
i
i
i
i
N
i
三、 等距抽样
• 1.等距抽样的概念
• 等距抽样,又称机械抽样或系统抽样,它
是首先将总体各单位按某一标志排队,然
后按固定的顺序和间隔来抽选样本单位的
一种抽样组织形式。
2.等距抽样的分类
• 1)等距抽样按排队所依据的标志不同,可
以分为按无关标志排队和按有关标志排队
两种。
• 2)等距抽样按样本单位的抽选方法不同,
可以分为随机起点等距抽样、半距起点等
距抽样和对称等距抽样等。
3.等距抽样误差的计算公式
• 按无关标志排队的等距抽样,抽样误差的计算方
法比较复杂,一般可以按不重复简单随机抽样误
差公式来计算。
• 按有关标志排队的等距抽样具有类型抽样的性质,
因此,可用类型抽样的公式计算抽样误差。因为
按有关标志排队说明已经初步掌握了总体各单位
标志值的资料,因而可以直接用总体方差,而不
必用样本方差。
四、整群抽样
• 1.整群抽样的概念
• 整群抽样是将总体各单位划分成若干群或
组,然后以群或组为单位从中随机抽取一
些群,对中选群的所有单位进行全面调查
的抽样组织形式。
2.整群抽样误差的计算公式
• 1)平均数抽样平均误差
X R r
2
x
X
R
X
2
i
i 1
X
r R 1
x
2
R
x
r
2
i
i 1
r
x
2
• 2)成数抽样平均误差
P R r
2
p
r
R
P
i
2
P
r R 1
P
i 1
R
pi
2
2
p
i
r
p
2