抽样调查

Download Report

Transcript 抽样调查

例:某城市三个市场上有关同一种商品销售资料如下
市场 销售价格(元)
基
期
A
2.5
B
2.4
C
2.2
合计 ——
劳动生产率(吨/人)
报告期
基 期
报告期
3.0
2.8
2.4
——
700
670
550
1960
560
710
820
2090
要求:建立指标体系,对平均销售价格变动进行因素
分析。
第七章
•
•
•
•
•
抽样调查
第一节 抽样调查的概念和作用
第二节 抽样调查中的几个基本概念
第三节 抽样误差和抽样估计
第四节 抽样调查的组织形式
第五节 必要样本容量的确定和总量指标的
推算
例.某服装厂生产了一批棉衣1200件,从
中任意抽取了60件进行检验,其中合格品
58件,其余不合格,试估计这批棉衣中有多
少件不合格?
解:设这批棉衣中有x件不合格,则:
60-58
60
≈
x
1200
答:这批棉衣中有40件不合格
第一节 抽样调查的概念和
作用
• 一、 抽样调查的概念和特点
• 1.抽样调查的概念
• 抽样调查是一种非全面调查,是按照随机原则
从所要研究的总体(调查对象)中抽取一部分
单位进行调查,用调查所得的指标数值对总体
的相应指标数值作出具有一定可靠性的估计和
判断的一种统计调查方法。
随机抽取
总体
推断
样本
2.抽样调查的特点
• 1)按随机原则抽取调查单位
随机原则是指,排除人们主观意愿的干扰,使
得总体中每个单位都有同等被抽中的机会。
• 2)用部分单位(样本)的指标数值去推断
和估计总体的指标数值
抽样调查的中心问题是如何根据已知的(样本)
资料来推断未知的总体情况。
• 3)抽样调查必然会产生抽样误差,但这个
误差是可以事先计算并加以控制的
通过各种组织措施来控制抽样误差范围,保证
抽样推断的结果达到预定可靠程度的要求。
二、 抽样调查的作用
• 1.有些现象不可能进行全面调查,为了测算全面资
料,必须采用抽样调查的方法
如调查某地区的矿藏、某城市的空气质量等。
• 2.有些现象不必要或很难进行全面调查,也要采用
抽样调查
如炮弹射程的测量,电视、灯泡等耐用时数的检验等。
• 3.对全面调查资料进行检验和修正
如某市居民家计调查,某林区的木材储存量调查等。
• 4.可以用于工业生产过程的质量控制
第二节
抽样调查中的几个基本概
念
• 一、 全及总体和抽样总体
• 1.全及总体(唯一)
• 全及总体是指统计研究对象的全体,简称为总
体,也叫母体。用字母“N”来表示。
• 2.抽样总体(多样)
• 抽样总体是按照随机原则从全及总体中抽取出
来的一部分单位组成的小总体。抽样总体也称
样本总体,简称样本、子样。用字母“n”来表
示。
(n≥30时,称为大样本;否则为小样本。)
二、 全及指标和抽样指标
• 1.全及指标
• 全及指标又称总体指标和总体参数,是根据
全及总体各单位标志值计算的综合指标。
• 1)总体平均数
X X
X 

• 在总体未分组的情况下:
N
i
i 1
N
N
k
• 在总体分组的情况下:

X 
X i Fi
i 1

k
F
i 1
i
 XF
F
2)总体成数
P 
N1
Q 
P Q 1
N0
N
N
3)总体数量标志标准差和方差
在总体未分组的情况下:
 X
N
 X
i

2
i 1
 

N
在总体分组的情况下:
 X
k
 
i
 X
i 1
F
i 1
i
 X

N

2
Fi
 X  X 
F
2

k
 X
F
2
4)总体是非标志标准差和方差
 

2
P 1  P 
 P (1  P )
2.抽样指标
• 抽样指标,又称样本指标和样本统计量,
是根据抽样总体计算的统计指标。和全及
总体一样,常用的抽样指标也有四种:抽
样平均数、抽样成数、样本数量标志标准
差及方差,样本是非标志标准差及方差。
1)抽样平均数
• 在抽样总体未分组的情况下:
x 
x
n
• 在抽样总体分组的情况下:
x 
 xf
 f
2)抽样成数
p 
n1
n
q 
n0
pq 1
n
3)样本数量标志标准差及方差
• 当抽样总体未分组时:
S 
 x  x 
2
n
• 当抽样总体分组时:
S 
 x  x 
 f
2
f
4)样本交替标志标准差及方差
S 
,
S
2
p 1  p 
 p 1  p 
三、 重复抽样与不重复抽样
• 1.重复抽样
• 重复抽样也叫重置抽样,是从全及总体中
随机抽取一个样本单位,经调查登记有关
标志后将其放回到原总体中去,然后再从
总体中抽取第二个样本单位,记录它的有
关标志表现后,也把它放回到总体中去,
如此下去,直到抽够
个样本单位为止。
n
2.不重复抽样
• 不重复抽样也称为不重置抽样,是从全及
总体中按随机原则抽取一个样本单位,观
察记录其有关标志后,不再将它放回到总
体中去参加下一次抽选,而是从剩余的 N
-1个单位中抽取第二个样本单位。如此进
行 n 次,就可以得到容量为 n 的样本
总体。
(二)样本可能数目
指抽样组织和抽样方法一定时,从总体 N 个单位中随机抽
取一个容量为n 的样本,该样本不同构成的可能数目。
1. 重复抽样的样本可能数目
重复抽样,通常还要考虑样本单位的排列顺序,如电话号码
中的“863”和“368”不同。重复抽样的样本可能数目为:
m重  N
n
2. 不重复抽样的样本可能数目
不重复抽样,通常不考虑样本单位的排列顺序,如篮球队的
5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2.1”排队
是同一个队。不重复抽样的样本可能数目为:
m 不重  C N
n
例1:设总体有A、B、C、D 4个单位,现在要从中随机抽取2
个单位构成样本。试分别计算重复抽样的样本可能数目和不
重复抽样的样本可能数目。
解:编制样本构成表如下:
重置抽样
第
一
次
A
AA
BA
CA
DA
A
B
C
D
m重  N
n
 4  16(个);
2
B
AB
BB
CB
DB
第二次
C
AC
BC
CC
DC
D
AD
BD
CD
DD
不重置
抽样
m 不重  C N  C 4  (个)
6
n
2
第二节
抽样误差
• 一、 抽样误差
• 1.抽样误差的概念
• 抽样误差是指在遵守随机原则的条件下,用
抽样指标代表总体指标所产生的不可避免的
误差,抽样误差表现为抽样指标与总体指标
之间的绝对离差,即抽样平均数与总体平均
数之间的绝对离差 x  X 和抽样成数与总体
成数之间的绝对离差 p  P 。
抽样误差产生的原因
登记性误差
可消除性误差
统
计
误
差
的
产
生
原
因
系统性误差
技术性误差
不可消除性误差
抽样误差
3.影响抽样误差的因素
• 1)抽样单位数目的多少
抽样误差与样本容量(n)的算术平方根成反比。
• 2)总体各单位标志变异程度
抽样误差与总体标准差(σ) 成正比。
• 3)抽样的组织形式和方法
不重复抽样比重复抽样所产 生的误差小。
常用抽样组织形式的抽样误
差由小到大的顺序是:
类型(分层)抽样、机械(等距)
抽样、纯随机(简单随机)抽样、整群抽样。
二、 抽样平均误差
• 1.抽样平均误差的概念
• 抽样平均误差是所有可能出现的抽样指标
和全及指标之间的平均离差,也就是指所
有可能出现的样本指标的标准差,一般用
或
表示。
x
 x
p
m
x 
i
X
i 1

m
2

m
 x
 x
2
i
i 1
m
• 例:假设4个工人的日生产量为,甲40件、乙50件、
丙70件和丁80件,现在从四人中抽取三个人来估计
四个人的日平均生产量。
可见四个人总体的日平均生产量为(40+50+70+80)/4=60
• 现在从四个人中选三个人出来日平均产量,一共有4
种可能:
可能1:甲乙丙
可能2:甲乙丁
可能3:甲丙丁
可能4:乙丙丁
日平均产量
( 40+50+70)/3=53.33
( 40+50+80)/3=56.33
( 40+70+80)/3=63.33
( 50+70+80)/3=66.33
误差
|60-53.33|
|60-56.67|
|60-63.33|
|60-66.67|
可见这种抽样的四种可能与总体平均60,存在一定差异。
• 故抽样平均误差应表示为四种可能的平均误差,即
x 
 x
i

 X
|60-53.33|+ |60-56.67|+ |60-63.33|+ |60-66.67|
————————————————————
4
m
• 由于有绝对值不利于数学推导和运算,故将抽样平均误差
计为
 x
m
x 
i
X
i 1

2

m
60 - 53.33 2  (60
- 56.67)
2
 (60 - 63.33)
2
 (60 - 66.67)
4
=5.27
说明这种抽样方法估计日平均生产
量平均来说将会产生5.27件的误差。
2
• 所以,抽样平均误是综合衡量一种抽样
方法的抽样指标能反映总体指标的代表
性,如果某抽样方法抽样平均误差越大
则估计的总体指标的代表性越差,反之
则越好。
2.抽样平均误差的计算公式
• 1)平均数的抽样平均误差
• 重复抽样条件下    
2
x
• 在不重复抽样条件下
x 

n
n

2
n 

1 

n 
N 
不重复抽样的修正系数
当N 很大时,
N n
N 1
当抽样比(n/N)很小时,

1
n
N
1
n
N
1
例3:总体有A、B、C、D 4名学生,其考试成绩分别
为5分、4分、4分、3分,总体均值为4分,方差为
0.5。现要从中随机抽取2名学生构成样本。试分别
计算重复抽样和不重复抽样的抽样平均误差。
解:①重复抽样
x 


n
0 .5
2

1
4

1
 0 . 5(分)
2
②不重复抽样
x 

N n

 
n  N 1 
2
0 .5  4  2 

 
2  4 1 
1
4

2
3

1
6
 0 . 4082 (分)
2)成数的抽样平均误差
• 重复抽样条件下
p 
P (1  P )
n
• 不重复抽样的条件下
p 
P (1  P ) 
n 
1 

n
N 

【例】
• 某地区有奶牛2500头,随机抽选400头进行调查,
得出每头奶牛年平均产奶量为3000公斤,标准差
为280公斤,求抽样平均误差。
• 用重复抽样公式计算为:
x 

2

n
280
2
 14 (公斤)
400
• 用不重复抽样公式计算为:
x 

2
n 

1 
 
n 
N 
2
400 

1 
  12 . 83(公斤)
400 
2500 
280
【例】
• 某厂生产一批电视机共10000台,现从中抽
取300台进行质量检测,测得其合格率为
94%,试求其抽样平均误差。
p 
p 
p (1  p )

0 . 94  (1  0 . 94 )
n
p (1  p ) 
n 
1


 
n
N 

 1 . 37 %
300
0 . 94  (1  0 . 94 ) 
300 
1


  1 . 35 %
300
10000 

三、 抽样极限误差
• 抽样极限误差,又称抽样允许误差。它是
表示样本指标与总体指标之间产生抽样误
差的最大可能范围,表现为样本指标允许
变动的上限或下限与总体指标之差的绝对
值,用  表示。

x  x  X
x
x ≤
X
≤
p
 pP
x
x
例子
• 要估计某乡粮食亩产,从8000亩粮食作物中,用不
重复抽样抽取400亩,求得平均亩产为450公斤。如
果确定抽样极限误差为5公斤,这就要求某乡粮食亩
产为450±5公斤,即在445公斤到455公斤之间。
• 要估计某农作物秧苗的成活率,从播种这一品种的
秧苗地块随机抽取秧苗1000棵,其中死苗80棵,则
样本成活率P=1-80/1000=92%。如果确定抽样极限
误差△p为2%,这就要求该种秧苗的成活率P为
92%±2%,即是在90%到94%之间
四、 抽样误差的概率度
• 抽样极限误差与抽样平均误差的比值,
叫做误差的概率度,用 t 表示
t 
t 
x
x

p
p
或
 x  t x
或

p
 t p
借助t和  x 就可以计算极限误差
五、 抽样估计
• 1.点估计
• 点估计,也称定值估计,是直接用实际样
本指标数值代替总体指标数值。
x X
p P
2.区间估计
• 区间估计是根据一定的概率保证程度把样
本指标和抽样误差结合起来去推断总体指
标所在可能范围的估计方法 。
• 1)总体平均数的区间估计
x
x ≤
X
≤
x  x
• 误差率:
x
x

x X
x
• 估计精度:估计精度=1-误差率
x X
x
1
 1
x
x
例如已知样本平均数为500公斤,根据估计精度为90%
的要求,可推算出允许的抽样误差范围为:50公斤
如果已知总体平均数,
样本平均数的概率表
示为:
 3
 2
 1
P( X   x  x  X   x )
1
2
3
二)区间估计
1、建立置信区间……极限误差  x
x-X   x
(X-  x ) x (X   x )

该不等式表明样本平均数以


X 为中心,在(X   x )之间


变动,由于X未知,这一展开


式不用


(x-  x ) X (x   x )


该不等式表明区间(x   x )


包含总体平均数

同理:成数
(P-  p) p (P   p)

该不等式表明样本平均数以


 为中心,在(P   p)之间

变动,由于P未知,这一展开

p-P  P 
式不用

 p-  p) P (p   p)
(

该不等式表明区间(p   p)


包含总体平均数

2、误差范围的  x 进一步确定
x ±
x
 x ±t 
x
 
x
 (x-  x ) X (x   x )



(
 x- x )  X (x   x )

(
 x- 2 x ) X (x  2 x )
 x-
(
3 x ) X (x  3 x )

3、把握程度的确定……概率
 (x-  x ) X (x   x )
概率度



t=1
 P(x- x  X  x   x ) 0.6828

t=2
 P(x- 2 x  X  x  2 x ) 0.9545
 P(x-
t=3
3 x  X  x  3 x ) 0.9973

3、把握程度的确定……概率
p(x)
68.27%
x X x
t=1
p(x)
95.45%
X
2 x
2x
t=2
p(x)
99.73%
X
3 x
3x
t=3
p(x)
置信区间的概率(1  )
1- 
/2
/2
置信区间 为不包含  的概率
总结:
1、认识…极限误差、概率度t、抽样平均误
差、置性区间等概念及其关系
x ± x  置性区间, 其中  x 为极限误差
x ±t  x   x = t  x
其中 t概率度
t 表示  x 有几倍的  x 、
 x 在此仅仅是计量单位
2、认识…精度与概率的关系
3、认识…概率的真实含义
如果已知样本平均数,总
体平均数的概率表示为:
P( X   x  x  X   x )
P(x   x  X  x   x )
【例7】
• 某进出口公司出口一种名茶,为检查其每包规格的质
量,现用重复抽样的方法抽取100包,检验结果如表3:
表3
某公司茶叶质量抽样表
每包重量(克)
包数
148~149
149~150
150~151
151~152
10
20
50
20
合计
100
按规定这批茶叶每包规格重量应不低于150克,试以99.73%的
概率推断这批茶叶每包平均重量所在的区间范围,并确定茶
叶每包规格质量是否达到要求。
表10-4
每包重量
(克)
某公司茶叶质量抽样误差计算表
包数 f
组中值
xf
x x
( x  x) f
2
148~149
149~150
150~151
151~152
10
20
50
20
148.5x
149.5
150.5
151.5
1485
2990
7525
3030
-1.8
-0.8
0.2
1.2
32.4
12.8
2
28.8
合计
100
—
15030
—
76
x 
x 
 xf
f


15030
100
2
n
 x  x 
f
2

0 . 76
 150 . 3(克) S 
 0 . 087 (克)
100
150 . 3  0 . 261
≤ X
150.039≤ X
x
 t  x
f

100
 0 . 76
(克)
3  0 . 087  0 . 261 (克)
≤ 150 . 3  0 . 261
≤150.561
76
2)总体成数的区间估计
p
≤P ≤ p p
【例18】仍利用上例资料,在95.45%的概率保证下推断每包重
量在150克以上的茶叶所占的比重范围。
p 
n1
n
 p


70
p
 70 %
100
p 1  p 
n

0 . 7  (1  0 . 7 )
100
 p  t  p =2×4.58%=9.16%
70%-9.16%≤ P ≤70%+9.16%
60.84%≤ P ≤79.16%
 4 . 58 %
第四节 必要样本容量的确定
一、 必要样本容量的确定
• 1.影响必要样本容量的因素
• 1)总体各单位的标志变异程度
• 2)允许的误差范围,即极限误差
• 3)抽样估计的概率保证程度
• 4)抽样调查的组织形式
2.必要样本容量的计算公式
• 必要样本容量的计算公式,是由抽样平均
误差与抽样极限误差的关系式变换而来的,
也分为重复抽样与不重复抽样两种计算方
法。
简单随机抽样的必要样本容量的
计算公式:
• 1)重复抽样的必要样本容量
• 平均数的必要样本容量:
t 
2
nx 
2
x
2
• 成数的必要样本容量:
t P (1  P )
2
np 

2
p
2)不重复抽样的必要样本容量
• 平均数的必要样本容量:
Nt 
2
• 成数的必要样本容量:
nx 
2
N x  t 
2
2
2
Nt P (1  P )
2
np 
N
2
p
 t P (1  P )
2
• [例] 对某油田的2000口油井的年产油量进行抽样
调查。根据历史资料可知,油井年产油量的标准
差为200吨,若要求抽样误差不超过15吨,概率保
证程度为95.45%,试求需要调查多少口油井
• 解:F(t)= 95.45% t = 2
• [例] 对某工厂的一批机械零件的合格率进行抽样调
查,根据过去的资料,合格率曾有过99%、97%和
94%三种情况,现要求允许误差不超过1%,要求
推断的把握程度为95.45%,问需要抽取多少个零件。
• 解:
(件)
2
2
n
t p(1  p )

2
p

2  0.0564
2
0.01
 2256
• p(1-p) 取最大值,即需抽取2256件产品才能满足要
求。
例题:某灯泡厂对一批灯泡的平均使用寿命和合格品率
进行检验,要求置信度为95%,前几批的经验数据资
料有:平均使用寿命的标准差为200、250、300小时,
合格品率为92%、93%、95%。要求: 推断平均寿命
的抽样误差不超过50小时,推断合格率的误差不超过
2
2
5%,试问应至少抽多少只灯泡。
Z 
2
2
1
1
.
96

300
2
nx 

 138 . 3 ( 只 )
2
2
50
x
Z
np 
2
1

P (1  P )
2
p
2
1 . 96  92 %  8 %
2

( 5 %)
2
 113 . 1( 只 )
为了满足两者共同的需要,应抽取139只进行调查。
二、 总体总量指标的推算
• 1.直接推算法
• 直接推算法是用样本指标数值或总体指标的
区间估计值乘以总体单位数来推算总体总量
指标的方法。
• 在点估计的情况下,可以直接用样本指标数
值乘以总体单位数,即 x N 或 pN 来推
断;
• 在区间估计的情况下,可以用区间估计值乘
以总体单位数,即
[
]或
(x   )N ,(x   )N
[
]来推算。
( p   p )N ,( p   p )N
x
x
修正系数法
• 1)比例修正
• 比例修正是指用同一抽样总体中各个有关标志比
例来修正全及总体指标的方法。
• 【例10.17】某县粮食预计产量为4000万公斤,
现随机抽取100个农户进行核实,结果这100个农
户原预计粮食总量为60万公斤,实际入库产量为
63万公斤,其修正比例为:
• 修正比例=
抽样实际产量
抽样预计产量

63
 1 . 05
60
则全县粮食实际产量可以修正为:4000×1.05=4200(万公斤)
第五节 抽样调查的组织形式
• 一、简单随机抽样
• 简单随机抽样,又称纯随机抽样。它是对
全及总体的所有单位不进行任何分类或排
队处理,而是完全按照随机原则从总体中
抽出样本单位加以观察,以保证总体中每
个单位有相等被抽中的机会。
•
•
•
•
简单随机抽样具体抽取样本单位的方法有:
(1)直接抽选法
(2)抽签法
(3)随机数字表法
二、 类型抽样
• 1.类型抽样的概念
• 类型抽样,也称为分层抽样或分类抽样。
它首先把全及总体按某一标志分成若干组
(或若干类、若干层),然后分别在各组
内按随机原则抽取一定数目的样本单位构
成样本的抽样方式。
2.类型抽样样本单位的分配方法
• 1)等比例抽样
ni

Ni
n
N
• 2)不等比例抽样
ni
n

Ni
N
3.类型抽样误差的计算公式
• 1)平均数的抽样平均误差
• 重复抽样条件下:
i
2
• 不重复抽样条件下:
x 
n
i 
2
x 
i Ni
2
i 
2
N
n 
1 

n 
N 
2)成数的抽样平均误差
• 在重复抽样条件下,
p 
Pi 1  Pi 
N
• 不重复抽样条件下
Pi 1  Pi  
n 
1 

N
N 

p 
P 1  P  N

P 1  P  
i
i
i
i
N
i
三、 等距抽样
• 1.等距抽样的概念
• 等距抽样,又称机械抽样或系统抽样,它
是首先将总体各单位按某一标志排队,然
后按固定的顺序和间隔来抽选样本单位的
一种抽样组织形式。
2.等距抽样的分类
• 1)等距抽样按排队所依据的标志不同,可
以分为按无关标志排队和按有关标志排队
两种。
• 2)等距抽样按样本单位的抽选方法不同,
可以分为随机起点等距抽样、半距起点等
距抽样和对称等距抽样等。
3.等距抽样误差的计算公式
• 按无关标志排队的等距抽样,抽样误差的计算方
法比较复杂,一般可以按不重复简单随机抽样误
差公式来计算。
• 按有关标志排队的等距抽样具有类型抽样的性质,
因此,可用类型抽样的公式计算抽样误差。因为
按有关标志排队说明已经初步掌握了总体各单位
标志值的资料,因而可以直接用总体方差,而不
必用样本方差。
四、整群抽样
• 1.整群抽样的概念
• 整群抽样是将总体各单位划分成若干群或
组,然后以群或组为单位从中随机抽取一
些群,对中选群的所有单位进行全面调查
的抽样组织形式。
2.整群抽样误差的计算公式
• 1)平均数抽样平均误差
X R r
2
x 
 X
R
X 
2
i
i 1
 X


r  R 1 

x 
2
R
 x
r
2
i
i 1
r
 x

2
• 2)成数抽样平均误差
P  R  r 
2
p 
r
R
 P
i

2
P



r  R 1 
 P
i 1
R
  pi
2

2
p

i
r
 p
2