Transcript 附件:点击下载
第8章 抽样推断与参数估计
第一节 抽样误差
第二节 抽样单位数目的确定
第三节 参数估计
第一节
抽样误差
2.1、抽样平均误差
(一)概念
(二)计算
1、简单随机抽样
2、类型抽样
3、等距抽样
4、整群抽样
5、阶段抽样
(三)影响抽样平均误差的因素
2.2、抽样极限误差
2.3、抽样极限误差与抽样平均误差的关系
返回
一、抽样平均误差
(一)抽样平均误差的概念
实际误差
x1 ( X ) x 2 ( X )
p2 P
p1 P
( X ))2
ux
M
2
( p P)
up
M
(x
平均误差
• 抽样平均误差:样本指标与总体指标间平均的离差
二、抽样平均误差计算
1、简单随机抽样平均误差的计算公式
①平均数的抽样平均误差
σ
ux
(重复)
n
σ2 N n
σ2
n
u
(
1
)(不重复)
ux
(
)或 x
n
N
n N1
②成数的抽样平均误差
P(1 P)
up
(重复)
n
up
P(1 p) N n
P(1 P)
n
(
)或u p
(1 )(不重复)
n
N1
n
N
练习
1、某冷库冻鸡平均每只重1200克,标准差70克,如果重复
随机抽取100只和200只,分别计算抽样平均误差。
σx
70
70
ux
7(克)
ux
4 95
(克)
n
100
200
2、该冷库冻鸡合格率为97%,如果重复随机抽取100只和200
只,分别计算抽样平均误差。
P(1 P) 97%( 1 97%)
up
1 7%
n
100
97%(1 97%)
up
1 2%
200
3、据电视观众抽样调查资料显示:电视观众平均收视时间
为95分钟,标准差为70,如果采用重复抽样的方法随机抽取
10000人或40000人,分别计算抽样平均误差。
x
70
ux
n
10000
ux
70
40000
4、据CNNIC “中国互联网络发展状况统计报告”显示:截止
到 2009年1月中国宽带网民占网民总体的90.6%,如果采用
重复随机抽取方法在网民中抽取100人和400人,分别计算抽
样平均误差。
P(1 P) 90.6%(1 90.6%)
up
n
100
5. 从总体300个单位中随机重复抽取36个单位作样本,
其标准差为6,则平均数的平均抽样误差为:
(
)
(1)2
(2)1
(3) 3
(4) 4
6.从总体300个单位中随机不重复抽取36个单位
作样本,其标准差为6,则平均数的平均抽样
误差为:
(
)
7.在随机重复抽样条件下,为使抽样误差减少一半,
样本容量应增加到:
(
)
(1) 1 倍 (2) 2 倍 (3) 3 倍 (4) 4 倍
2、类型抽样
(1)概念:类型抽样是将总体全部单位按某个标志分成若干
个类型组,然后从各类型组中采用简单随机抽样方式或其它
方式抽取样本单位。
(2)样本单位数在各类型组中的分配方式
①等额分配:在各类型组中分配同等单位数。
②等比例分配:按各类型组在总体中所占比例分配样本单位
n1 n 2
nk n
数。即:
N1 N 2
Nk N
③最优分配:按各类型组的规模大小和差异程度,确定各类
型组的样本单位数。
(3)抽样平均误差的计算公式
2
2
①平均数的抽样平均误差
σi
σ i Ni
2
ux
σi
重复
n
N
不重复且等比例
ux
i2
n
(1
)
n
N
②成数的抽样平均误差
Pi (1 Pi )
重复
up
n
k
Pi (1 Pi )
不重复且等比例
Pi (1 Pi )
n
up
(1 )
n
N
Pi (1 Pi )N i
i 1
N
例 题
①有12块小麦地,每块1亩。6块处于丘陵地带,亩产量(斤)
分别为:300 330 330 340 370 370 。 6块处于平原
地带,亩产量(斤)分别为:420 420 450 460 490
520。抽查4块,测定12块地的平均亩产量,计算其抽样误差。
②设亩产在350以上的为高产田,抽查4块,测定12块地高产
田的比重,计算其抽样误差。
用类型抽样,每类抽2块
计算各组方差
平均组内方差
抽样误差
X1 ( X1 X1)
2
(
X
X
)
X2
2
2
2
丘
陵
平
原
亩产量
300
1600
330
100
330
100
340
0
370
900
370
900
i2
N
2
X2 460
2
1
3600
合计
2
i Ni
X1 340
3600
600
6
600 6 1300 6
950
12
σi
950
ux
15.41
n
4
亩产量
420
1600
420
1600
450
100
460
0
490
900
520
3600
合计
7800
22
2
7800
1300
6
σi
n
950
4
ux
(1 )
(1 )
n
N
4
12
12 57
②
1 Pi
地块
数
高产
田数
高产田
比重%
丘陵
6
2
33.3
66.67
22.2
平原
6
6
100
0
0
Pi
Pi (1
Pi (1 Pi )
22.2% 6 0
Pi (1 Pi )
11.1%
N
12
Pi (1 Pi )
11.1%
up
16.65%
n
4
Pi )N i
Pi (1 Pi )
n
11.1%
4
up
(1 )
(1 ) 13.6%
n
N
4
12
3、等距抽样
(1)概念:将总体各单位标志值按某一标志顺序排队,然而按
一定的间隔抽取样本单位。
(2)排对的方法
①无关标志排队
②有关标志排队
(3)抽取样本单位的方法
①按相等的距离取样
②对称等距取样
(4)抽取第一个样本单位的方法
①随机抽取
②居中抽取
4、整群抽样
(1)概念:把总体分为若干群,从总体群中抽取若干样本群,对
抽中的群进行全数登记调查。
(2)抽样平均误差的计算公式
2
2
2
( x i x)
( X i X)
2
δx Rr
2
δx
δx
ux
(
)
r
2
r R 1
R
2
(
p
p
)
2
i
( Pi P )
δ 2p R r
2
δ
p
δp
up
(
)
r
r R 1
R
(3)例题
某水泥厂一昼夜的产量为14400袋,现每隔144分钟抽取1分钟
的水泥(10袋)检查平均每袋重量和一级品率,样本资料如下:
计算抽样平均误差
一昼夜有1440分钟,即把总体分为1440群,R=1440
每隔144分钟抽取1分钟的水泥(10袋),r= 10
δ 2x R r
2 65 1440 10
ux
(
)
(
) 0.513
r R 1
10 1440 1
δ Rr
0.00048 1440 10
up
(
)
(
) 0.0069
r R 1
10
1440 1
2
p
(三)影响抽样平均误差的因素
1、总体标准差的大小
2、样本单位数的多少
3、抽样方法的不同
4、抽样组织方式的差别
2.2 抽样极限误差
样本指标围绕总体指标左右两侧波动形成的一定范围。
抽样极限误差:样本指标与总体指标最大可能的误差
范围
x x
p p P
2.3、抽样极限误差与抽样平均误差的关系
(一)抽样分布
据中心极限定理,当总体为正态或总体非正态但n≥30时,样本均
值的分布趋近于正态分布;当n足够大时,样本成数的分布近似为正态
分布。
(二)关系
x X x
z
ux
ux
第三节
抽样单位数目的确定
3.1、抽样单位数目的计算
(一)简单随机抽样
(二)类型抽样
(三)等距抽样
(四)整群抽样
3.2、影响抽样单位数目的因素
3.1
抽样单位数目的计算
(一)简单随机抽样单位数目的确定
1、计算公式
2
(1)平均数
2 2
x zu x z
x
n
n
z x
2
x
n
Nz 2 x2
N2x z 2 x2
(2)成数
z P(1 P)
2
n
2
p
n
Nz 2 p(1 P)
N2p z 2 P(1 P)
2.例题
(1)某类产品根据以往资料的估计,总体方差5.456千克,现对
一批进行简单随机抽样以推断该批产品的平均重量,要求可靠
程度达到99.73%,误差范围不超过0.9千克,需要抽多少样
本单位?
按题意
2
2
3 5 456
σ x 5 456
n
61
z 3
2
(0 9)
x 0 9
(2)根据以往资料的估计,该类产品的一等品率为
90%,可靠程度仍为99.73%,误差范围不超过5%,推断该
批产品的一等品率,需要抽多少样本单位?
按题意
P 90% z 3
p 5%
3 0901
n
324
2
(0 05)
2
(二)类型抽样
1、计算公式
重复抽样
平均数
n
不重复抽样
z 2 i2
2
x
n
Nz 2 i2
N2x z 2 i2
2、例题
某工厂早、中、晚生产罐头10000瓶,根据以往资料的估计平
均重量的类型平均方差为0.549克,合格率的类型平均方差为
0.02787,要求可靠程度为何95%,平均重量的允许误差为
0.11克,合格率的允许误差为0.025,用类型抽样推断10000
瓶罐头的平均重量和合格率,需要抽多少样本单位?
据题意
σ 2 0 549
N 10000 i
z 1 96 x 0 11
Pi (1 Pi ) 0 02787 p 0 025
10000 (1 96)2 0 549
n
171
2
2
10000 (0 11) (1 96) 0 549
(1 96)2 0 02787
n
171
2
(0 025)
(三)等距抽样
计算公式
(1)按有关标志排队
同类型重复抽样
n
(2)按无关标志排队
同简单随机不重复抽样
n
Nz2 x2
2
N z
2
x
2
2
2
x
z
2
2
i
2
x
n
n
z2 pi (1 pi )
2
2p
Nz2 p(1 P )
2
N2p z2 P (1 P )
2
3.2、影响抽样单位数目的因素
总体各单位的变异程度
抽样推断的准确程度△
抽样推断的可靠程度Z
抽样的组织形式
抽样的方法
σ
第四节
抽样估计
4.1 估计量的优良标准:无偏性、有效性、一致性
4.2 抽样估计的方法
(一)点估计:直接用样本指标代替总体指标
不能准确的告诉我们估计的把握程度
(二)区间估计 :不仅仅告诉我们一个范围,告诉我们估计
的把握程度
1、平均数的区间估计
2、成数的区间估计
3、2个总体平均数之差的估计
4、两个总体比例之差的估计
二、抽样估计的方法
返回
(一)点估计
Xx
(二)区间估计
Pp
特点:不是指出被估计参数的确定数值,而是指出被估计参数的的可能范
围,同时对参数落在某一范围内给定相应概率的保证程度。z-概率度
1、平均数的区间估计
(1)样本取自总体方差已知的正态分布(大、小样本)
z
xX
ux
ux
n
x z ux X x zu x
ux
2 N n
(
n N 1
)
例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平
均误差是3公斤,现给定抽样误差极限为6公斤,求总体平均
亩产落在估计区间的概率?
已知:
u=3公斤 Δ=6公斤
x 600
则估计区间(600-6,600+6)=(594,606)
| x X |
6
z
2
查正态概率表得,落在估计区间的概率为:
3
F(z)=F(2)=95.45%
例:麦当劳餐馆在7星期内抽查49名顾客的消费额如下,在概率90%的保证
下,顾客平均消费额的估计区间.
15 24 38 26 30 42 18 30 25 34 44 20 35 46 28 47…..
解:①计算样本的平均数和标准差:
x 32
9.45
9.45
1.35
n
49
②根据给定的置信度F(z)=90%,查概率表z=1.64
③计算: z 1.641.35 2.2元
消费额下限= x 32 2.2 29.8元
消费额上限= x 32 2.2 34.2元
点估计:麦当劳餐馆顾客平均消费额为32元
区间估计:以90%的概率保证,麦当劳餐馆顾客消费额在29.8-34.2之间
某制造厂质量管理部门希望估计本厂生产的5500包原材料
的平均重量,抽出250包,测得平均重量65千克。总体标准
z 1.96
差15千克。总体为正态分布,在置信水平为95%的条件下
建立这种原材料的置信区间。
x 65
15
15
x z
65 1.96
65 1.86
n
250
5500包原材料的平均重量在63.14~66.86之间。
总体平均数估计
根据置信度的要求,估计极限误差可能的范围,并指出估计区间,
具体步骤如下:
①抽取样本,并根据样本的标志值求出样本平均数
差S,在大样本的情况下用S代替
②根据给定的置信度F(z),查正态分布概率表得到z
③根据
z
计算估计区间的上下限。
和标准
x
例:为了估计一分钟广告的平均费用,抽出15个电视台组成样
本,得样本均值10000元,标准差2000元。总体近似服从正态
分布,在置信水平为96.76%(z=2.14)的条件下建立广告平均
费用的置信区间。
s 2000 z 2.14
x 10000
s
2000
x z
10000 2.14
10000 1106
n
15
电视台一分钟广告的平均费用在8894~11106之间。
(二)根据极限抽样误差
,求概率保证度F(z) 。
具体步骤如下:
①抽取样本,并根据样本的标志值求出样本平均数 x 作为总
体平均数的估计值,并计算标准差S以推算平均误差
②根据给定的极限抽样误差,估计总体平均数上下限。
③根据 z 概率度z, 查正态分布概率表,求得置信度
F(z)。
在一项新广告的跟踪调查中,在被调查的400人中有240人会记起广告
的标语。试求会记起广告语占总体比率的95%置信度的估计区间。
根据样本资料计算:
P=n1/n2=240/400=60%
p (1 p )
0.6(1 0.6) 0.49
p (1 p )
n
0 .6 0. 4
0.0245
400
根据给定的置信度要求F(Z)= 95%,查表Z=1.96
根据 z 1.96 2.45% 4.8%
则总体比率的上下限为:
下限 p 60% 4.8% 55.2%
上限 p 60% 4.8% 64.8%
以概率95%的保证程度,会计会记起广告语的人数占总体比率的55.264.8之间
总体成数的估计
(一)根据置信度的要求,估计极限误差可能的范围,并指出估计
区间范围,具体步骤如下:
①抽取样本,计算样本的成数 p和标准差S,并由此推算出抽样
的平均误差u
②根据给定的置信度F(z),查正态分布概率表得到z
③根据 z 计算总体成数的上下限。
成数的区间估计
•例1:某企业在一项关于职工流动原因的研究中,从原
职工中随机抽取了200人访问,有140人离开的原因是
工资太低。以95%的置信水平对总体这种原因离开的人
员比例进行区间估计。
p 0.7 z 1.96
p(1 p)
0.7 (1 0.7)
pz
0.7 1.96
0.7 0.064
n
200
该企业由于工资低离开的职工比例为63.6% 与76.4%之间