附件:点击下载

Download Report

Transcript 附件:点击下载

第8章 抽样推断与参数估计
第一节 抽样误差
第二节 抽样单位数目的确定
第三节 参数估计
第一节
抽样误差
 2.1、抽样平均误差
 (一)概念
 (二)计算
1、简单随机抽样
2、类型抽样
3、等距抽样
4、整群抽样
5、阶段抽样
(三)影响抽样平均误差的因素
2.2、抽样极限误差
2.3、抽样极限误差与抽样平均误差的关系
返回
一、抽样平均误差
 (一)抽样平均误差的概念
实际误差
x1   ( X ) x 2   ( X )

p2  P 
p1  P
  ( X ))2
ux 
M
2
( p  P)
up 
M
(x
平均误差
• 抽样平均误差:样本指标与总体指标间平均的离差
二、抽样平均误差计算
 1、简单随机抽样平均误差的计算公式
 ①平均数的抽样平均误差
σ
ux 
(重复)
n
σ2 N  n
σ2
n
u

(
1

)(不重复)
ux 
(
)或 x
n
N
n N1
 ②成数的抽样平均误差
P(1  P)
up 
(重复)
n
up 
P(1  p) N  n
P(1  P)
n
(
)或u p 
(1  )(不重复)
n
N1
n
N
练习
 1、某冷库冻鸡平均每只重1200克,标准差70克,如果重复
随机抽取100只和200只,分别计算抽样平均误差。
σx
70
70
ux 

 7(克)
ux 
 4  95
(克)
n
100
200
 2、该冷库冻鸡合格率为97%,如果重复随机抽取100只和200
只,分别计算抽样平均误差。
P(1  P) 97%( 1  97%)
up 

 1 7%
n
100
97%(1  97%)
up 
 1 2%
200
 3、据电视观众抽样调查资料显示:电视观众平均收视时间
为95分钟,标准差为70,如果采用重复抽样的方法随机抽取
10000人或40000人,分别计算抽样平均误差。
x
70
ux 

n
10000
ux 
70

40000
 4、据CNNIC “中国互联网络发展状况统计报告”显示:截止
到 2009年1月中国宽带网民占网民总体的90.6%,如果采用
重复随机抽取方法在网民中抽取100人和400人,分别计算抽
样平均误差。
P(1  P) 90.6%(1  90.6%)
up 

n
100
5. 从总体300个单位中随机重复抽取36个单位作样本,
其标准差为6,则平均数的平均抽样误差为:
(
)
(1)2
(2)1
(3) 3
(4) 4
6.从总体300个单位中随机不重复抽取36个单位
作样本,其标准差为6,则平均数的平均抽样
误差为:
(
)
7.在随机重复抽样条件下,为使抽样误差减少一半,
样本容量应增加到:
(
)
(1) 1 倍 (2) 2 倍 (3) 3 倍 (4) 4 倍
2、类型抽样
 (1)概念:类型抽样是将总体全部单位按某个标志分成若干
个类型组,然后从各类型组中采用简单随机抽样方式或其它
方式抽取样本单位。
 (2)样本单位数在各类型组中的分配方式
 ①等额分配:在各类型组中分配同等单位数。
 ②等比例分配:按各类型组在总体中所占比例分配样本单位
n1 n 2
nk n
数。即:



N1 N 2
Nk N
 ③最优分配:按各类型组的规模大小和差异程度,确定各类
型组的样本单位数。
(3)抽样平均误差的计算公式
2
2
 ①平均数的抽样平均误差
σi

σ i Ni
2
ux 
σi 
 重复
n
N
 不重复且等比例
ux 
 i2
n
(1 
)
n
N
 ②成数的抽样平均误差
Pi (1  Pi )
 重复
up 
n
k
Pi (1  Pi ) 
 不重复且等比例
Pi (1  Pi )
n
up 
(1  )
n
N
 Pi (1  Pi )N i
i 1
N
例 题
 ①有12块小麦地,每块1亩。6块处于丘陵地带,亩产量(斤)
分别为:300 330 330 340 370 370 。 6块处于平原
地带,亩产量(斤)分别为:420 420 450 460 490
520。抽查4块,测定12块地的平均亩产量,计算其抽样误差。
 ②设亩产在350以上的为高产田,抽查4块,测定12块地高产
田的比重,计算其抽样误差。
 用类型抽样,每类抽2块
 计算各组方差
平均组内方差
抽样误差
X1 ( X1  X1)
2
(
X

X
)
X2
2
2
2
丘
陵
平
原
亩产量
300
1600
330
100
330
100
340
0
370
900
370
900
i2 
N
2
X2  460
2

1 
3600
合计
2

 i Ni
X1  340

3600
 600
6
600 6  1300 6
 950
12
σi
950
ux 

 15.41
n
4
亩产量
420
1600
420
1600
450
100
460
0
490
900
520
3600
合计
7800
 22 
2
7800
 1300
6
σi
n
950
4
ux 
(1  ) 
(1  )
n
N
4
12
 12  57
②
1  Pi
地块
数
高产
田数
高产田
比重%
丘陵
6
2
33.3
66.67
22.2
平原
6
6
100
0
0
Pi
 Pi (1 
Pi (1  Pi )
22.2%  6  0
Pi (1  Pi ) 

 11.1%
N
12
Pi (1  Pi )
11.1%
up 

 16.65%
n
4
Pi )N i
Pi (1  Pi )
n
11.1%
4
up 
(1  ) 
(1  )  13.6%
n
N
4
12
3、等距抽样
 (1)概念:将总体各单位标志值按某一标志顺序排队,然而按
一定的间隔抽取样本单位。
 (2)排对的方法
 ①无关标志排队
②有关标志排队
 (3)抽取样本单位的方法
 ①按相等的距离取样
 ②对称等距取样
 (4)抽取第一个样本单位的方法
 ①随机抽取
②居中抽取
4、整群抽样
 (1)概念:把总体分为若干群,从总体群中抽取若干样本群,对
抽中的群进行全数登记调查。
(2)抽样平均误差的计算公式
2
2
2

( x i  x)
 ( X i  X)
2
δx Rr
2
δx 
δx 
ux 
(
)
r
2
r R 1
R

2
(
p

p
)
2
i
 ( Pi  P )
δ 2p R  r
2
δ

p
δp 
up 
(
)
r
r R 1
R
(3)例题
某水泥厂一昼夜的产量为14400袋,现每隔144分钟抽取1分钟
的水泥(10袋)检查平均每袋重量和一级品率,样本资料如下:
计算抽样平均误差
一昼夜有1440分钟,即把总体分为1440群,R=1440
每隔144分钟抽取1分钟的水泥(10袋),r= 10
δ 2x R  r
2  65 1440  10
ux 
(
)
(
)  0.513
r R 1
10 1440  1
δ Rr
0.00048 1440  10
up 
(
)
(
)  0.0069
r R 1
10
1440  1
2
p
(三)影响抽样平均误差的因素
 1、总体标准差的大小
 2、样本单位数的多少
 3、抽样方法的不同
 4、抽样组织方式的差别
2.2 抽样极限误差
 样本指标围绕总体指标左右两侧波动形成的一定范围。
 抽样极限误差:样本指标与总体指标最大可能的误差
范围
x  x  
p  p  P
2.3、抽样极限误差与抽样平均误差的关系
(一)抽样分布
据中心极限定理,当总体为正态或总体非正态但n≥30时,样本均
值的分布趋近于正态分布;当n足够大时,样本成数的分布近似为正态
分布。
(二)关系
x  X x
z

ux
ux
第三节
抽样单位数目的确定
3.1、抽样单位数目的计算
(一)简单随机抽样
(二)类型抽样
(三)等距抽样
(四)整群抽样
3.2、影响抽样单位数目的因素
3.1
抽样单位数目的计算
(一)简单随机抽样单位数目的确定
1、计算公式
2
(1)平均数
2 2

 x  zu x  z
x
n
n
z x

2
x
n
Nz 2 x2
N2x  z 2 x2
(2)成数
z P(1  P)
2
n

2
p
n
Nz 2 p(1  P)
N2p  z 2 P(1  P)
2.例题
(1)某类产品根据以往资料的估计,总体方差5.456千克,现对
一批进行简单随机抽样以推断该批产品的平均重量,要求可靠
程度达到99.73%,误差范围不超过0.9千克,需要抽多少样
本单位?
按题意
2
2
3  5  456
σ x  5  456
n
 61
z 3
2
(0  9)
x  0  9
(2)根据以往资料的估计,该类产品的一等品率为
 90%,可靠程度仍为99.73%,误差范围不超过5%,推断该
批产品的一等品率,需要抽多少样本单位?
按题意
P  90% z  3
 p  5%
3 0901
n
 324
2
(0  05)
2
(二)类型抽样
 1、计算公式
重复抽样
平均数
n
不重复抽样
z 2  i2

2
x
n
Nz 2  i2
N2x  z 2  i2
2、例题
 某工厂早、中、晚生产罐头10000瓶,根据以往资料的估计平
均重量的类型平均方差为0.549克,合格率的类型平均方差为
0.02787,要求可靠程度为何95%,平均重量的允许误差为
0.11克,合格率的允许误差为0.025,用类型抽样推断10000
瓶罐头的平均重量和合格率,需要抽多少样本单位?
据题意
σ 2  0  549
N  10000 i
z  1 96  x  0  11
Pi (1  Pi )  0  02787  p  0  025
10000  (1  96)2  0  549
n
 171
2
2
10000  (0  11)  (1  96)  0  549
(1  96)2  0  02787
n
 171
2
(0  025)
(三)等距抽样
 计算公式
 (1)按有关标志排队
 同类型重复抽样
n
 (2)按无关标志排队
 同简单随机不重复抽样
n
Nz2  x2
2
N  z 
2
x
2
2
2
x
z 
2
2
i

2
x
n
n
z2 pi (1  pi )
2
2p
Nz2 p(1  P )
2
N2p  z2 P (1  P )
2
3.2、影响抽样单位数目的因素
总体各单位的变异程度
抽样推断的准确程度△
抽样推断的可靠程度Z
 抽样的组织形式
 抽样的方法
σ
第四节
抽样估计
4.1 估计量的优良标准:无偏性、有效性、一致性
4.2 抽样估计的方法
(一)点估计:直接用样本指标代替总体指标
不能准确的告诉我们估计的把握程度
(二)区间估计 :不仅仅告诉我们一个范围,告诉我们估计
的把握程度
1、平均数的区间估计
2、成数的区间估计
3、2个总体平均数之差的估计
4、两个总体比例之差的估计
二、抽样估计的方法
返回
 (一)点估计
Xx
 (二)区间估计
Pp
 特点:不是指出被估计参数的确定数值,而是指出被估计参数的的可能范
围,同时对参数落在某一范围内给定相应概率的保证程度。z-概率度
 1、平均数的区间估计
 (1)样本取自总体方差已知的正态分布(大、小样本)
z
xX
ux

ux 
n
x  z ux  X  x  zu x
ux 
2 N n
(
n N 1
)
 例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平
均误差是3公斤,现给定抽样误差极限为6公斤,求总体平均
亩产落在估计区间的概率?
 已知:
u=3公斤 Δ=6公斤
x  600
 则估计区间(600-6,600+6)=(594,606)

| x X |
6
z 
 2
 查正态概率表得,落在估计区间的概率为:


3

F(z)=F(2)=95.45%
 例:麦当劳餐馆在7星期内抽查49名顾客的消费额如下,在概率90%的保证
下,顾客平均消费额的估计区间.
 15 24 38 26 30 42 18 30 25 34 44 20 35 46 28 47…..
 解:①计算样本的平均数和标准差:
x  32
  9.45

9.45


 1.35
n
49
 ②根据给定的置信度F(z)=90%,查概率表z=1.64
 ③计算:   z  1.641.35  2.2元




消费额下限= x    32  2.2  29.8元
消费额上限= x    32  2.2  34.2元
点估计:麦当劳餐馆顾客平均消费额为32元
区间估计:以90%的概率保证,麦当劳餐馆顾客消费额在29.8-34.2之间
 某制造厂质量管理部门希望估计本厂生产的5500包原材料
的平均重量,抽出250包,测得平均重量65千克。总体标准
z  1.96
差15千克。总体为正态分布,在置信水平为95%的条件下
建立这种原材料的置信区间。
x  65
  15

15
x z
 65  1.96
 65  1.86
n
250
 5500包原材料的平均重量在63.14~66.86之间。
总体平均数估计
 根据置信度的要求,估计极限误差可能的范围,并指出估计区间,
具体步骤如下:
 ①抽取样本,并根据样本的标志值求出样本平均数
差S,在大样本的情况下用S代替

②根据给定的置信度F(z),查正态分布概率表得到z
③根据
  z
计算估计区间的上下限。
和标准
x
 例:为了估计一分钟广告的平均费用,抽出15个电视台组成样
本,得样本均值10000元,标准差2000元。总体近似服从正态
分布,在置信水平为96.76%(z=2.14)的条件下建立广告平均
费用的置信区间。
s  2000 z  2.14
x  10000
s
2000
x z
 10000 2.14
 10000 1106
n
15
 电视台一分钟广告的平均费用在8894~11106之间。
 (二)根据极限抽样误差
 ,求概率保证度F(z) 。
 具体步骤如下:
 ①抽取样本,并根据样本的标志值求出样本平均数 x 作为总
体平均数的估计值,并计算标准差S以推算平均误差

②根据给定的极限抽样误差,估计总体平均数上下限。
③根据   z 概率度z, 查正态分布概率表,求得置信度
F(z)。
 在一项新广告的跟踪调查中,在被调查的400人中有240人会记起广告
的标语。试求会记起广告语占总体比率的95%置信度的估计区间。
 根据样本资料计算:

P=n1/n2=240/400=60%
 
p (1  p ) 
0.6(1  0.6)  0.49

p (1  p )

n
0 .6  0. 4
 0.0245
400
 根据给定的置信度要求F(Z)= 95%,查表Z=1.96
 根据   z  1.96 2.45%  4.8%
则总体比率的上下限为:
下限  p    60%  4.8%  55.2%
上限  p    60%  4.8%  64.8%
 以概率95%的保证程度,会计会记起广告语的人数占总体比率的55.264.8之间
总体成数的估计
 (一)根据置信度的要求,估计极限误差可能的范围,并指出估计
区间范围,具体步骤如下:
 ①抽取样本,计算样本的成数 p和标准差S,并由此推算出抽样
的平均误差u
②根据给定的置信度F(z),查正态分布概率表得到z
③根据   z 计算总体成数的上下限。
成数的区间估计
•例1:某企业在一项关于职工流动原因的研究中,从原
职工中随机抽取了200人访问,有140人离开的原因是
工资太低。以95%的置信水平对总体这种原因离开的人
员比例进行区间估计。
p  0.7 z  1.96
p(1  p)
0.7  (1  0.7)
pz
 0.7  1.96
 0.7  0.064
n
200
该企业由于工资低离开的职工比例为63.6% 与76.4%之间