第4章参数估计

Download Report

Transcript 第4章参数估计

第4章 参数估计
会计学2011级
参数估计在统计方法中的地位
统计方法
推断统计
描述统计
参数估计
假设检验
统计推断的过程
第4章内容
参数估计的基本原理
一个总体参数的区间估计
样本量的确定
4.1教学目标
 理解估计量与估计值的概念
 了解点估计的概念,理解区间估计的基本原理
 掌握评价估计量优良性的标准
4.1 参数估计的基本原理
估计量与估计值
点估计与区间估计
评价估计量的标准
至:4.2
一、估计量与估计值
 估计量:用于估计总体参数的统计量的名称
– 如样本均值、样本比率、样本方差等
例如:样本均值𝑥就是总体均值𝜇的一个估计量
– 总体参数用𝜃表示,估计量用𝜃表示
 估计值:估计总体参数时计算出来的统计量的具体
数值
– 如果样本均值𝑥 = 80,则80就是𝜇的估计值
思考题
 估计量的含义是指( )
– A.用来估计总体参数的统计量的名称
– B.用来估计总体参数的统计量的具体数值
– C.总体参数的名称
– D.总体参数的具体取值
返回4.1目录
二、点估计与区间估计
估计方法
点估计
区间估计
1. 点估计(point estimate)
 用样本估计量𝜃的值直接作为总体参数𝜃的估计值
– 用样本均值直接作为总体均值的估计,用样本方差
直接作为总体方差的估计,用样本比率直接作为总
体比率的估计,等等
用一个随机样本的平均成绩80分作为全班学生平均
成绩的估计值
用样本的合格率96%作为一批产品的合格率
 点估计的缺陷
– 没有给出估计值接近总体参数真实值的程度的信息
2.区间估计(interval estimate)
 区间估计:
– 在点估计的基础上,给出总体参数估计的一个区间
范围,该估计区间由样本统计量加减抽样误差而得
到;
– 同时还能够根据样本统计量的抽样分布对样本统计
量与总体参数的接近程度给出一个概率度量,或者
说区间估计能给出总体参数以多大的概率落在这个
范围内。
区间估计的概念
 设𝜃为总体𝑋的未知参数,(𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 )为来自总
体𝑋的容量为𝑛的简单随机样本,对于预先给定的
一个充分小的正数𝛼(0 < 𝛼 < 1),我们构造两个统
计量𝜃1 和𝜃2 ,其中:𝜃1 = 𝜃1 (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ),𝜃2 =
𝜃2 (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) ,使得 𝑃 𝜃1 < 𝜃 < 𝜃2 = 1 − 𝛼 ,
则称区间 𝜃1 , 𝜃2 为总体参数𝜃的区间估计或置信区
间。(1 − 𝛼)称为置信区间的置信度,也称置信概
率、置信系数或置信水平,𝜃1 称为置信下限,𝜃2 称
为置信上限。
区间估计的图示
𝝁 − 𝟐. 𝟓𝟖𝝈𝒙
𝝁 − 𝟏. 𝟔𝟓𝝈𝒙
𝝁 − 𝟏. 𝟗𝟔𝝈𝒙

𝝁 + 𝟏. 𝟔𝟓𝝈𝒙
90%的样本
95% 的样本
99% 的样本
𝝁 + 𝟐. 𝟓𝟖𝝈𝒙
𝝁 + 𝟏. 𝟗𝟔𝝈𝒙
置信水平
 将构造置信区间的步骤重复很多次,置信区间包含
总体参数真值的次数所占的比率即为置信水平,表
示为(1 − 𝛼) 。
– 抽取100个样本,根据每个样本构造一个置信区间,
那么,由100个样本构造的总体参数的100个置信区
间中,有95%的区间包含了总体参数的真值,而5%
则没有包含,则95%被称为置信水平。
 𝛼(0 < 𝛼 < 1)是总体参数未落在区间内的比率。
 常用的置信水平值有99%,95%,90%。相应𝛼的
为0.01,0.05,0.10。
举例说明置信水平
 假设我们要在很短的时间内了解某个企业的职工工
资水平,由于时间局限,只能在300名职工中选出
10名,通过这10名职工的平均工资水平来估计全厂
职工的工资水平。假设抽样误差不超过20元,如果
这10名职工的平均工资为680元,则全场职工的平
均工资水平应为(660,700)。
 但问题在于,如果我们在选样时备选单位工资分布
较均匀,那么这种代表性当然就很强,出现误差数
肯定在20元以内,但如果在选样时,被选单位工资
过高或过低,那么算出来的工资与实际水平的误差
就可能不止20元了,因为随机抽样,误差水平不同,
所以无法使得误差水平一定在预先设定的范围内,
而只能说在这个范围内的一种可能程度或概率,比
如说有90%的可能会使误差在预先设定的范围内。
– 由此可见,置信水平应是一个以百分比表示的概率
数,记作𝑝。
思考题
 置信水平(1 − 𝛼)表达了置信区间的( )
A.准确性 B.精确性 C.显著性 D.可靠性
 指出下面的说法哪一个是正确的( )
A.置信水平越大,估计的可靠性越大
B.置信水平越大,估计的可靠性越小
C.置信水平越小,估计的可靠性越大
D.置信水平的大小与估计的可靠性无关
解答:
D
A
置信区间(confidence interval)
 含义:
– 在区间估计中,由样本统计量所构造的总体参数的
估计区间称为置信区间。
– 置信区间是一个随机区间,因样本的不同而不同,
且不是所有的区间都包含总体参数的真值。
置信区间与置信水平
 统计学家在某种程度上确信这个估计区间会包含真正
的总体参数,所以给它取名为置信区间。
– 如果用某种方法构造的所有区间中有95%的区间包含总
体参数的真值,5%的区间不包含总体参数的真值,那么,
用该方法构造的区间称为置信水平为95%的置信区间。
– 但在实际问题中,人们进行估计时往往只抽取一个样本,
所构造的是与该样本相联系的95%的置信区间。由于用
这个具体的样本所构造的区间是一个特定的区间,我们
无法知道这个样本所产生的区间是否包含总体参数的真
值。
– 我们只能希望这个区间是大量包含总体参数真值的区间
中的一个,但它也可能是少数几个不包含参数真值的区
间中的一个。
思考题
 根据一个具体的样本求出的总体均值的95%的置信
区间( )
A.以95%的概率包含总体均值
B.有5%的可能性包含总体均值
C.一定包含总体均值
D.要么包含总体均值,要么不包含总体均值
解答
D
思考题
 某企业根据对顾客随机抽样的样本信息推断:对本
企业产品表示满意的顾客比例的95%的置信水平的
置信区间是(56%,64%)。试判断下列说法正确与
否。
① 总体比例95%的置信水平的置信区间是(56%,64%)
② 总体真实比例有95%的可能落在(56%,64%)中。
③ 区间(56%,64%)有95%的概率包含了总体真实比
例
④ 在100次抽样得到的100个置信区间中,约有95个
包含了总体真实比例
解答:
 ①正确。
 ②③不正确。因为总体比例和所求区间都是确定的,
不存在随机性,不涉及概率。
 ④正确,这是对置信区间的正确理解。
思考题
 95%的置信水平是指( )
A.总体参数落在一个特定的样本所构造的区间内的概
率是95%
B.在用同样方法构造的总体参数的多个区间中,包含
总体参数的区间比例为95%
C.总体参数落在一个特定的样本所构造的区间内的概
率是5%
D.在用同样方法构造的总体参数的多个区间中,包含
总体参数的区间比例为5%
解答
B
思考题
 一个95%的置信区间是指( )
– A.总体参数有95%的概率落在这一区间内
– B.总体参数有5%的概率未落在这一区间内
– C.在用同样方法构造的总体参数的多个区间中,有
95%的区间包含该总体参数
– D.在用同样方法构造的总体参数的多个区间中,有
95%的区间不包含该总体参数
解答
C
影响置信区间宽度的因素
1. 总体数据的离散程度,用𝜎来测度
𝜎
𝜎𝑥 =
𝑛
2. 样本容量𝑛和置信水平 1 − 𝛼
– 当样本容量一定时,置信区间的宽度随着置信水平
的增大而增大;
– 当置信水平固定时,置信区间的宽度随着样本量的
增大而减小。
思考题
 设总体𝑋~𝑁(𝜇, 𝜎 2 ),𝜎 2 未知,设总体均值𝜇的置信
度1 − 𝛼的置信区间宽度𝑙,那么𝑙与𝛼的关系为()
A、𝛼增大,𝑙减小
B、𝛼增大,𝑙增大
C、𝛼增大,𝑙不变
D、𝛼与𝑙关系不确定
 在其他条件相同的条件下,95%的置信区间比90%
的置信区间( )
A.要宽 B.要窄
C.相同
D.可能宽也可能窄
解答
A
A
思考题
 当置信水平一定时,置信区间的宽度( )
A.随着样本量的增大而减小
B.随着样本量的增大而增大
C.与样本量的大小无关
D.与样本量的平方根成正比
解答
A
思考题
 设总体𝑋~𝑁(𝜇, 𝜎 2 ) ,且𝜎 2 已知,现在以置信度1 −
𝛼估计总体均值𝜇,下列做法中一定能使估计更精
确的是( )
A、提高置信度1 − 𝛼,增加样本容量
B、提高置信度1 − 𝛼,减少样本容量
C、降低置信度1 − 𝛼,增加样本容量
D、降低置信度1 − 𝛼,减少样本容量
解答
C
返回4.1目录
三、评价估计量的标准
 无偏性
 有效性
 一致性
无偏性(Unbiasedness)
 估计量抽样分布的数学期望等于被估计的总体参数,
即𝐸 𝜃 = 𝜃,称𝜃为𝜃的无偏估计量。
ˆ)
P(
无偏
A
有偏
B

ˆ

有效性
 对同一总体参数的两个无偏点估计量,有更小标准
差的估计量更有效。
– 当𝐷 𝜃1 < 𝐷 𝜃2 时,称估计量𝜃1 比𝜃2 有效
ˆ)
P(
ˆ1
的抽样分布
B
𝜃1 的观察值在真值𝜃
的附近较𝜃2 更密集
ˆ2 的抽样分布
A

ˆ

一致性(consistency)
 随着样本容量的增大,估计量的值越来越接近被估
计的总体参数。
ˆ)
P(
较大的样本容量
B
较小的样本容量
A

ˆ

思考题
 在参数估计中,要求通过样本的统计量来估计总体
参数,评价统计量的标准之一是使它与总体参数的
离差越小越好。这种评价标准称为( )
A.无偏性
B.有效性
C.一致性
D.充分性
解答
B
返回4.1目录
4.2教学目标
 重点掌握一个总体下总体均值、总体比率的区间估
计
 掌握一个总体下总体方差的区间估计
一个总体参数的区间估计
总体参数
表示符号
样本统计量
均值
𝜇
𝑥
比率
𝜋
𝑝
方差
𝜎2
𝑠2
总结:一个总体样本统计量的抽样分布
样本统计量
样本均值𝑥
样本比率𝑝
样本方差𝑠 2
正态总体或
非正态总体
大样本,正
态总体小样
本且𝝈𝟐 已知
正态总体
小样本,
且总体方
差𝝈𝟐 未知
大样本
正态总体
正态分布
𝑡分布
正态分布
χ2 分布
4.2 一个总体参数的区间估计
总体均值的估计
总体比率的估计
总体方差的估计
至:4.3
一、总体均值的区间估计
 在对总体均值进行区间估计时,需要考虑总体是否
为正态分布、总体方差是否已知、用于构造估计量
的样本是大样本还是小样本等情况。
1. 大样本的估计方法
2. 小样本的估计方法
1.大样本的估计方法
 假定条件
– 总体服从正态分布或总体非正态分布,大样本
(𝑛 ≥ 30)
 使用正态分布统计量𝑧:
𝑥−𝜇
𝑧=
~𝑁(0,1)
𝜎 𝑛
 总体均值𝜇的(1 − 𝛼)置信水平的置信区间为:
𝑥 ± 𝑧𝛼
2
𝑥 ± 𝑧𝛼
2
𝜎
(𝜎已知)
𝑛
𝑠
(𝜎未知)
𝑛
–𝑥
𝜎
− 𝑧𝛼 2 称为置信下限,
𝑛
𝑥
𝜎
+ 𝑧𝛼 2 称为置信上
𝑛
限;
– 𝛼是事先确定的一个概率值,也称为风险值,它是
总体均值不包括在置信区间内的概率;
– (1 − 𝛼)称为置信水平;
– 𝑧𝛼 2 是标准正态分布上侧面积为𝛼 2时的𝑧值;
– 𝑧𝛼
𝜎
2 𝑛是估计总体均值时的允许误差,也称为估计
误差或误差范围。
 也就是说,总体均值的置信区间由两部分组成:
① 点估计值;
② 描述估计值精度的“±值”,这个“±值”称为允
许误差。
总体均值的区间估计:例题分析1
 由36名高年级学生组成一个随机样本,要求他们分
别记下每周观看电视的时间,根据以往的调查,它
服从标准差为6的正态分布,从记录结果算出样本
平均数为15个小时,试求总体平均数99%的置信区
间。
 总体正态分布,大样本,𝜎已知,用𝑧统计量
 例题1解答过程:
– 𝑛 = 36 , 1 − 𝛼 = 99% , 𝑧𝛼
2
= 2.58 。由题意可知:
𝑥 = 15,𝜎 = 6
– 总体均值𝜇的1 − 𝛼 = 99%置信水平的置信区间为:
𝜎
6
𝑥 ± 𝑧𝛼 2
= 15 ± 2.58 ×
= 15 ± 2.58
𝑛
36
= 12.42,17.58
– 高年级学生每周观看电视的平均时间的99%的置信
水平的置信区间为12.42~17.58小时。
总体均值的区间估计:例题分析2
 一家保险公司收集到由36个投保人组成的随机样
本,得到每个投保人的年龄(周岁)数据如下表。
试建立投保人年龄90%的置信区间。
36个投保人的年龄
23
35
39
27
36
44
36
42
46
43
31
33
42
53
45
54
47
24
34
28
39
36
44
40
39
49
38
34
48
50
34
39
45
48
45
32
 总体分布未知,大样本,𝜎未知,用𝑧统计量
 例题2解答过程:
– 已知𝑛 = 36,1 − 𝛼 = 90% ,𝑧𝛼
本数据计算得:
𝑥 = 39.5,𝑠 = 7.77
2
= 1.645。根据样
– 总体均值𝜇在1 − 𝛼 = 90%置信水平下的置信区间为:
𝑠
7.77
𝑥 ± 𝑧𝛼 2
= 39.5 ± 1.645 ×
= 39.5 ± 2.13
𝑛
36
= 37.37,41.63
– 投保人平均年龄的90%的置信水平的置信区间为
37.37~41.63岁。
2.小样本的估计方法
 假定条件
– 总体服从正态分布,且是小样本 𝑛 < 30
 两种情况
1. 若𝜎 2 已知,使用正态分布统计量𝑧:
𝑥−𝜇
𝑧=
~𝑁(0,1)
𝜎 𝑛
2. 若𝜎 2 未知,用样本方差𝑠 2 代替𝜎 2 ,使用统计量𝑡:
𝑥−𝜇
𝑡=
~𝑡(𝑛 − 1)
𝑠 𝑛
 此时,总体均值𝜇的(1 − 𝛼)置信水平的置信区间分
别是:
1. 若𝜎 2 已知
𝑥 ± 𝑧𝛼
2
𝜎
𝑛
2
𝑠
𝑛
2. 若𝜎 2 未知
𝑥 ± 𝑡𝛼
𝑡分布
 𝑡分布是类似正态分布的一种对称分布,它通常要
比正态分布平坦和分散。一个特定的𝑡分布依赖于
称之为自由度的参数。随着自由度的增大,𝑡分布
也逐渐趋于正态分布。
标准正态分布
标准正态分布
t (df = 13)
t 分布
t 分布与标准正态分布的比较
t (df = 5)
x
不同自由度的t分布
x
总体均值的区间估计:例题分析1
 一家食品生产企业为对产量质量进行监测,企业质
检部门经常要进行抽检,以分析每袋重量是否符合
要求。现从某天生产的一批食品中随机抽取了25
袋,测得每袋重量如下表所示。已知产品重量的分
布服从正态分布,且总体标准差为10𝑔。试估计该
批产品平均重量的置信区间,置信水平为95%。
25袋食品的重量
112.5
101.0
103.0
102.0
100.5
102.6
107.5
95.0
108.8
115.6
100.0
123.5
102.0
101.6
102.2
116.6
95.4
97.8
108.6
105.0
136.8
102.8
101.5
98.4
93.3
 总体正态分布,小样本,𝜎已知,用𝑧统计量
 例题1解答过程:
– 𝑋~𝑁(𝜇,102 ),𝑛 = 25,1 − 𝛼 = 95% ,𝑧𝛼
1.96。根据样本数据计算得:
2
=
𝑥 = 105.36
– 总体均值𝜇的1 − 𝛼 = 95%置信水平的置信区间为:
𝜎
10
𝑥 ± 𝑧𝛼 2
= 105.36 ± 1.96 ×
= 105.36 ± 3.93
𝑛
25
= 101.44,109.28
– 该食品平均重量的95%的置信水平的置信区间为
101.44𝑔~109.28𝑔。
总体均值的区间估计:例题分析2
 已知某种灯泡的寿命服从正态分布,现从一批灯泡
中随机抽取 16 只,测得其使用寿命(小时)如下表。
建立该批灯泡平均使用寿命95%的置信区间。
16只灯泡的使用寿命
1510
1520
1480
1500
1450
1480
1510
1520
1480
1490
1530
1510
1460
1460
1470
1470
1510
1520
1480
1500
 总体正态分布,小样本,𝜎未知,用𝑡统计量
 例题2解答过程:
– 已知𝑋~𝑁(𝜇,𝜎 2 ),𝑛 = 16,1 − 𝛼 = 95% ,𝑡𝛼
2.131。根据样本数据计算得:
𝑥 = 1490,𝑠 =
𝑛
𝑖=1
𝑥𝑖 − 𝑥
𝑛−1
2
2
=
= 24.77
– 总体均值𝜇在1 − 𝛼 = 95%置信水平下的置信区间为:
𝑥 ± 𝑡𝛼
2
𝑠
24.77
= 1490 ± 2.131 ×
= 1490 ± 13.2
𝑛
16
– 灯泡平均使用寿命的95%的置信水平的置信区间为
1476.8~1503.2小时
思考题
 有50个调查者分别对同一个正态总体进行抽样,样
本容量都是100,总体方差未知。他们分别根据各
自的样本数据得到总体均值的一个置信度90%的置
信区间。试问:
① 这些置信区间中应该大约有__ _个区间会覆盖总
体均值。
② 这些置信区间的中心相同吗?给出回答,并说明
理由。
③ 这些置信区间的宽度完全相同吗?给出回答,并
说明理由。
解答:
① 45个
② 这些置信区间的中心不完全相同,因为置信区间
是以样本估计值为中心的,不同的抽样会有不同
的样本均值。
③ 不完全相等。因为总体的标准差未知,允许误差
根据样本标准差来计算的,而各个样本的标准差
有可能不等。
思考题
 根据以往的经验,某乡农户的年收入分布曲线是一
个严重偏斜的非对称曲线。现随机抽取25户进行调
查,他们的户均年收入为13200元。为了估计该乡
农户的户均年收入,能否利用已有的知识根据上述
数据求得一个置信度为95%的置信区间?若能,该
怎么构造置信区间?若不能,请说明理由。
解答:
 不能。对于分布形态未知或严重偏斜的总体,不能
根据正态分布来构造总体均值的置信区间,除非样
本量非常大。但本例中的样本是个小样本。
返回4.2目录
二、总体比率的区间估计
 样本比率的抽样分布
– 在重复选取容量为𝑛的样本时,由样本比率𝑝的所有
可能取值所形成的相对频数分布。
– 当样本量很大时,样本比率𝑝的抽样分布可用正态
分布近似(𝑛𝑝 ≥ 5和𝑛(1 − 𝑝) ≥ 5)。
 样本比率𝑝的数学期望和方差:
– 数学期望
𝐸 𝑝 =𝜋
– 方差
𝜎𝑝
2
𝜋 1−𝜋
=
𝑛
总体比率的区间估计
 假定条件
– 大样本 𝑛𝑝 ≥ 5且𝑛(1 − 𝑝) ≥ 5
这种情况下,样本比率𝑝的抽样分布可用正态分布近
似
 使用正态分布统计量𝑧:𝑧 =
𝑝−𝜋
𝜋 1−𝜋
𝑛
~𝑁(0,1)
 总体比率𝜋在(1 − 𝛼)置信水平下的置信区间为:
𝑝 ± 𝑧𝛼
2
𝑝 1−𝑝
𝑛
总体比率的区间估计:例题分析1
 某城市想要估计下岗职工中女性所占的比率,随机
地抽取了100名下岗职工,其中65人为女性职工。
试以95%的置信水平估计该城市下岗职工中女性比
率的置信区间。
 例题1解答过程:
– 𝑛 = 100,1 − 𝛼 = 95% ,𝑧𝛼
算得:𝑝 =
65
100
2
= 1.96。由样本数据计
= 65%
– 总体比率𝑝的95%的置信水平的置信区间为:
𝑝 ± 𝑧𝛼
2
𝑝 1−𝑝
65% × 1 − 65%
= 65% ± 1.96 ×
𝑛
100
= 65% ± 9.35%
– 下岗职工中女性比率的95%的置信水平的置信区间为
55.65%~74.35%。
例题分析2
 对某型号的电子元件进行耐用性
能检查,抽查(简单随机抽样)
的资料分组如下:
 要求:
1. 若耐用时数的允许误差𝐸 = 10.5
耐用时数
元件数
900以下
1
900-1000
8
1000-1100
78
1100-1200
12
1200以上
1
小时,试估计该批电子元件的
平均耐用时数的范围。
2. 若耐用时数达到1000小时以上
为合格品,要求合格率估计的
误差范围不超过5%,试估计该
批电子元件的合格率的置信区
间。
 例题2解答过程:
1. 由样本数据计算得:
𝑥
850 × 1 + 950 × 8 + 1050 × 78 + 1150 × 12 + 1250 × 1
=
1 + 8 + 78 + 12 + 1
105400
=
= 1054
100
– 耐用时数的总体均值的置信区间为:
𝑥 ± 𝐸 = 1054 ± 10.5
– 所以,该批电子元件的平均耐用时数的范围是
1043.5~1064.5小时。
2. 由样本数据计算得:
78 + 12 + 1
91
𝑝=
× 100% =
× 100%
1 + 8 + 78 + 12 + 1
100
= 91%
– 耐用时数达到合格的总体比率的置信区间为:
𝑝 ± 𝐸 = 91% ± 5%
– 该批电子元件的合格率的置信区间86%~96%。
返回4.2目录
三、总体方差的区间估计
 样本方差的抽样分布
– 在重复选取容量为𝑛的样本时,由样本方差的所有
可能取值形成的相对频数分布。
–
(𝑛−1)𝑠2
对于来自正态总体的简单随机样本, 2 的抽样
𝜎
分布服从自由度为(𝑛 − 1)的χ2 分布,即
2
(𝑛
−
1)𝑠
2
χ2 =
~χ
(𝑛 − 1)
2
𝜎
总体方差的区间估计
 总体服从正态分布,则样本方差服从自由度为(𝑛 −
1)的χ2 分布
 用χ2 分布构造总体方差的置信区间
 总体方差𝜎 2 在(1 − 𝛼)置信水平下的置信区间为
2
(𝑛 − 1)𝑠 2
(𝑛
−
1)𝑠
2<
<
𝜎
χ2 𝛼 2 (𝑛 − 1)
χ2 1−𝛼 2 (𝑛 − 1)
总体方差的区间估计(图示)
总体方差
1- 的置信区间

2
1- 2

2
自由度为n-1的2分布
 2
2
总体方差的区间估计:例题解析1
 一家食品生产企业以生产袋装食品为主,现从某天
生产的一批食品中随机抽取了25袋,测得每袋重
量如下表所示。已知产品重量的分布服从正态分布。
以95%的置信水平建立该种食品重量方差的置信区
间。
25袋食品的重量
112.5
101.0
103.0
102.0
100.5
102.6
107.5
95.0
108.8
115.6
100.0
123.5
102.0
101.6
102.2
116.6
95.4
97.8
108.6
105.0
136.8
102.8
101.5
98.4
93.3
 例题解答过程:
– 已知 𝑛 = 25 , 1 − 𝛼 = 95% 。根据样本数据计算得:
𝑠 2 = 93.21
χ2 𝛼
2
χ2 1−𝛼
𝑛 − 1 = χ2 0.025 25 − 1 = 39.364
2
𝑛 − 1 = χ2 0.975 25 − 1 = 12.401
– 总体方差𝜎 2 的95%的置信水平的置信区间为:
(25 − 1) × 93.21
(25 − 1) × 93.21
2
<𝜎 <
39.364
12.401
– 该企业生产的食品总体重量标准差的95%的置信水
平的置信区间为7.54𝑔~13.43𝑔。
思考题
 当正态总体的方差未知,且为小样本条件下,估计
总体均值使用的分布是( )
A.正态分布
B.𝑡分布 C.χ2 分布 D.𝐹分布
 当正态总体的方差未知,且为大样本条件下,估计
总体均值使用的分布是( )
A.正态分布
B.𝑡分布 C.χ2 分布 D.𝐹分布
解答
B
A
返回4.2目录
4.3教学目标
 掌握估计总体均值时样本量的确定方法
 掌握估计总体比率时样本量的确定方法
4.3 样本量的确定
 样本量的确定与人们愿意容忍的置信区间的宽度以
及对此区间设置的置信水平有一定的关系。
1.估计总体均值时样本容量的确定
 确定样本量时首先要确定置信水平(1 − 𝛼),以及
使用者在给定的置信水平下可以接受的允许误差 𝐸 。
𝑛=
𝑧𝛼
2
2 2
𝜎
𝐸2
 实际应用中,𝜎值未知时的处理方法:
1. 用以前相同或类似的样本的标准差来代替;
2. 用试验调查的方法,选择一个初始样本,以该样
本的样本标准差作为𝜎值的估计值。
例题解析
 拥有管理学学士学位的大学毕业生年薪的标准差大
约为 2000 元,假定想要估计年薪 95% 的置信区间,
希望允许误差为400元,应抽取多大的样本容量?
 例题解答过程:
– 已知𝜎 = 2000,𝐸 = 400,1 − 𝛼 = 95%,𝑧𝛼
1.96。
– 应抽取的样本量为:
𝑛=
𝑧𝛼
2
𝐸2
2 2
𝜎
1.962 × 20002
=
= 96.04 ≈ 97
2
400
– 即应抽取97人作为样本。
2
=
2.估计总体比率时样本量的确定
 比率区间估计中的允许误差为:
𝐸 = 𝑧𝛼
𝜋 1−𝜋
𝑛
2
 由此可以推导出重复抽样或无限总体抽样条件下确定
样本容量的公式:
𝑛=
𝑧𝛼
2
2
∙𝜋 1−𝜋
𝐸2
式中:
允许误差𝐸必须是使用者首先确定的,大多数情况下,一
般𝐸的取值小于0.10;
𝑧𝛼 2 的值可直接由区间估计中所用到的置信水平确定。
 在实际应用中,如果π的值未知,处理方法如下:
1. 用以前相同或类似的样本比率来代替;
2. 用试验调查的方法,选择一个初始样本,以该样
本的比率作为π的估计值。
3. 当π的值无法知道时,通常取使π(1 − 𝜋)最大的值
0.5。
例题解析
 根据以往的生产统计,某种产品的合格率约为90%,
现要求允许误差为5%,在求95%的置信区间时,
应抽取多少个产品作为样本?
– 例题解答过程:
已知𝜋 = 90%,𝐸 = 5%,𝛼 = 0.05,𝑧𝛼
2
= 1.96。
应抽取的样本量为:
𝑛=
𝑧𝛼
2
2
∙𝜋 1−𝜋
1.962 × 0.9 × 1 − 0.9
=
= 138.3
𝐸2
0.052
≈ 139
 即应抽取139个产品作为样本。
思考题
 一项调查表明,有33%的被调查者认为她们所在的
公司十分适合女性工作。假定总体比例为33%,取
允许误差分别为10%,5%,2%,1%,在建立总体比
例95%的置信区间时,随着允许误差的减少,样本
量会( )
A.减少 B.增大 C.可能减少也可能增大 D.不变
解答
B
本章小结
1. 参数估计的基本原理
2. 一个总体参数的区间估计
3. 样本容量的确定
作业题1
 设2012年末某储蓄所对某类储
蓄存款户账号随机抽取100户
的资料如右表,要求:
1. 根据上述材料,应用点估计
方法估计这类储蓄账户的平
均余额,并计算抽样平均误
差;
2. 试以95%的概率,估计该储蓄
所存款户平均每户的存款余
额的置信区间。
存款余额
(千元)
户数
(户)
1-100
12
100-300
30
300-500
40
500-800
15
800以上
3
作业题2
 某居民小区共有居民500户,小区管理者准备采取
一项新的供水设施,想了解居民是否赞成。采取重
复抽样方法随机抽取了50户,其中有32户赞成,18
户反对。要求:
1. 求该小区居民中赞成该项改革的户数比率的置信
区间,置信水平为95%。
2. 如果小区管理者预计赞成的比率能达到80%,要求
估计误差不超过10%,应抽取多少户进行调查?
作业1答案
1. 平均余额为:
𝑥
50.5 × 12 + 200 × 30 + 400 × 40 + 650 × 15 + 950 × 3
=
100
=
35206
100
= 352.06(千元)(30分)
抽样平均误差即样本标准差:
𝑠
=
(50.5 − 352.06)2 × 12 + (200 − 352.06)2 × 30 + (400 − 352.06)2 × 40 + (650 − 352.06)2 × 15 + (950 − 352.06)2 × 3
100 − 1
≈ 207.95(千元)(过程25分,结果5分)
 总体分布未知,大样本,𝜎未知,用𝑧统计量
 解答过程:
– 已知𝑛 = 100,1 − 𝛼 = 95% ,𝑧𝛼
2
= 1.96,𝑥 =
352.06,𝑠 = 207.95
– 总体均值𝜇的95%的置信水平的置信区间为:
𝑥 ± 𝑧𝛼
𝑠
2 𝑛
= 352.06 ± 1.96 ×
40.7582(公式30分,𝑧𝛼
2
207.95
100
= 352.06 ±
= 1.96 5分,结果5分)
– 该储蓄所存款户平均每户的存款余额的95%的置信
水平的置信区间311.3018~392.8182千元。
作业2答案
1. 由题已知:𝑛 = 50,𝑝 =
32
50
= 0.64
𝛼 = 0.05,查标准正态分布表得𝑧𝛼
2
= 1.96
95%的置信水平的置信区间为:
𝑝 ± 𝑧𝛼
2
𝑝 1−𝑝
64% × 1 − 64%
= 64% ± 1.96 ×
𝑛
50
≈ 64% ± 13% = 51%,77% 。
2. 由题可知:𝜋 = 80%,𝐸 = 10%,𝛼 = 0.05,
查标准正态分布表得𝑧𝛼
2
= 1.96
2
2
∙
𝜋
1
−
𝜋
1.96
× 80% × 1 − 80%
2
𝑛=
=
2
𝐸
10%2
= 61.47 ≈ 62
𝑧𝛼
– 结论:如果小区管理者预计赞成的比率能达到80%,
应抽取62户进行调查。