统计学第七章抽样与参数估计

Download Report

Transcript 统计学第七章抽样与参数估计

第七章
抽样与参数估计
参数估计在统计方法中的地位
• 统计方法
描述统计
推断统计
参数估计
假设检验
统计推断的过程
总体
样
本
样本统计量
例如:样本均
值、比例、方
差
第七章 抽样与参数估计
第一节 抽样与抽样分布
第二节 参数估计基本方法
第三节 总体均值和总体比例的区间估计
学习目标
1.
2.
3.
4.
了解抽样和抽样分布的基本概念
理解抽样分布与总体分布的关系
了解点估计的概念和估计量的优良标准
掌握总体均值、总体比例和总体方差的区
间估计
第一节 抽样与抽样分布
一. 总体、个体和样本
二. 关于抽样方法
样本均值的分布与中心极限定理
样本方差的分布
两个样本方差比的分布
T 统计量的分布
总体、个体和样本
(概念要点)
总体(Population):调查研究的事物或现象的全体
个体(Item unit):组成总体的每个元素
样本(Sample):从总体中所抽取的部分个体
样本容量(Sample size):样本中所含个体的数量
抽样方法
(概念要点)
1.
概率抽样:根据已知的概率选取样本
 简单随机抽样:完全随机地抽选样本
 分层抽样:总体分成不同的“层”,然后在每一层内进行抽样
 整群抽样:将一组被调查者(群)作为一个抽样单位
 等距抽样:在样本框中每隔一定距离抽选一个被调查者
 非概率抽样:不是完全按随机原则选取样本
 非随机抽样:由调查人员自由选取被调查者
 判断抽样:通过某些条件过滤来选择被调查者
 配额抽样:选择一群特定数目、满足特定条件的被调查者
样本均值的抽样分布
抽样分布
(概念要点)
1. 所有样本指标(如均值、比例、方差等)
所形成的分布称为抽样分布
2. 是一种理论概率分布
3. 随机变量是 样本统计量
– 样本均值, 样本比例等
4. 结果来自容量相同的所有可能样本
样本均值的抽样分布
(一个例子)12
【例】设一个总体,含有4个元素(个体),即总体单位
数N=4。4 个个体分别为X1=1、X2=2、X3=3 、X4=4 。
总体的均值、方差及分布如下
总体分布
N

 Xi
i 1
N
 2.5
.3
.2
N
2 
2
(
X


)
 i
i 1
N
 1.25
.1
0
1
2
3
4
样本均值的抽样分布
(一个例子)
 现从总体中抽取n=2的简单随机样本,在重复
抽样条件下,共有42=16个样本。
所有样本的结果如下表
•所有可能的n = 2 的样本(共16个)
•第二个观察值
•第一个
•观察值
•1
•2
•3
•4
•1
•1,1
•1,2
•1,3
•1,4
•2
•2,1
•2,2
•2,3
•2,4
•3
•3,1
•3,2
•3,3
•3,4
•4
•4,1
•4,2
•4,3
•4,4
样本均值的抽样分布
(一个例子)
 计算出各样本的均值,如下表。并给出样本均
值的抽样分布
•16个样本的均值(x)
.3
P(x)
•第二个观察值
•第一个
•观察值
•1
•2
•3
•4
•1
•1.0
•1.5
•2.0
•2.5
•2
•1.5
•2.0
•2.5
•3.0
•3
•2.0
•2.5
•3.0
•3.5
•4
•2.5
•3.0
•3.5
•4.0
.2
.1
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布
x
样本均值的抽样分布与中心极限定理
当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所
有容量为n的样本的均值X也服从正态分布,X 的
数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
E (x )  
x

 x2   2 n
 =10
 = 50
总体分布
X
n
~ N (0,1)
n=4
x 5
n =16
 x  2.5
 x  50
抽样分布
X
中心极限定理(图示)
中心极限定理:设从均值为,方差为 2 的一个任意总
体中抽取容量为 n 的样本,当 n 充分大时,样本均值的抽
样分布近似服从均值为μ、方差为σ2/n的正态分布
x 
一个任意分
布的总体

n
当样本容量足够
大时(n  30) ,
样本均值的抽样
分布逐渐趋于正
态分布
x  
X
所有样本均值的均值和方差
n
x 
x
i 1
M
i

1 .0  1 .5    4 .0
 2. 5  
16
n
 x2 
2
(
x


)
 i x
i 1
M
(1.0  2.5) 2    (4.0  2.5) 2
σ2

 0.625 
16
n
式中:M为样本数目
比较及结论:1. 样本均值的均值(数学期望)等于总体均值
2. 样本均值的方差等于总体方差的1/n
样本均值的分布与总体分布的比较
总体分布
抽样分布
.3
.3
P(x)
.2
.2
.1
.1
0
0
1
2
3
 = 2.5
σ2 =1.25
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
 x  2.5
 x2  0.625
比较及结论:1. 样本均值的均值(数学期望)等于总体均值
2. 样本均值的方差等于总体方差的1/n
样本方差的抽样分布
样本方差的分布
设总体服从正态分布N ~ (μ,σ2 ), X1,X2,…
,X n 为来自该正态总体的样本,则样本方差
s2 的分布为
(n  1) s
2
~  (n  1)
2

2
将2(n – 1)称为自由度为(n-1)的卡方分布
卡方 (2) 分布
选择容量为n 的
总体
简单随机样本


不同容量样本的抽样分布
计算样本方差S2
n=1
n=4
n=10
计算卡方值
n=20
2 = (n-1)S2/σ2
计算出所有的
 2值
2
均值的标准误
1. 所有可能的样本均值的标准差,测度所
有样本均值的离散程度
2. 小于总体标准差
3. 计算公式为

x 
n
第二节 参数估计基本方法
一. 点估计
二. 点估计的优良性准则
三. 区间估计
参数估计的方法
估 计 方 法
点
估
计
区间估计
被估计的总体参数
总体参数
一个总体
符号表示
均值

比例
P
方差

2
用于估计的
样本统计量
x
pˆ
s
2
点估计
点估计
(概念要点)
1. 从总体中抽取一个样本,根据该样本
的统计量对总体的未知参数作出一个
数值点的估计
 例如 : 用样本均值作为总体未知均值的
估计值就是一个点估计
2. 点估计没有给出估计值接近总体未知
参数程度的信息
估计量11
(概念要点)
•
1.用于估计总体某一参数的随机变量
– 如样本均值,样本比例、样本中位数等
– 例如: 样本均值就是总体均值的一个估计量
– 如果样本均值 x = 3 ,则 3 就是  的估计值
•
理论基础是抽样分布
估计量的优良性准则
(无偏性)
• 无偏性:估计量的数学期望等于被估计的
总体参数
P( X )
无偏
A
有偏
C

X
估计量的优良性准则
(有效性)
有效性:一个方差较小的无偏估计量称为一个更
有效的估计量。如,与其他估计量相比
,样本均值是一个更有效的估计量
P(X )
均值的抽样分布
B
中位数的抽样分布
A

X
估计量的优良性准则
(一致性)
• 一致性:随着样本容量的增大,估计量越
来越接近被估计的总体参数
较大的样本容量
P(X )
B
较小的样本容量
A

X
区间估计
区间估计
(概念要点)
1. 根据一个样本的观察值给出总体参数的估计范围
2. 给出总体参数落在这一区间的概率
3. 例如: 总体均值落在50~70之间,置信度为 95%
置信区间
置信下限
样本统计量
(点估计)
置信上限
置信区间估计
(内容)
置信区间
均 值
2 已知
比例
2 未知
方差
置信水平
1. 定义:如果将构造置信区间的步骤重复多次,
置信区间中包含总体参数真值的次数所占的比
率,称为置信水平。
2. 表示为 (1 - 

 为显著性水平,是总体参数未在区间内的概率
3. 常用的置信水平有 99%, 95%, 90%

相应的  为0.01,0.05,0.10
• 由于统计学家在某种程度上确信这个区间
会包含真正的总体参数,所以给它取名为
置信区间。
• 原因是:如果我们抽取了许多不同的样本,
比如说抽取100个样本,根据每一个样本构
造一个置信区间,这样,由于100个样本构
造的总体参数的100个置信区间中,有95%
的区间包含了总体参数的真值,而5%则没
有包含,则95%被称为置信水平。
落在总体均值某一区间内的样本
x_
X =   Zx
 - 2.58x
 -1.65 x

 +1.65x
 -1.96 x
 + 2.58x
 +1.96x
90%的样本
95% 的样本
99% 的样本
X
区间与置信水平
均值的抽样分布
/2
x
1-
/2
x  
(1 - ) % 区间包含了
 % 的区间未包含
X
影响区间宽度的因素
1. 数据的离散程度,用  来测度

2. 样本均值标准差  x 
n
3. 置信水平 (1 - ),影响 Z 的大小
第三节 总体均值的区间估计
一、总体均值的区间估计
二、 样本容量的确定
• 在对总体均值进行区间估计时,需要考虑
总体是否为正态分布、总体方差是否已知
、用于构造估计量的样本是大样本还是小
样本
总体均值的区间估计
2
( 已知)
总体均值的置信区间
(2 已知)
1. 假定条件
–
–
总体服从正态分布,且总体方差(2)已知
如果不是正态分布,但是大样本(n  30)时,可以由
正态分布来近似
2. 使用标准正态分布统计量Z
Z 
x

n
~ N (0,1)
3. 总体均值  在1-置信水平下的置信区间为

 

, x  Z 2
 x  Z 2

n
n

• 是预先确定的一个概率值,也被称为风险
值,它是总体均值不包括在置信区间的概
率;
• Z/2是标准正态分布上侧面积为/2时的Z值。

Z
•
n 是估计总体均值时的边际误差,也称
为估计误差。
• 总体均值的置信区间由两部分组成:点估
计值和描述估计量精度
 2
总体均值的区间估计
(正态总体:实例)
【 例 】 某种零件 解:已知X~N(,0.152),x=2.14, n=9,
长度服从正态分
1- = 0.95,Z/2=1.96
布,从该批产品
总体均值的置信区间为
中随机抽取9件


 
 x  Z  2
, x  Z 2

,测得其平均长
n
n

度为21.4 mm。

0.15
0.15 
已知总体标准差
  21.4  1.96
,21.4  1.96

 =0.15mm,试
9
9 

建立该种零件平
 21.302,21.498
均长度的置信区
我们可以 9 5 %的概率保证该种零件的平
间,给定置信水
均长度在21.302~21.498 mm之间
平为0.95。
总体均值的区间估计
(非正态总体:实例)
解:已知 x=26, =6,n=100, 1- =
【 例 】 某大学从该
0.95,Z/2=1.96
校学生中随机抽取


 
1 0 0 人,调查到他
 x  Z  2
, x  Z 2

们平均每天参加体
n
n

育锻炼的时间为 2 6

6
6 
分钟。试以 9 5 %的
  26  1.96
,26  1.96

100
100 

置信水平估计该大
 24.824,27.176
学全体学生平均每
天参加体育锻炼的
我们可以 9 5 %的概率保证平均每天
时间(已知总体方
参加锻炼的时间在24.824~27.176
差为36小时)。
分钟之间
总体均值的区间估计
2
( 未知)
总体均值的置信区间
(2 未知)
1. 假定条件
– 总体方差(2)未知
– 总体必须服从正态分布
2. 使用 t 分布统计量
t
x
s n1
n
~ t (n  1)
3. 总体均值  在1-置信水平下的置信区间为
sn1
sn1 

, x  t 2
 x  t 2

n
n

T 统计量的分布
设X1,X2,…,Xn1是来自正态总体N~(μ1,σ12 )的一个
( X  )
样本, 称 T 
为统计量,它服从自由度为(n-1)的t分布
S n
t 分布是类似于正态分布的一种对称分布,要比正态分布平
坦和分散
标准正态分布
t 分布
t (df = 13)
正态分布
t (df = 5)
Z
X
t 分布与正态分布的比较
不同自由度的t分布
t
• t/2是自由度为n-1时,t分布中右侧面积为
/2时的t值。
• 如果P(t>=x)=,则对于任意给定的概
率p(0<=<=1),可以求出相应的x。
总体均值的区间估计
(实例)
【例】从一个
正态总体中抽
取一个随机样
本,n = 25 ,
其均值  x =
5 0 ,标准差
s = 8。 建立
总体均值 的
95%的置信区
间。
解:已知X~N(,2),x=50, s=8,
n=25, 1- = 0.95,t/2=2.0639。
s n 1
s n 1 

 x  t 2
, x  t 2

n
n


8
8 
  50  2.0639
,50  2.0639

25
25 

 46.69,53.3
我们可以 9 5 %的概率保证总体均值
在46.69~53.30 之间
样本容量的确定12
估计总体均值时样本容量的确定
1. 根据均值区间估计公式可得样本容量n为
n
Z 2 2 2

2
其中:   Z  2

n
2. 样本容量n与总体方差2、允许误差、可
靠性系数Z之间的关系为



与总体方差成正比
与允许误差成反比
与可靠性系数成正比
样本容量的确定11
(实例)
【 例 】 一家广告公 解 : 已知 2 = 1 8 0 0 0 0 0 , = 0 . 0 5 ,
想估计某类商店去
Z/2=1.96,=500
年所花的平均广告
应抽取的样本容量为
费用有多少。经验
表明,总体方差约
2
2
Z

为1800000 元。如
 2
n
2
置信度取 9 5 % ,并

要使估计处在总体
2
(
1
.
96
)
(1800000)
平均值附近500元的

范围内,这家广告
5002
公司应抽多大的样
 27.65  28
本?