Transcript 应用统计学
应用统计学
西安交通大学经济与金融学院统计系
赵春艳
本课程的内容
第一章 绪论
第二章 统计数据的搜集、整理和 显示
第三章 统计数据的描述分析
第四章 参数估计
第五章 参数假设检验
第六章 方差分析
第七章 非参数统计方法
第八章 时间序列分析
第九章 相关与回归分析
第十章 统计指数
教材:
吴诣民 赵春艳《应用统计学》 陕西人民教育出版社,
2006年。
参考书目:
1、李心愉·应用经济统计学·北京:北京大学出版社,
2003年。
2、耿修林·商务经济统计学·北京:科学出版社,2003
年
3、[美]戴维· R ·安德森等·商务与经济统计·北京:中
信出版社,2003。
4、肖筱南·新编概率论与数理统计·北京:北京大学出
版社,2002年。
第一章 绪论
第一节 统计学的学科性质
一、统计学的学科性质
1、争论:“方法论学科” “实质性学科”
2、统计处理数据的过程:
搜集数据——整理数据——分析数据——解释
数据
二、统计学的分类
1、描述统计学和推断统计学
2、理论统计学和应用统计学
第二节 统计学的几个基本概念
一、总体和总体单位
1、总体是由具有某种共同性质的许多个体组成
的整体,构成总体的个体称为总体单位。
2、两层含义:
①统计学研究的是大量现象的数量特征,总体
包含了大量现象;
②统计单位具有某一共同性质,但其他的性质、
特征是不同的,便于在差异中寻找规律。
二、标志和指标
1、标志是说明总体单位特征和属性的名称,分
为数量标志和品质标志。
2、指标是说明总体现象数量特征的概念和数值。
按其反映数量特点的不同,分为数量指标和质
量指标。
三、统计指标
1、从总体的一个特征到具体数值,中间有很多
步要走。
2、以GDP的核算为例来说明
①想看一国一年内生产活动的总量,定义GDP是
一国在一定时期内最终产品的总价值。(内
涵)
②最终产品是本期生产本期不再投入生产使用
的产品,
消费、投资、出口产品。(外延)
③跟踪所有产品的使用去向,再核算其价值是
不可能的。部门增加值核算方法(计算方法)
棉花—纱—布— 印染—衣服
300—350—460—580— 880
部门增加值
300—50—110—120— 300
最终产品的总价值=880
部门增加值合计=300+50+110+120+300=880
④时间、空间、计量单位
第二章 统计数据的搜集、整理和
显示
第一节 统计数据的搜集
一、统计调查方式
统计报表制度、普查、抽样调查、典型调查、
重点调查
例2.1、一批钢材,抽样测试其抗张力,随机抽取76个
样本观察值如下:(单位:kg /cm2)
41.0 37.0 33.0 44.2 30.5 27.0 45.0 28.5 40.6 34.8
31.2 33.5 38.5 41.5 43.0 45.5 42.5 39.0 36.2 27.5
38.8 35.5 32.5 29.5 32.6 34.5 37.5 39.5 35.8 29.1
42.8 45.1 42.8 45.8 39.8 37.2 33.8 31.2 31.5 29.5
29.0 35.2 37.8 41.2 43.8 48.0 43.6 41.8 44.5 36.5
36.6 34.8 31.0 32.0 33.5 37.4 40.8 44.7 40.0 41.5
40.2 41.3 38.8 34.1 31.8 34.6 38.3 41.3 44.2 37.1
30.0 35.2 37.5 40.5 38.1 37.3
第二节 数据的整理
一、统计分组
1、统计分组是将统计总体按照一定标志区分成
若干个组成部分的一种统计分析方法。
2、两点注意:
——有时不易确定组与组之间的界限;
——穷尽原则、互斥原则。
钢材抗张
力
27-30
频数
频率%
组中值
7
9.2
28.5
30-33
33-36
36-39
39-42
42-45
45-48
10
13
16
15
10
5
76
13.2
17.1
21.1
19.7
13.2
6.6
100
31.5
34.5
37.5
40.5
43.5
46.5
----
合计
向上累计 向下累计
频数
频数
7
76
17
30
46
61
71
76
----
69
59
46
30
15
5
----
二、频数分布数列
1、统计分组后,每个组分配的总体单位数称为
频数或次数,频数/总体单位总数=频率。
2、意义
整理了杂乱无章的数据,同时显示出一批数的
分布情况,是数理统计学中随机变量及其概
论分布概念在实际中的应用。
3、分类:
按分组标志的不同,分为:
品质数列
单项数列:一个变量值是一个组
变量数列
组距数列:两个变量值构成的区间是一个组
三、组距分布数列的编制方法
第一步,排序后,极差=max-min
第二步,确定组数、组距。
组数 k=1+3.32lgn(参考)
组距=(max-min)/组数
第三步,组中值。
组中值=(下限+上限)/2
四、累计频数分布数列
1、各组频数向上、向下累计形成的数列。
2、在经济学中的应用。
———洛伦茨曲线
———基尼系数=A/(A+B)
第三节 数据显示—统计表和统计图
一、统计表
1、表的格式:
横行标题:对象(总体(常以年份形式表示)、总体
分组、总体各单位)
纵栏标题:统计指标
交叉部分:指标值
2、注意事项:
——数据居中,小数点对齐
——左右不封口;
——表下面注明资料来源。
Frequency
二、统计图
×é±ð
支付方式
20
信用卡
现金
10
0
27¡«30
30¡«33
33¡«36
36¡«39
39¡«42
42¡«45
45¡«48
×é±ð
个人支票
第三章 统计数据的描述分析
第一节 集中趋势分析
集中趋势是数据分布的中心,描述集中趋势的
指标有算术平均数、中位数、众数等。
某单位80个工人生产的零
单位:个
65 78 88 65 58 76 69 66 80 64 77 78 60 65 85 74
73 65 66 79 74 85 59 69 60 87 85 86 64 93 76
62 91 49 74 78 75 79 86 68 87 97 92 82 66 94
75 56 85 77 67 89 78 79 88 83 73 69 84 95 55
79 77 58 80 68 77 87 70 78 79 61 47 69 89 96
66 76 81 99
Min=47 max=99
一、算术平均数(均值)
1、将一批数累加起来,除以数据的个数,即为算术平
均数。
x
n
i
X i 1
n
2、分为简单算术平均数和加权算术平均数
n
x
i
X i 1
n
k
X
x1 f 1 x 2 f 2 x k f k
f1 f 2 f k
x
i fi
i 1
k
f
i 1
i
例、某单位80工人一周生产零件数。
1、简单算术平均数
n
x
i
X i 1
n
65 80 ... 61 99
75.49(个)
80
2、加权算术平均数
工人一周 工人数fi
生产零件
数
7
60以下
组中值xi
xifi
55
385
7
80
向上累计 向下累计
频数
频数
60-70
21
65
1365
28
73
70-80
25
75
1875
53
52
80-90
19
85
1615
72
27
90以上
8
95
760
80
8
合计
80
---
6000
---
---
k
x f
x f x2 f 2 xk f k
X 11
i 1
k
f1 f 2 f k
i i
f
i 1
i
6000
75
80
E( X )
X P( X )
i
i
i
3、算术平均数与数学期望
对于离散型随机变量X,设它的概率密度函数P(Xi)为,
则的数学期望为
E( X )
X P
i i
i
对于连续型随机变量X,设其概率密度函数为f(X),
则的数学期望为
E( X )
Xf ( X )dX
4、算术平均数的缺陷
10 15 20 25 70
X 28
去掉70后,
X 17 .5
二、众数(M0)
1、众数是指一组变量值中出现次数最多的变量
值。
2、众数的确定
①未分组资料,M0就是出现次数最多的变量值。
上例中,78、79各出现5次,都是M0
数据分布是双峰的。
②分组资料:
在等距分组的情况下,频数最多的组是众数组,在该
组内确定众数。
M0
M0
f M 0 f M 0 1
LM 0
dM 0
( f M 0 f M 0 1) ( f M 0 f M 0 1)
f M 0 f M 0 1
UM0
dM 0
( f M 0 f M 0 1) ( f M 0 f M 0 1)
例、上例中众数组是第3组,
f M 0 25, f M 0 1 21, f M 0 1 19, d M 0 10,
LM 0 70, U M 0 80
f M 0 f M 0 1
M 0 LM 0
dM 0
( f M 0 f M 0 1 ) ( f M 0 f M 0 1 )
25 21
70
10 74
( 25 21) ( 25 19)
f M 0 f M 0 1
M0 UM0
dM 0
( f M 0 f M 0 1 ) ( f M 0 f M 0 1 )
80
25 19
10 74
( 25 21) ( 25 19)
三、中位数及分位数
1、中位数
①把一批数按照从小到大的顺序排列,处于数列中点
的变量值就是Me
②确定方法
——未分组资料:(n+1)/2中位数的位置。
前例Me=77
———分组资料:根据向上或向下累计频数分布数列,
按照
确定中位数所在的组,然后确定。
f
2
M e LM e
Me UMe
f S
2
M e 1
fM e
f S
2
fM e
M e 1
d Me
d Me
f
80
4 0, LM e 7 0, U M e 8 0,
2
2
S M e 1 2 8, S M e 1 2 7, d Me 1 0, f M e 2 5
f
M e LM e
70
2
fM e
d Me
40 28
1 0 7 4.8
25
f
Me UMe
80
S M e 1
2
S M e 1
fM e
40 27
1 0 7 4.8
25
d Me
2、百分位数
——把数据按从小到大的顺序排列后,第P百分
位数是指有P%的值小于或等于它,而有
(100-P)%的值大于或等于它。
——确定方法。i=(P/100)n就是第P百分位数的
位置。
其中最常用的是四分位数。即把数据分成四个
部分,每个部分包括1/4数值。
第二节 离中趋势分析
一、离中趋势
1、离中趋势是数据分布的又一特征,它表明变量值的
差异或离散程度。
2、意义:首先,可以衡量算术平均数的代表性。
例:均值都为150的两组数
50,100,150,200,250
100,125,150,175,200
其次,进行产品质量管理和决策。
3、离中趋势测度经常用到的指标有:极差、方差和标
准差、四分位差等,它们也被称为变异指标。
二、极差
1、极差也称为全距,是一组变量中最大值与最
小值的离差,表明变量值变动的范围。用R表
示极差,其计算公式是: R x x
2、缺点:易受极端值的影响。
max
min
三、四分位差
1、四分位差用数列中第3/4位次与1/4位次的变量值之
差除以2来表示。
Q Q1
Q 3
2
第75百分位数 第25百分位数
2
2、意义:
——剔除了极端值,说明50%数据分布的范围;
——与中位数配合说明数据分布是否对称。若分布对
称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2
若不相等,则是非对称的。
四、平均差
1、平均差是指变量值与其算术平均数的离差绝
对值的算术平均数,用符号A·D表示。计算
公式: x X
n
A.D
2、优缺点
i 1
i
n
五、方差与标准差
1、方差与标准差是测定离中趋势最常用的指标。
标准差是方差的平方根,也称均方差。
2、计算公式:
n
n
2
2
(
x
X
)
i
i 1
n
2
(x X )
i 1
i
2
fi
n
样本方差和标准差要除以n-1,才是总体的无偏
估计。
3、标准差系数
V
S
100%
X
第三节 偏度和峰度分析
一、矩的概念
1、矩是力学概念,用来表示力和力臂对中心的关
系。统计学中借用这一概念讨论随机变量的分布
特征。
2、统计学中,将矩定义为原点矩和中心矩。原点
矩的定义是:
n
E ( X k ) X i Pi
xi k
k
X
i
k
f ( X )d X
k为整数,称为k阶原点矩
i 1
n
中心矩的定义是:
k
E[ X E ( X )]
[ X
k
i E ( X )] Pi
[ X i E ( X )]k f ( X )dX
n
Uk
(x X )
i 1
i
n
k
3、中心矩的两个重要性质:
——分布对称时,奇数阶中心矩恒为零;
——当分布为正态分布时,偶数阶中心矩有
V2k (2k 1)!! 2k
1 3 5 ... (2k 1) 2k
V2 2 ,V4 3 4 , V6 15 6
二、偏态
1、分布的偏态就是分布不对称的方向和程
2、它的测量主要是两种方法,一种是矩法,二
是Pearson偏态系数。
Pearson偏态系数以平均数与众数之差除以标
准差来衡量偏斜程度,用SK表示。其计算公
式为:SK X M
0
当SK=0时, 呈对称分布; 当SK>0时, 分布是
右偏(正偏)的;当SK<0时, 分布是左偏(负
偏)的。
矩法估计就是利用中心矩来衡量分布的偏度。用
公式表示为:
n
U3
3
( xi X ) k
i 1
3n
例、前例数据的偏度分析。
s 1 1.2 5, X 7 5, M 0 7 4,
SK
m3
X M0
75 74
0 .0 8 9
1 1.2 5
(x X )
f
i
i
2000
SK
m3
3
1 .4
2
fi
160000
80
三、峰度
1、峰度是变量分布的又一性质,它指的是分布
曲线的高峰形态,也是分布曲线的尖峭程
2、衡量指标:峰度是用变量的四阶中心矩除以
标准差四次方,并将结果再减3,用公式表示
为:
(x X )
U
n
4
i
4
4
3
i 1
n
4
3
3、正态分布的四阶中心矩系数,亦即
U4
4
3
峰度指标就是以正态分布的峰度为比较标准,判
断实际分布曲线的尖峭程度。
当峰度指标 >0时,表示频数分布比正态分布更
集中,分布呈尖峰状态;<0时表示频数分布比正
态分布更分散,分布呈平坦峰。
例、前例数据的峰度分析
m4
k
m4
4
( xi X ) 2 fi
f
2.19
i
35000
第四章 参数估计
第一节 随机变量与概论分布
随机现象——随机变量——概论分布——离散
型和连续型随机变量
第二节 统计量与抽样分布
一、几个基本概念
1、总体和样本
①研究对象的全体称为总体,组成总体的每个
基本单元称为个体;把从总体中按照随机原
则抽出的个体组成的小群体称为样本,所包
含的个体总数称为样本容量。
②总体=某项数量指标取值的全体=随机变量
③一个容量为n的样本就是一个n维随机变量
( X 1 , X 2 , , X n )
其中 X 相互独立,与总体 X 具有相同的概率分布。
i
2、统计量与抽样分布
①参数估计
②统计量
样本函数称为统计量。设 ( X , X ,, X )
是来自总体 X 的一个样本,h( X , X , , X )
是X , X ,, X 的函数,若 h 是连续函数且其中不含任
何未知参数,
则称 h( X , X , , X ) 是一个统计量。
1
2
1
1
2
n
1
2
n
n
2
n
③抽样分布
统计量的概论分布为抽样分布,
总体的分布已知时,统计量的分布是确定的。
二、三大推断分布
(一) 2 分布
N
1、设X , X ,, X 是来自总体(0,1)的一个样本,则称统
计量 X X X
2
2
服从自由度为n的 2分布,记为 ~ (n) 。
此处,自由度是指包含的独立变量的个数。
1
2
n
2
2
1
2
2
2
n
2、性质:
(1)设 ~ (n ),
2
1
2
1
2
2
~ 2 (n2 )
,且
12 22 ~ 2 (n1 n2 )
即分布具有可加性。
2
2
2
1 , 2
独立,则
,
(2)分位点
若对于给定的 ,0< <1,存在使得
f ( x)dx
则称点2 (n) 为 分布的上 分位点,如图所示。
P{ (n)}
2
2
2
2
( n)
(二)t分布
1、设X~N(0,1),Y~x2(n),且X,Y相互独立,则称
随机变量 T X
Y /n
为服从自由度为n的t分布,记T~t(n)。t分布又
称学生氏(student)分布。
2、性质
——关于y轴呈对称分布;当 n 时,近似于
N(0,1)分布。
——α分位点
对于给定的α,0< α<1,称满足
P{t t (n)}
f (t )dt
的点
t (n)
t ( n)
为t分布的α分位点。
t1 (n) t (n)
(三)F分布
1、设U~X2(n1),V~X2(n2),且U、V相互独立,则
F
U / n1
V / n2
服从自由度为( n1,n2)的F分布,记为 F ~ F (n1, n2 )
2、性质
——F分布是非对称的
——α分位点
对于给定的α,0< α<1,称满足
P{F F (n1 , n2 )}
F ( n1 ,n2 )
为F分布的α分位点。
—— F (n , n ) F (n1 , n )
1
1
2
2
1
f ( y)dy
三、正态总体统计量的抽样分布
1、样本均值统计量的抽样分布。
(1)总体方差已知
1
X X ~
n
(2)总体方差未知
n
2
i
i 1
t
N( ,
n
)
X
~ t (n 1)
S
n
(3)当总体不是正态总体时,由中心极限定理
知,n很大,(n>30),同(1),可以用样
本方差替代总体方差。
N ( ,
2
n
)
2、样本方差s2的抽样分布
x
2
(n 1) s 2
2
~ 2 (n 1)
3、两样本均值差的抽样分布
X ~ N ( x , x2 )
(1)
Y ~ N ( y , y2 )
( X Y ) ( x y )
2
x
n
(2) x2
y2
Y
S y2
已知
y2
x2
U
S x2
X
~ N (0,1)
2
y
m
未知,但两者相等
t
( X Y ) ( X Y )
SW
SW
~ t (n m 2)
1 1
n m
(n 1) S x 2 (m 1) S y 2
nm2
(3)当不知总体的分布形式时,n很大时,由
中心极限定理推,同(1),用样本方差替代
总体方差。
4、两总体方差比
S x2
F
S y2
x2
y2
~ F (n 1, m 1)
5、样本成数的抽样分布
pˆ ~ N ( P,
PQ
)
n
第二节 点估计
一、点估计
1、点估计是指根据总体参数的性质构造一个统
计量,然后由样本资料计算出统计量的值,
并直接作为相应的总体参数值的替代。
2、常见的用样本均值、方差、成数作为总体均
值、方差、成数的估计值。
3、缺点
第三节 区间估计
一、含义
1、用样本统计量的两个估计值所构成的一个区
间估计总体参数。
(1)区间估计不仅要有具体结果,还要有精度
及可靠程度;
(2)估计的置信度或概论保证程度;
(3)置信度与估计精度。
二、区间估计原理
以总体均值的估计为例
(1)
X ~ N (,
2
n
)
X
P
Z 1
2
n
P Z
X Z
1
n
n
2
2
P X Z
X Z
1
n
n
2
2
P X Z
X Z
1
n
n
2
2
三、例题
例4.1、一家袜厂的原料之一加弹尼龙来自甲、
乙两家工厂,为了估计甲乙两厂提供的产品
的拉力强度的差异,从甲厂随机抽取了25个
样品,从乙厂抽取了16个样品,测试结果,
甲厂产品的平均拉力强度为22千克,乙厂产
品的平均拉力强度为20千克,根据过去记录,
两个工厂产品的拉力强度的方差均为10,要
求以95%的把握对两厂产品拉力强度的差异
情况做出判断。
解:m=25 ,n =16, X 22 ,Y 20 ,
1- =95%
U
( X Y ) ( 1 2 )
2
m
( X Y ) Z
x 2 y 2 10
~ N (0,1)
2
n
2
2
1 2 ( X Y ) Z
2
2
m
n
m
n
2
10 10
10 10
(22 20) 1.96
1 2 (22 20) 1.96
25 16
25 16
2
即(0.016,3.984),在95%的概率保证下,甲
厂产品的拉力强度大于乙厂,不超过4千克。
例4. 2、某教育研究机构为了了解男女学生高考
数学成绩的差异程度,随机从参加高考的男
女学生中分别抽取了61人和121人,调查资料
得出:男生女生数学考试成绩的方差分别是
73和84,试以95%的概率推断 的置信区间。
12
22
解:m=121 ,n =61, S x2 =84, S =73, 1- =95%
假定男、女生成绩服从正态分布,统计量服从的分布
是:
S x2
2
y
x2
F
Sy
2
~ F (m 1, n 1)
y2
S x2
2
x
P F1
F 1
2
2
S y2
y2
S y2 y2
S y2
P F1
F
1
2
2
2
2
2
S
S
x
x
x
F
=0.05,查表,
(120,60)=1.58,
F
(120,60)=1/ F (60,120)=1/1.53
代入上式,得区间估计为(0.57,1.37)。
0.025
0.975
0.025
第四节 样本容量的确定
一、决定样本容量的因素
1、总体方差
2、允许误差
3、概率保证程度
4、以总体均值的估计为例:
( X )
~ N (0,1)
n
X
P
Z 1
2
n
X Z
2
n
X Z
X
设
x
X
x
=
Z
2
Z
2
n
X
n
2
2
n
例
第五章 参数假设检验
第一节 参数假设检验的基本原理和步骤
一、参数假设检验的含义
1、问题的提出
2、这类问题特征
3、两个假设的提出
4、对总体假设的类型
二、假设检验的基本原理
以实例说明。
例5.1、某旅游机构根据过去资料对国内旅游者
的旅游费用进行分析,发现在10天的旅游时
间中,旅游者用在车费、住宿费、膳食及购
买纪念品等方面的费用是一个近似服从正态
分布的随机变量,其平均值为1010元,标准
差为205元,而某研究所抽取了样本容量为
400的样本,作了同样内容的调查,得到样本
平均数为1250元。能否根据样本的平均数
1250元,推断认为总体平均数是1010元呢?
1、H0:μ=1010; H1: μ≠1010
若H0为真,则从X~N(1010,2052)中抽取容量为
400的样本,则 X ~N(1010,2052/400) ,则
X 1010
~N(0,1)
Z
205 400
代入样本值有
Z
1250 1010
205
400
23.4
2、Z=23.4相当于随机变量的一个取值。
3、小概率事件在一次试验中几乎不可能发生。
4、误判
5、P值规则。
第二节 常见的参数假设检验
一、样本均值统计量的抽样分布。
总体X~N(μ,σ2),n,
H0: μ= μ0; H1: μ ≠ μ0;
(1)总体方差已知
X
1
X
n
n
X
i
~
N ( ,
i 1
2
n
)
H 0成立时,
Z
拒绝域
Z Z
2
( X 0 )
~ N (0,1)
n
(2)总体方差未知
H0成立的条件下,
t
X 0
~ t (n 1)
s
n
拒绝域, t t (n 1)
2
(3)总体分布未知,大样本,同(1)
二、两个总体均值差的检验
H0 : x y ,
H1 : x y
(1)两总体方差已知
H0成立时,
Z
( X Y ) ( x y )
2y
x2
n
m
拒绝域
Z Z
2
(X Y)
2y
x2
n
m
~ N (0,1)
(2)两总体方差未知,但相等
在H0成立的条件下,
t
( X Y ) ( x y )
SW
1 1
n m
(X Y )
SW
~ t (n m 2)
1 1
n m
拒绝域
t t (n m 2)
2
(3)总体分布形式未知,大样本,同(1)
三、单个正态总体方差的检验
H 0 : 2 02
H1 : 2 02
在H0成立的条件下,
2
(n 1) s 2
2
拒绝域χ2<
(n 1) s 2
2
1
02
2
~ 2 (n 1)
或者χ2>
2
2
四、两个正态总体方差比的检验
H 0 : x2 y2
S x2
F
x2
S y2
H 1 : x2 y2
~ F ( n 1, m 1)
2y
在H0成立的条件下,
F
S x2
Sy
2
~ F (n 1, m 1)
1 / 2 (n 1, m 1)
拒绝域F< F
或者F>
F / 2 (n 1, m 1)
五、单个总体成数的检验
H :P P
1、 H : P P ,
0
0
pP
P (1 P )
n
p P0
P0 (1 P0 )
n
拒绝域
1
~ N (0,1)
~ N (0,1)
z z
2
0
六、两个总体成数差的检验
H 0 : PX PY
z
H 1 : PX PY
( p x p y ) ( PX PY )
PX (1 PX )
n
z
拒绝域
P (1 PY )
Y
m
~ N (0,1)
( px p y )
PX (1 PX ) PY (1 PY )
n
m
z z
2
~ N (0,1)
第三节 假设检验的其他问题
一、单侧检验
1、单侧检验指拒绝域在样本统计量分布的一侧。
H 0 : 0
H1 : 0
(1)若 0 ,则对于显著性水平 ,有
X
0
P( Z Z ) P
Z
n
(2)若 0,则因为 是总体均值,所以对于给定的显
著性水平 ,有
X
P
Z
n
当
0
X
n
X 0
n
X
X
0
P( Z Z ) P
Z P(
Z )
n
n
X
0 Z
n
是概率更小的事件。
2、H0中不管出现什么符号,均按等号处理。
二、参数检验的两类错误
1、“以真为假”
2、“以假为真”
3、α给定的原则
三、实例
例1、已知某炼铁厂的铁水含碳量服从正态分布
N(4.40,0.052),某日测得5炉铁水的含
碳量如下:
4.34 4.40 4.42 4.30 4.35
若标准差不变,该日铁水含碳量的均值是否显
著降低(取α =0.05)?
解:已知μ=4.40,σ=0.05,n=5,α=0.05,设提
出假设:
μ : =4.40, μ : <4.40
选取统计量
X 0
~ N(0,1)
n
4.362 4.40
0.05
X 4.362
1.699
5
μ<- μ0.05,拒绝原假设。
0.05 1.645
例2、一所学校正在考虑修订下一年的学校用车服务合
同,结合诸多情况的分析,初步确定学校只能在A
和B 两个汽车出租公司中选择其中的一个。假设我
们以运送或到达的时间方差作为衡量这两个公司的
服务质量的标准。如果两个公司的时间方差相等,
那么就要考虑能够以较低价格出租的那个公司,如
果两个公司的时间方差明显不同,那么就要考虑选
择一个时间方差比较小的公司进行合作。为了找到
决策的事实依据,该学校对过去这两个汽车出租公
司的行驶和服务时间进行了调查。对A公司做了25
次观察,得到它的时间方差为48,对B公司做了16
次观察,得到它的时间方差为20。试在显著性水平
为0.1的条件下,对两个出租车公司的服务时间差异
进行假设检验。
解:已知 nA=25, SA2=48, nB =16 , SB2=20,α=0.1
H 0 : A2 B 2
S2A
S 2B
F=
H1 : A 2 B 2
2 A ~ F (n 1, n 1)
A
B
2B
2
SA
2
SB
2
A
B2
2
SA
2
SB
代入样本值,得F=48/20=2.4
在0.1显著性水平下,查表得
F0.05 (24,19)= 2.29,
F0.05 (24,19)=)=1/ F0.05 (19,24)=1/2.03=0.49
例3、为了了解男性与女性对公共场所禁烟立法
的态度,现随机调查510名男性,有16%的人
赞成公共场所禁烟立法,被调查的324名女性
中,有29%的人赞成禁烟立法。问男性与女
性对公共场所禁烟立法的态度是否存在明显
的差异。(α=0.05)
解:已知n =510,px =16% ,m =324 py=29%
α =0.05
H 0 : PX PY
z
( p x p y ) ( PX PY )
PX (1 PX )
n
z
H 1 : PX PY
PY (1 PY )
~ N (0,1)
m
0.16 0.29
0.16 0.84 0.29 0.71
510
324
4.33
α =0.05,本题是左侧检验,查表得z0.05=1.65,
-4.33<-1.65,拒绝原假设。
第六章 方差分析
第一节 方差分析的基本理论
一、问题的提出
1、例子
2、方差分析:在若干个能够相互比较的资料组
中,判别各组资料是否存在差异以及分析差
异原因的方法和技术。
3、有关术语
——试验指标
——试验因素
——试验水平
——试验次数
——单因素方差分析和两因素方差分析
二、方差分析的假定条件
1、因素A的每个水平
Xj~N(μj,σ2),j=1,2,…,r
2、Aj下的任意观察值Xij
Xij= μj+εij,
i=1,2,…,n;j=1,2,…,r
3、εij~N(0, σ2)
Xij~ N(μj, σ2)
三、方差分析的基本思想
1、组内数据差异
2、因素是否会对结果有影响就转化为各组均值
是否相等
3、分析方法:通过方差的比较来实现对均值的
比较。
第二节 单因素方差分析
一、单因素等重复方差分析
1、分析框架
——因素的每个水平做相等次数的试验;
——Xj~N(μj,σ2),j=1,2,…,r
Xij= μj+εij;
i=1,2,…,n;j=1,2,…,r
εij~N(0, σ2)
Xij~ N(μj, σ2)
2、总离差平方和及组内、组间离差平方和
X ij X ( X ij X j ) ( X j X )
r
1
X
rn
r
n
n
j 1 i 1
n
1
X j
n
X ij
r
( X ij X .. ) 2
j 1 i 1
X ij
i 1
n
[( X ij X . j ) ( X . j X .. )]2
j 1 i 1
r
n
r
( X ij X . j ) 2
j 1 i 1
r
j 1 i 1
( X . j X .. ) 2
j 1 i 1
n
n
r
( X ij X . j ) 2 n
j 1
( X . j X .. ) 2
令:
r
总离差平方和:
ST2
组间离差平方和:
n
( X ij X .. ) 2
j 1 i 1
r
Sb2 n
( X . j X .. ) 2
j 1
组内离差平方和:
r
2
Sw
n
j 1 i 1
ST2=Sb2+Sw2
( X ij X . j ) 2
3、样本统计量的分布
S T2
2
~ 2 ( nr 1)
2
Sb2
ST
S2
w
2 2 2
2
Sb
~ 2 ( r 1)
2
2
Sw
~ 2 ( r ( n 1))
2
2 (r 1)
Sb
~ F((r - 1), r(n - 1))
2
S w r (n 1)
拒绝域
2 (r 1)
Sb
F ((r - 1), r(n - 1))
2 r (n 1)
Sw
例1、在电解铜工艺中,电流强度、电解液配方
和浓度、设备水平等,对电解铜的纯度有很
大影响。为考察电流强度的作用效果,将其
他因素固定起来,分别在五种电流强度下各
做五次试验,观察一小时内得到的电解铜的
杂质率数据如表所示:(见书)
解:已知r=5,n =5,α =0.05
H 0 : 1 2 3 4 5
X1 2
X 2 2.12
5
S2 n
b
H 1 : 1 , 2 , 3 , 4 , 5
X 3 1.54
不完全相等
X 4 2.06
X 5 1.74 X 1.892
..
( X j X .. ) 2 5[(2 1.892) 2 ... (1.74 1.892) 2 ] 1.1944
j 1
5
2
SW
5
( X ij X. j )2 0.944
j 1 i 1
1.1944
S 2 r 1
(5 - 1)
b
6.326
2
0.944
S w r (n 1)
5 (5 1)
F0.05(4,20)=2.87
F=6.326>2.87,拒绝原假设,电流强度对电解
铜杂质率有显著影响。
二、单因素不等重复方差分析
A因素的各水平下所做的试验次数不完全相等
1、离差平方和
nj
r
ST2
( X ij X .. ) 2
j 1 i 1
nj
r
S2
b
( X . j X .. ) 2
j 1 i 1
r
2
Sw
nj
j 1 i 1
( X ij X . j ) 2
2、样本统计量的分布
r
2
ST
~ 2(
2
n j 1)
j 1
2
Sb
~ 2 ( r 1)
2
r
2
Sw
~ 2(
2
( n j 1))
j 1
2 r 1
Sb
r
2
Sw
j 1
( n j 1)
r
~ F(r - 1,
j 1
( n j 1))
3、例题:
某公司为进一步激励销售人员的工作热情,正筹划实
行新的分配办法,拟定采用的做法是对新近招聘进
来的销售人员实行佣金制,对工作满五年的员工采
用佣金加固定薪金,对工作满八年以上的销售人员
基本实行固定薪金方案。不知这样的分配办法是否
能达到促进销售的目的,为此,主管部门考虑进行
跟踪观察一段时间,然后再正式决定。从各个分配
方案的人员中,按随机原则抽取一定的人员,登记
一个月的销售量(单位:万元),具体资料如表所
示:
试在显著性水平α=0.05的要求下,分析不同的分配方
法是否会对产品销售量有影响。
解:已知 r=3 n1 =6 n2= 9
n3=5
不完全相等
H 0 : 1 2 3 H1 : 1 , 2 , 3
X 1
1030
171.67
6
3
S2
b
X 2
1020
113.33
9
X 3
762
152.4
5
nj
3
( X . j X .. ) 2
2
Sw
j 1 i 1
6(171.67 140.6) 2 9(113.33 140.6) 2 5(152.4 140.6) 2
13181.15
S2 r 1
b
r
F=
2
Sw
X
(n j 1)
1030 1020 762
140.6
695
nj
( X ij X . j ) 2
j 1 i 1
13581.335 3664 6707.2
23952.5
13181.15
2
4.68
23952.5
(5 8 4)
j 1
α=0.05,F0.05 (2,17)=3.59,
F=4.68>3.59,拒绝原假设,说明不同分配方法对销售
人员的销售量有显著影响。
第三节 两因素方差分析
一、无重复两因素方差分析
1、分析框架
X ij ij ij ,
2
~
N
(
0
,
),
ij
i 1,2, r ,
j 1,2, , s
2、总离差平方和的分解
X ij X ( X i X ..) ( X j X ) ( X ij X i X j X ..)
s
1
X i
s
X ij
j 1
r
s
( X ij X .. ) 2
i 1 j 1
r
X ij
r
s
1
X
rs
i 1
s
X ij
i 1 j 1
[( X i X ) ( X . j X .. ) ( X ij X i X . j X .. )] 2
i 1 j 1
s
r
( X i X ) 2
i 1 j 1
r
s
r
r
1
X j
r
i 1
s
r
( X . j X .. ) 2
i 1 j 1
s
( X i X .. ) 2 r
j 1
( X ij X i X . j X .. ) 2
i 1 j 1
r
( X . j X .. ) 2
s
s
i 1 j 1
( X ij X i X . j X .. ) 2
令:
r
ST2
s
( X ij X .. ) 2
i 1 j 1
r
S2 s
A
( X i X .. ) 2
i 1
s
2 r
SB
( X . j X .. ) 2
j 1
r
2
SE
s
i 1 j 1
( X ij X i X . j X .. ) 2
3、样本统计量的分布
ST2
2
S2
A ~ 2 (r 1)
2
~ 2 (rs 1)
S E2
2
~ 2[(r 1)(s 1)]
2
SA
FA
2
SE
2
SE
~ F ((r 1), (r 1)( s 1))
(r 1)( s 1)
2
SB
FB
(r 1)
(s 1)
~ F (( s 1), (r 1)( s 1))
(r 1)( s 1)
拒绝域
FA F (( s 1), (r 1)( s 1))
2
SB
2
~ 2 (s 1)
例:某水生植物研究所想确定植物养料处理和
水温处理对用作色拉的小型红色西红柿重量
(单位:克)的影响,得到的数据资料如表
所示:试在显著性水平0.05条件下,检验水
温和养料对西红柿的重量是否有显著性影响。
解:本例是无重复两因素方差分析,提出假设
为:
H0A:因素A对试验结果影响不显著
H1A :因素A对试验结果影响显著
H0B :因素B对试验结果影响不显著
H1B :因素B对试验结果影响显著
已知 r=4,s=3
X1
60
20
3
X 1
53
13.25
4
X 2
45
15
3
X 2
X 3
30
10
3
51
12.75
4
X 4
21
7
3
X 3
52
13
4
X ..
156
13
12
2 4 0.125 0.5
SB
S 2 3 98 294
A
S2
A
FA
2
SE
(r 1)
(r 1)( s 1)
2 302 294 0.5 7.5
SE
2
SB
294
3 78.4
7.5
3 2
FB
2
SE
(s 1)
(r 1)( s 1)
ST2 302
0.5
7.5
2
0.2
3 2
F0.05(3,6)=4.76,F0.05(2,6)=5.14
FA>>F0.05 (3,6)
6)=4.76, 拒绝原假设
FB<F0.05 (2,6)=5.14,接受原假设。
水温对西红柿重量的影响高度显著,而养料对
西红柿重量没有显著性影响。
二、等重复两因素方差分析
1、交互作用
2、分析框架
X ijk ij ijk ,
ijk ~ N ( ij , 2 ),
i 1,2, , r,
j 1,2, , s
ijk 相互独立,
k 1,2, , l
3、离差平方和的分解
X ijk X ... ( X i.. X ... ) ( X . j. X ... ) ( X ijk X ij. ) ( X ij. X i.. X . j. X ... )
r
s
l
( X
ijk
X ... ) 2
i 1 j 1 k 1
r
sl
(X
s
X .. ) rl
2
i..
i 1
r
l
(X
r
Xk )
2
. j.
j 1
s
l
( X
ijk
X ij. ) 2
i 1 j 1 k 1
s
( X
ij.
X i.. X . j. X ... ) 2
i 1 j 1
s
1
X i..
sl
r
l
1
X . j.
rl
X ijk
j 1 k 1
r
1
X
rsl
s
l
i 1 j 1 k 1
X ijk
l
i 1 k 1
l
X ijk
1
X ij.
l
k 1
X ijk
令:
r
S A2
sl
( X
i..
X)2
i 1
s
S B2
rl
(X
. j.
X)2
j 1
r
2
S AB
l
s
( X ij. X i.. X . j. X ... ) 2
i 1 j 1
r
2
SE
s
l
i 1 j 1 k 1
( X ijk X ij. ) 2
4、样本统计量的分布
FA
2 (r 1)
SA
2 rs(l 1)
SE
FB
~ F ((r 1), rs(l 1))
2 ( s 1)
SB
2 rs(l 1)
SE
FAB
~ F (( s 1), rs(l 1))
2 (r 1)( s 1)
S AB
2 rs(l 1)
SE
~ F ((r 1)( s 1), rs(l 1))
例:为了研究3种不同的工艺方法和3种不同的
灯丝配方对灯泡寿命的影响,对每种水平组
合进行了两次试验,得到的数据如表所示。
试在显著性水平0.05条件下,分析工艺方法
和灯丝配方对灯泡寿命是否有显著影响。
解:本例属于等重复两因素方差分析,提出假
设
H0A :因素A对试验结果影响不显著
H1A :因素A对试验结果影响显著
H0B :因素B对试验结果影响不显著
H1B :因素B对试验结果影响显著
H0AB :因素A与B搭配对试验结果影响不显著
H1AB :因素A与B搭配对试验结果影响显著
已知 r=3,s =3,l =2
计算得:
2
SA
FA
2
SE
2
SB
FB
2
SE
(r 1)
6.24
5.36
rs(l 1)
( s 1)
rs(l 1)
5.36
3 3 (2 1)
14.04
(3 1)
(3 1)
3 3 (2 1)
3.12
5.23
0.596
7.02
11.78
0.596
2
S AB
FAB
10.92
3.12
(r 1)( s 1)
2 2
4.58
2
5.36
0.596
SE
3 3 (2 1)
rs(l 1)
F0.05 (4,9) 3.63
FA F0.05 (2,9)
FAB F0.05 (4,9)
F0.05 (2,9) 4.26
FB F0.05 (2,9)