应用统计学

Transcript 应用统计学

应用统计学
西安交通大学经济与金融学院统计系
赵春艳
本课程的内容
第一章绪论
第二章统计数据的搜集、整理和显示
第三章统计数据的描述分析
第四章参数估计
第五章参数假设检验
第六章方差分析
第七章非参数统计方法
第八章时间序列分析
第九章相关与回归分析
第十章统计指数
教材：
吴诣民赵春艳《应用统计学》陕西人民教育出版社，
2006年。
参考书目：
1、李心愉·应用经济统计学·北京：北京大学出版社，
2003年。
2、耿修林·商务经济统计学·北京：科学出版社，2003
年
3、[美]戴维· R ·安德森等·商务与经济统计·北京：中
信出版社，2003。
4、肖筱南·新编概率论与数理统计·北京：北京大学出
版社，2002年。
第一章绪论
第一节统计学的学科性质
一、统计学的学科性质
1、争论：“方法论学科” “实质性学科”
2、统计处理数据的过程：
搜集数据——整理数据——分析数据——解释
数据
二、统计学的分类
1、描述统计学和推断统计学
2、理论统计学和应用统计学
第二节统计学的几个基本概念
一、总体和总体单位
1、总体是由具有某种共同性质的许多个体组成
的整体，构成总体的个体称为总体单位。
2、两层含义：
①统计学研究的是大量现象的数量特征，总体
包含了大量现象；
②统计单位具有某一共同性质，但其他的性质、
特征是不同的，便于在差异中寻找规律。
二、标志和指标
1、标志是说明总体单位特征和属性的名称，分
为数量标志和品质标志。
2、指标是说明总体现象数量特征的概念和数值。
按其反映数量特点的不同，分为数量指标和质
量指标。
三、统计指标
1、从总体的一个特征到具体数值，中间有很多
步要走。
2、以GDP的核算为例来说明
①想看一国一年内生产活动的总量，定义GDP是
一国在一定时期内最终产品的总价值。（内
涵）
②最终产品是本期生产本期不再投入生产使用
的产品，
消费、投资、出口产品。（外延）
③跟踪所有产品的使用去向，再核算其价值是
不可能的。部门增加值核算方法（计算方法）
棉花—纱—布— 印染—衣服
300—350—460—580— 880
部门增加值
300—50—110—120— 300
最终产品的总价值=880
部门增加值合计=300+50+110+120+300=880
④时间、空间、计量单位
第二章统计数据的搜集、整理和
显示
第一节统计数据的搜集
一、统计调查方式
统计报表制度、普查、抽样调查、典型调查、
重点调查
例2.1、一批钢材，抽样测试其抗张力，随机抽取76个
样本观察值如下：（单位：kg /cm2）
41.0 37.0 33.0 44.2 30.5 27.0 45.0 28.5 40.6 34.8
31.2 33.5 38.5 41.5 43.0 45.5 42.5 39.0 36.2 27.5
38.8 35.5 32.5 29.5 32.6 34.5 37.5 39.5 35.8 29.1
42.8 45.1 42.8 45.8 39.8 37.2 33.8 31.2 31.5 29.5
29.0 35.2 37.8 41.2 43.8 48.0 43.6 41.8 44.5 36.5
36.6 34.8 31.0 32.0 33.5 37.4 40.8 44.7 40.0 41.5
40.2 41.3 38.8 34.1 31.8 34.6 38.3 41.3 44.2 37.1
30.0 35.2 37.5 40.5 38.1 37.3
第二节数据的整理
一、统计分组
1、统计分组是将统计总体按照一定标志区分成
若干个组成部分的一种统计分析方法。
2、两点注意：
——有时不易确定组与组之间的界限；
——穷尽原则、互斥原则。
钢材抗张
力
27-30
频数
频率%
组中值
7
9.2
28.5
30-33
33-36
36-39
39-42
42-45
45-48
10
13
16
15
10
5
76
13.2
17.1
21.1
19.7
13.2
6.6
100
31.5
34.5
37.5
40.5
43.5
46.5
----
合计
向上累计向下累计
频数
频数
7
76
17
30
46
61
71
76
----
69
59
46
30
15
5
----
二、频数分布数列
1、统计分组后，每个组分配的总体单位数称为
频数或次数，频数/总体单位总数=频率。
2、意义
整理了杂乱无章的数据，同时显示出一批数的
分布情况，是数理统计学中随机变量及其概
论分布概念在实际中的应用。
3、分类：
按分组标志的不同，分为：
品质数列
单项数列：一个变量值是一个组
变量数列
组距数列：两个变量值构成的区间是一个组
三、组距分布数列的编制方法
第一步，排序后，极差=max-min
第二步，确定组数、组距。
组数 k=1+3.32lgn(参考)
组距=（max-min）/组数
第三步，组中值。
组中值=（下限+上限）/2
四、累计频数分布数列
1、各组频数向上、向下累计形成的数列。
2、在经济学中的应用。
———洛伦茨曲线
———基尼系数=A/（A+B）
第三节数据显示—统计表和统计图
一、统计表
1、表的格式：
横行标题：对象（总体（常以年份形式表示）、总体
分组、总体各单位）
纵栏标题：统计指标
交叉部分：指标值
2、注意事项：
——数据居中，小数点对齐
——左右不封口；
——表下面注明资料来源。
Frequency
二、统计图
×é±ð
支付方式
20
信用卡
现金
10
0
27¡«30
30¡«33
33¡«36
36¡«39
39¡«42
42¡«45
45¡«48
×é±ð
个人支票
第三章统计数据的描述分析
第一节集中趋势分析
集中趋势是数据分布的中心，描述集中趋势的
指标有算术平均数、中位数、众数等。
某单位80个工人生产的零
单位：个
65 78 88 65 58 76 69 66 80 64 77 78 60 65 85 74
73 65 66 79 74 85 59 69 60 87 85 86 64 93 76
62 91 49 74 78 75 79 86 68 87 97 92 82 66 94
75 56 85 77 67 89 78 79 88 83 73 69 84 95 55
79 77 58 80 68 77 87 70 78 79 61 47 69 89 96
66 76 81 99
Min=47 max=99
一、算术平均数（均值）
1、将一批数累加起来，除以数据的个数，即为算术平
均数。
x
n
i
X  i 1
n
2、分为简单算术平均数和加权算术平均数
n
x
i
X  i 1
n
k
X 
x1 f 1  x 2 f 2    x k f k

f1  f 2    f k
x
i fi
i 1
k
f
i 1
i
例、某单位80工人一周生产零件数。
1、简单算术平均数
n
x
i
X  i 1
n

65  80  ...  61  99
 75.49(个)
80
2、加权算术平均数
工人一周工人数fi
生产零件
数
7
60以下
组中值xi
xifi
55
385
7
80
向上累计向下累计
频数
频数
60-70
21
65
1365
28
73
70-80
25
75
1875
53
52
80-90
19
85
1615
72
27
90以上
8
95
760
80
8
合计
80
---
6000
---
---
k
x f
x f  x2 f 2    xk f k
X 11
 i 1
k
f1  f 2    f k
i i
f
i 1

i
6000
 75
80
E( X ) 
 X P( X )
i
i
i
3、算术平均数与数学期望
对于离散型随机变量X，设它的概率密度函数P(Xi)为，
则的数学期望为
E( X ) 
X P
i i
i
对于连续型随机变量X，设其概率密度函数为f(X)，
则的数学期望为

E( X ) 

Xf ( X )dX

4、算术平均数的缺陷
10 15 20 25 70
X  28
去掉70后，
X  17 .5
二、众数（M0）
1、众数是指一组变量值中出现次数最多的变量
值。
2、众数的确定
①未分组资料，M0就是出现次数最多的变量值。
上例中，78、79各出现5次，都是M0
数据分布是双峰的。
②分组资料：
在等距分组的情况下，频数最多的组是众数组，在该
组内确定众数。
M0
M0
f M 0  f M 0 1
 LM 0 
dM 0
( f M 0  f M 0 1)  ( f M 0  f M 0 1)
f M 0  f M 0 1
 UM0 
dM 0
( f M 0  f M 0 1)  ( f M 0  f M 0 1)
例、上例中众数组是第3组，
f M 0  25, f M 0 1 21, f M 0 1  19, d M 0  10,
LM 0  70, U M 0  80
f M 0  f M 0 1
M 0  LM 0 
dM 0
( f M 0  f M 0 1 )  ( f M 0  f M 0 1 )
25  21
 70 
 10  74
( 25  21)  ( 25  19)
f M 0  f M 0 1
M0  UM0 
dM 0
( f M 0  f M 0 1 )  ( f M 0  f M 0 1 )
 80 
25  19
 10  74
( 25  21)  ( 25  19)
三、中位数及分位数
1、中位数
①把一批数按照从小到大的顺序排列，处于数列中点
的变量值就是Me
②确定方法
——未分组资料：（n+1）/2中位数的位置。
前例Me=77
———分组资料：根据向上或向下累计频数分布数列，
按照 
确定中位数所在的组，然后确定。
f
2
M e  LM e 
Me  UMe 
f S
2
M e 1
fM e
f S
2
fM e
M e 1
d Me
d Me
f
80
 4 0, LM e  7 0, U M e  8 0,
2
2
S M e 1  2 8, S M e 1  2 7, d Me  1 0, f M e  2 5

f
M e  LM e 
 70 
2
fM e
d Me
40  28
 1 0  7 4.8
25
f
Me  UMe 
 80 
 S M e 1
2
 S M e 1
fM e
40  27
 1 0  7 4.8
25
d Me
2、百分位数
——把数据按从小到大的顺序排列后，第P百分
位数是指有P%的值小于或等于它，而有
（100-P）%的值大于或等于它。
——确定方法。i=(P/100)n就是第P百分位数的
位置。
其中最常用的是四分位数。即把数据分成四个
部分，每个部分包括1/4数值。
第二节离中趋势分析
一、离中趋势
1、离中趋势是数据分布的又一特征，它表明变量值的
差异或离散程度。
2、意义：首先，可以衡量算术平均数的代表性。
例：均值都为150的两组数
50，100，150，200，250
100，125，150，175，200
其次，进行产品质量管理和决策。
3、离中趋势测度经常用到的指标有：极差、方差和标
准差、四分位差等，它们也被称为变异指标。
二、极差
1、极差也称为全距，是一组变量中最大值与最
小值的离差，表明变量值变动的范围。用R表
示极差，其计算公式是： R  x  x
2、缺点：易受极端值的影响。
max
min
三、四分位差
1、四分位差用数列中第3/4位次与1/4位次的变量值之
差除以2来表示。
Q  Q1
Q 3
2
第75百分位数  第25百分位数

2
2、意义：
——剔除了极端值，说明50%数据分布的范围；
——与中位数配合说明数据分布是否对称。若分布对
称，则Q2-Q1=Q3-Q2=(Q3-Q1)/2
若不相等，则是非对称的。
四、平均差
1、平均差是指变量值与其算术平均数的离差绝
对值的算术平均数，用符号A·D表示。计算
公式：  x  X
n
A.D 
2、优缺点
i 1
i
n
五、方差与标准差
1、方差与标准差是测定离中趋势最常用的指标。
标准差是方差的平方根，也称均方差。
2、计算公式：
n
n
 
2
2
(
x

X
)
 i
i 1
n
2
 (x  X )
i 1
i
2
fi
n
样本方差和标准差要除以n-1，才是总体的无偏
估计。
3、标准差系数
V
S
100%
X
第三节偏度和峰度分析
一、矩的概念
1、矩是力学概念，用来表示力和力臂对中心的关
系。统计学中借用这一概念讨论随机变量的分布
特征。
2、统计学中，将矩定义为原点矩和中心矩。原点
矩的定义是：
n
E ( X k )   X i Pi
 xi k
k 

X
i
k
f ( X )d X

k为整数，称为k阶原点矩
i 1
n
中心矩的定义是：
k
E[ X  E ( X )] 
[ X
k
i  E ( X )] Pi


[ X i  E ( X )]k f ( X )dX

n
Uk 
 (x  X )
i 1
i
n
k
3、中心矩的两个重要性质：
——分布对称时，奇数阶中心矩恒为零；
——当分布为正态分布时，偶数阶中心矩有
V2k  (2k  1)!! 2k
 1  3  5  ...  (2k  1) 2k
V2   2 ,V4  3 4 , V6  15 6
二、偏态
1、分布的偏态就是分布不对称的方向和程
2、它的测量主要是两种方法，一种是矩法，二
是Pearson偏态系数。
 Pearson偏态系数以平均数与众数之差除以标
准差来衡量偏斜程度，用SK表示。其计算公
式为：SK  X  M
0

 当SK=0时, 呈对称分布; 当SK>0时, 分布是
右偏（正偏）的;当SK<0时, 分布是左偏（负
偏）的。
 矩法估计就是利用中心矩来衡量分布的偏度。用
公式表示为：
n

U3
3


( xi  X ) k
i 1
 3n
 例、前例数据的偏度分析。
  s  1 1.2 5, X  7 5, M 0  7 4,
SK 
m3
X  M0
75  74

 0 .0 8 9

1 1.2 5
(x  X )


f
i
i
 2000
SK 
m3

3
 1 .4
2
fi

160000
80
三、峰度
1、峰度是变量分布的又一性质，它指的是分布
曲线的高峰形态，也是分布曲线的尖峭程
2、衡量指标：峰度是用变量的四阶中心矩除以
标准差四次方，并将结果再减3，用公式表示
为：
(x  X )

U
n
4
i


4
4
3 
i 1
 n
4
3
3、正态分布的四阶中心矩系数，亦即
U4

4
3
 峰度指标就是以正态分布的峰度为比较标准，判
断实际分布曲线的尖峭程度。
 当峰度指标 >0时，表示频数分布比正态分布更

集中，分布呈尖峰状态；<0时表示频数分布比正
态分布更分散，分布呈平坦峰。
 例、前例数据的峰度分析
m4 
k

m4

4
( xi  X ) 2 fi
f
 2.19
i
 35000
第四章参数估计
第一节随机变量与概论分布
随机现象——随机变量——概论分布——离散
型和连续型随机变量
第二节统计量与抽样分布
一、几个基本概念
1、总体和样本
①研究对象的全体称为总体，组成总体的每个
基本单元称为个体；把从总体中按照随机原
则抽出的个体组成的小群体称为样本，所包
含的个体总数称为样本容量。
②总体=某项数量指标取值的全体=随机变量
③一个容量为n的样本就是一个n维随机变量
( X 1 , X 2 , , X n )
其中 X 相互独立，与总体 X 具有相同的概率分布。
i
2、统计量与抽样分布
①参数估计
②统计量
样本函数称为统计量。设 ( X , X ,, X )
是来自总体 X 的一个样本，h( X , X , , X )
是X , X ,, X 的函数，若 h 是连续函数且其中不含任
何未知参数，
则称 h( X , X , , X ) 是一个统计量。
1
2
1
1
2
n
1
2
n
n
2
n
③抽样分布
统计量的概论分布为抽样分布，
总体的分布已知时，统计量的分布是确定的。
二、三大推断分布
(一)  2 分布
N
1、设X , X ,, X 是来自总体（0，1）的一个样本，则称统
计量   X  X    X
2
2
服从自由度为n的  2分布，记为  ~  (n) 。
此处，自由度是指包含的独立变量的个数。
1
2
n
2
2
1
2
2
2
n
2、性质：
（1）设  ~  (n ), 
2
1
2
1
2
2
~  2 (n2 )
，且 
12   22 ~  2 (n1  n2 )
即分布具有可加性。
2
2
2
1 , 2
独立，则
，

（2）分位点
若对于给定的  ，0＜ ＜1，存在使得

 f ( x)dx  
则称点2 (n) 为 分布的上 分位点，如图所示。
P{    (n)} 
2
2
2
2
 ( n)
(二)t分布
1、设X~N(0,1),Y~x2(n),且X,Y相互独立，则称
随机变量 T  X
Y /n
为服从自由度为n的t分布，记T~t(n)。t分布又
称学生氏（student）分布。
2、性质
——关于y轴呈对称分布；当 n   时，近似于
N（0，1）分布。
——α分位点
对于给定的α，0< α<1，称满足
P{t  t (n)}  
f (t )dt  


的点
t (n)
t ( n)
为t分布的α分位点。
t1 (n)  t (n)
（三）F分布
1、设U~X2(n1),V~X2(n2),且U、V相互独立，则
F
U / n1
V / n2
服从自由度为（ n1,n2）的F分布，记为 F ~ F (n1, n2 )
2、性质
——F分布是非对称的
——α分位点
对于给定的α，0< α<1，称满足
P{F  F (n1 , n2 )} 


F ( n1 ,n2 )
为F分布的α分位点。
—— F  (n , n )  F (n1 , n )
1
1
2

2
1
f ( y)dy  
三、正态总体统计量的抽样分布
1、样本均值统计量的抽样分布。
（1）总体方差已知
1

X  X ~

n
（2）总体方差未知
n
2
i
i 1
t 
N( ,
n
)
X 
~ t (n  1)
S
n
（3）当总体不是正态总体时，由中心极限定理
知，n很大，（n>30），同（1），可以用样
本方差替代总体方差。
N ( ,
2
n
)
2、样本方差s2的抽样分布
x 
2
(n  1) s 2
2
~  2 (n  1)
3、两样本均值差的抽样分布
X ~ N ( x ,  x2 )
（1）
Y ~ N (  y ,  y2 )
( X  Y )  ( x   y )

2
x
n
（2） x2
 y2
Y
S y2
已知
 y2
 x2
U
S x2
X


~ N (0,1)
2
y
m
未知，但两者相等
t
( X  Y )  ( X  Y )
SW
SW 
~ t (n  m  2)
1 1

n m
(n  1) S x 2  (m  1) S y 2
nm2
（3）当不知总体的分布形式时，n很大时，由
中心极限定理推，同（1），用样本方差替代
总体方差。
4、两总体方差比
S x2
F
S y2
 x2
 y2
~ F (n  1, m  1)
5、样本成数的抽样分布
pˆ ~ N ( P,
PQ
)
n
第二节点估计
一、点估计
1、点估计是指根据总体参数的性质构造一个统
计量，然后由样本资料计算出统计量的值，
并直接作为相应的总体参数值的替代。
2、常见的用样本均值、方差、成数作为总体均
值、方差、成数的估计值。
3、缺点
第三节区间估计
一、含义
1、用样本统计量的两个估计值所构成的一个区
间估计总体参数。
（1）区间估计不仅要有具体结果，还要有精度
及可靠程度；
（2）估计的置信度或概论保证程度；
（3）置信度与估计精度。
二、区间估计原理
以总体均值的估计为例
（1）

X ~ N (,
2
n
)


 X 

P
 Z  1  
 
2 
n







 

P  Z  
 X    Z 
 1
n
n

2
2





 

P  X  Z  
    X  Z  
 1
n
n

2
2





 

P X  Z  
   X  Z 
 1
n
n

2
2


三、例题
例4.1、一家袜厂的原料之一加弹尼龙来自甲、
乙两家工厂，为了估计甲乙两厂提供的产品
的拉力强度的差异，从甲厂随机抽取了25个
样品，从乙厂抽取了16个样品，测试结果，
甲厂产品的平均拉力强度为22千克，乙厂产
品的平均拉力强度为20千克，根据过去记录，
两个工厂产品的拉力强度的方差均为10，要
求以95%的把握对两厂产品拉力强度的差异
情况做出判断。
解：m=25 ,n =16, X  22 ,Y  20 ,
1-  =95%
U 
( X  Y )  ( 1  2 )
2
m
( X  Y )  Z

 x 2   y 2  10
~ N (0,1)
2
n
2

2
 1   2  ( X  Y )  Z 
2

2
m
n
m
n
2
10 10
10 10
(22  20)  1.96

 1   2  (22  20)  1.96

25 16
25 16
2
即（0.016，3.984）,在95%的概率保证下，甲
厂产品的拉力强度大于乙厂，不超过4千克。
例4. 2、某教育研究机构为了了解男女学生高考
数学成绩的差异程度，随机从参加高考的男
女学生中分别抽取了61人和121人，调查资料
得出：男生女生数学考试成绩的方差分别是
73和84，试以95%的概率推断的置信区间。
 12
 22
解：m=121 ,n =61, S x2 =84, S =73, 1- =95%
假定男、女生成绩服从正态分布，统计量服从的分布
是：
S x2
2
y
 x2
F 
Sy
2
~ F (m  1, n  1)
 y2


S x2


2


x


P  F1 
 F   1  
2
2
S y2



 y2





S y2  y2
S y2 


P  F1 

 F 
 1
2
2
2
2
2
S

S

x
x
x 



F
=0.05，查表，
(120,60)=1.58，
F
(120,60)=1/ F (60,120)=1/1.53
代入上式，得区间估计为（0.57，1.37）。
0.025
0.975
0.025
第四节样本容量的确定
一、决定样本容量的因素
1、总体方差
2、允许误差
3、概率保证程度
4、以总体均值的估计为例：
( X  )

~ N (0,1)
n


 X 

P
 Z   1  
2
 
n




X  Z

2
n
   X  Z
  X 
设
x
  X 
x
=
Z

2
 Z 

2
n
 X

n





2

2
n
例
第五章参数假设检验
第一节参数假设检验的基本原理和步骤
一、参数假设检验的含义
1、问题的提出
2、这类问题特征
3、两个假设的提出
4、对总体假设的类型
二、假设检验的基本原理
以实例说明。
例5.1、某旅游机构根据过去资料对国内旅游者
的旅游费用进行分析，发现在10天的旅游时
间中，旅游者用在车费、住宿费、膳食及购
买纪念品等方面的费用是一个近似服从正态
分布的随机变量，其平均值为1010元，标准
差为205元，而某研究所抽取了样本容量为
400的样本，作了同样内容的调查，得到样本
平均数为1250元。能否根据样本的平均数
1250元，推断认为总体平均数是1010元呢？
1、H0:μ=1010; H1: μ≠1010
若H0为真，则从X~N(1010,2052)中抽取容量为
400的样本，则 X ~N(1010,2052/400) ,则
X  1010
~N(0,1)
Z
205 400
代入样本值有
Z 
1250 1010
205
400
 23.4
2、Z=23.4相当于随机变量的一个取值。
3、小概率事件在一次试验中几乎不可能发生。
4、误判
5、P值规则。
第二节常见的参数假设检验
一、样本均值统计量的抽样分布。
总体X~N(μ,σ2),n,
H0: μ= μ0; H1: μ ≠ μ0;
(1)总体方差已知
X
1
X
n
n
X
i
~
N ( ,
i 1
2
n
)
H 0成立时，
Z
拒绝域
Z  Z
2
( X  0 )
~ N (0,1)

n
（2）总体方差未知
H0成立的条件下，
t
X  0
~ t (n  1)
s
n
拒绝域， t  t  (n  1)
2
（3）总体分布未知，大样本，同（1）
二、两个总体均值差的检验
H0 : x   y ,
H1 :  x   y
（1）两总体方差已知
H0成立时，
Z
( X  Y )  ( x   y )
 2y
 x2

n
m
拒绝域
Z  Z
2

(X  Y)
 2y
 x2

n
m
~ N (0,1)
（2）两总体方差未知，但相等
在H0成立的条件下，
t
( X  Y )  ( x   y )
SW
1 1

n m

(X  Y )
SW
~ t (n  m  2)
1 1

n m
拒绝域
t  t  (n  m  2)
2
（3）总体分布形式未知，大样本，同（1）
三、单个正态总体方差的检验
H 0 :  2   02
H1 :  2   02
在H0成立的条件下，
 
2
(n  1) s 2
2
拒绝域χ2<

(n  1) s 2
2 
1
 02
2
~  2 (n  1)
或者χ2>
2
2
四、两个正态总体方差比的检验
H 0 :  x2   y2
S x2
F 
 x2
S y2
H 1 :  x2   y2
~ F ( n  1, m  1)
 2y
在H0成立的条件下，
F
S x2
Sy
2
~ F (n  1, m  1)
1 / 2 (n  1, m  1)
拒绝域F< F
或者F>
F / 2 (n  1, m  1)
五、单个总体成数的检验
H :P P
1、 H : P  P ,
0
0
pP
P (1  P )
n
p  P0
P0 (1  P0 )
n
拒绝域
1
~ N (0,1)
~ N (0,1)
z  z
2
0
六、两个总体成数差的检验
H 0 : PX  PY
z
H 1 : PX  PY
( p x  p y )  ( PX  PY )
PX (1  PX )
n
z
拒绝域
P (1  PY )
 Y
m
~ N (0,1)
( px  p y )
PX (1  PX ) PY (1  PY )

n
m
z  z
2
~ N (0,1)
第三节假设检验的其他问题
一、单侧检验
1、单侧检验指拒绝域在样本统计量分布的一侧。
H 0 :   0
H1 :    0
（1）若   0 ，则对于显著性水平 ，有


 X 

0
P( Z  Z )  P
 Z   
 

n


（2）若   0，则因为 是总体均值，所以对于给定的显
著性水平 ，有


 X 

P
  Z   
 

n


当
  0
X 

n

X  0

n


 X 

X 
0
P( Z   Z )  P
  Z   P(
  Z )  

 

n
n




 X 

0  Z 


 

n


是概率更小的事件。
2、H0中不管出现什么符号，均按等号处理。
二、参数检验的两类错误
1、“以真为假”
2、“以假为真”
3、α给定的原则
三、实例
例1、已知某炼铁厂的铁水含碳量服从正态分布
N（４.40，0.052），某日测得５炉铁水的含
碳量如下：
4.34 4.40 4.42 4.30 4.35
若标准差不变，该日铁水含碳量的均值是否显
著降低（取α =0.05）?
解：已知μ=4.40，σ=0.05，n=5，α=0.05，设提
出假设：
μ : =4.40， μ : <4.40
选取统计量
X  0

~ N(0,1)
 n
 
4.362  4.40
0.05
X  4.362
 1.699  
5
μ<- μ0.05,拒绝原假设。
  0.05  1.645
例2、一所学校正在考虑修订下一年的学校用车服务合
同，结合诸多情况的分析，初步确定学校只能在A
和B 两个汽车出租公司中选择其中的一个。假设我
们以运送或到达的时间方差作为衡量这两个公司的
服务质量的标准。如果两个公司的时间方差相等，
那么就要考虑能够以较低价格出租的那个公司，如
果两个公司的时间方差明显不同，那么就要考虑选
择一个时间方差比较小的公司进行合作。为了找到
决策的事实依据，该学校对过去这两个汽车出租公
司的行驶和服务时间进行了调查。对A公司做了25
次观察，得到它的时间方差为48，对B公司做了16
次观察，得到它的时间方差为20。试在显著性水平
为0.1的条件下，对两个出租车公司的服务时间差异
进行假设检验。
解：已知 nA=25, SA2=48, nB =16 , SB2=20,α=0.1
H 0 : A2   B 2
S2A
S 2B
F=
H1 :  A 2   B 2
 2 A ~ F (n  1, n  1)
A
B
 2B
2
SA
2
SB
2
A
 B2

2
SA
2
SB
代入样本值，得F=48/20=2.4
在0.1显著性水平下，查表得
F0.05 (24,19)= 2.29，
F0.05 (24,19)=)=1/ F0.05 (19,24)=1/2.03=0.49
例3、为了了解男性与女性对公共场所禁烟立法
的态度，现随机调查510名男性，有16%的人
赞成公共场所禁烟立法，被调查的324名女性
中，有29%的人赞成禁烟立法。问男性与女
性对公共场所禁烟立法的态度是否存在明显
的差异。（α=0.05）
解：已知n =510,px =16% ,m =324 py=29%
α =0.05
H 0 : PX  PY
z
( p x  p y )  ( PX  PY )
PX (1  PX )
n
z
H 1 : PX  PY

PY (1  PY )
~ N (0,1)
m
0.16  0.29
0.16  0.84 0.29  0.71

510
324
 4.33
α =0.05，本题是左侧检验，查表得z0.05=1.65，
-4.33<-1.65,拒绝原假设。
第六章方差分析
第一节方差分析的基本理论
一、问题的提出
1、例子
2、方差分析：在若干个能够相互比较的资料组
中，判别各组资料是否存在差异以及分析差
异原因的方法和技术。
3、有关术语
——试验指标
——试验因素
——试验水平
——试验次数
——单因素方差分析和两因素方差分析
二、方差分析的假定条件
1、因素A的每个水平
Xj~N(μj,σ2),j=1,2,…,r
2、Aj下的任意观察值Xij
Xij= μj+εij,
i=1,2,…,n;j=1,2,…,r
3、εij~N(0, σ2)
Xij~ N(μj, σ2)
三、方差分析的基本思想
1、组内数据差异
2、因素是否会对结果有影响就转化为各组均值
是否相等
3、分析方法：通过方差的比较来实现对均值的
比较。
第二节单因素方差分析
一、单因素等重复方差分析
1、分析框架
——因素的每个水平做相等次数的试验；
——Xj~N(μj,σ2),j=1,2,…,r
Xij= μj+εij；
i=1,2,…,n;j=1,2,…,r
εij~N(0, σ2)
Xij~ N(μj, σ2)
2、总离差平方和及组内、组间离差平方和
X ij  X   ( X ij  X  j )  ( X  j  X  )
r
1
X  
rn
r
n

n
j 1 i 1
n

1
X j 
n
X ij
r
( X ij  X .. ) 2 
j 1 i 1

X ij
i 1
n

[( X ij  X . j )  ( X . j  X .. )]2
j 1 i 1
r

n

r
( X ij  X . j ) 2 
j 1 i 1
r


j 1 i 1
( X . j  X .. ) 2
j 1 i 1
n

n
r
( X ij  X . j ) 2  n

j 1
( X . j  X .. ) 2
令：
r
总离差平方和：
ST2 
组间离差平方和：
n

( X ij  X .. ) 2
j 1 i 1
r
Sb2  n

( X . j  X .. ) 2
j 1
组内离差平方和：
r
2 
Sw
n

j 1 i 1
ST2=Sb2+Sw2
( X ij  X . j ) 2
3、样本统计量的分布
S T2

2
~  2 ( nr  1)
2
Sb2
ST
S2

 w
2 2 2
2
Sb
~  2 ( r  1)
2
2
Sw
~  2 ( r ( n  1))
2
2 (r  1)
Sb
~ F((r - 1), r(n - 1))
2
S w r (n  1)
拒绝域
2 (r  1)
Sb
 F ((r - 1), r(n - 1))
2 r (n  1)
Sw
例1、在电解铜工艺中，电流强度、电解液配方
和浓度、设备水平等，对电解铜的纯度有很
大影响。为考察电流强度的作用效果，将其
他因素固定起来，分别在五种电流强度下各
做五次试验，观察一小时内得到的电解铜的
杂质率数据如表所示：（见书）
解：已知r=5,n =5,α =0.05
H 0 : 1   2   3   4   5
X1  2
X  2  2.12
5

S2  n
b
H 1 : 1 ,  2 ,  3 ,  4 ,  5
X 3  1.54
不完全相等
X  4  2.06
X 5  1.74 X  1.892
..
( X  j  X .. ) 2  5[(2  1.892) 2  ...  (1.74  1.892) 2 ]  1.1944
j 1
5
2 
SW
5

( X ij  X. j )2  0.944
j 1 i 1
1.1944
S 2 r 1
(5 - 1)
b

 6.326
2
0.944
S w r (n  1)
5  (5  1)
F0.05(4,20)=2.87
F=6.326>2.87，拒绝原假设，电流强度对电解
铜杂质率有显著影响。
二、单因素不等重复方差分析
A因素的各水平下所做的试验次数不完全相等
1、离差平方和
nj
r
ST2 

( X ij  X .. ) 2
j 1 i 1
nj
r
S2 
b

( X . j  X .. ) 2
j 1 i 1
r
2 
Sw
nj

j 1 i 1
( X ij  X . j ) 2
2、样本统计量的分布
r

2
ST
~  2(
2

n j  1)
j 1
2
Sb
~  2 ( r  1)
2

r

2
Sw
~  2(
2

( n j  1))
j 1
2 r 1
Sb
r
2
Sw

j 1
( n j  1)
r
~ F(r - 1,

j 1
( n j  1))
3、例题：
某公司为进一步激励销售人员的工作热情，正筹划实
行新的分配办法，拟定采用的做法是对新近招聘进
来的销售人员实行佣金制，对工作满五年的员工采
用佣金加固定薪金，对工作满八年以上的销售人员
基本实行固定薪金方案。不知这样的分配办法是否
能达到促进销售的目的，为此，主管部门考虑进行
跟踪观察一段时间，然后再正式决定。从各个分配
方案的人员中，按随机原则抽取一定的人员，登记
一个月的销售量（单位：万元），具体资料如表所
示：
试在显著性水平α=0.05的要求下，分析不同的分配方
法是否会对产品销售量有影响。
解：已知 r=3 n1 =6 n2= 9
n3=5
不完全相等
H 0 : 1   2   3 H1 : 1 ,  2 ,  3
X 1 
1030
 171.67
6
3
S2 
b
X 2 
1020
 113.33
9
X 3 
762
 152.4
5
nj

3
( X . j  X .. ) 2
2 
Sw
j 1 i 1
 6(171.67  140.6) 2  9(113.33  140.6) 2  5(152.4  140.6) 2
 13181.15
S2 r 1
b
r
F=
2
Sw
X  

(n j  1)
1030  1020  762
 140.6
695
nj

( X ij  X . j ) 2
j 1 i 1
 13581.335  3664  6707.2
 23952.5
13181.15
2

 4.68
23952.5
(5  8  4)
j 1
α=0.05，F0.05 (2,17)=3.59，
F=4.68>3.59，拒绝原假设，说明不同分配方法对销售
人员的销售量有显著影响。
第三节两因素方差分析
一、无重复两因素方差分析
1、分析框架
 X ij   ij   ij ,

2

~
N
(
0
,

),
 ij
i  1,2,  r ,
j  1,2, , s
2、总离差平方和的分解
X ij  X   ( X i   X ..)  ( X  j  X  )  ( X ij  X i   X  j  X ..)
s
1
X i 
s

X ij
j 1
r
s

( X ij  X .. ) 2 
i 1 j 1
r


X ij
r
s
1
X  
rs
i 1

s

X ij
i 1 j 1
[( X i   X  ) ( X . j  X .. )  ( X ij  X i   X . j  X .. )] 2
i 1 j 1
s

r
( X i   X  ) 2 
i 1 j 1
r
s
r
r
1
X j 
r

i 1
s

r
( X . j  X .. ) 2 
i 1 j 1
s
( X i   X .. ) 2 r

j 1

( X ij  X i   X . j  X .. ) 2
i 1 j 1
r
( X . j  X .. ) 2 
s
s

i 1 j 1
( X ij  X i   X . j  X .. ) 2
令：
r
ST2 
s

( X ij  X .. ) 2
i 1 j 1
r
S2  s
A

( X i   X .. ) 2
i 1
s
2 r
SB

( X . j  X .. ) 2
j 1
r
2 
SE
s

i 1 j 1
( X ij  X i   X . j  X .. ) 2
3、样本统计量的分布
ST2
2
S2
A ~  2 (r  1)
2
~  2 (rs  1)
S E2

2
~  2[(r  1)(s  1)]
2
SA
FA 
2
SE
2
SE
~ F ((r  1), (r  1)( s  1))
(r  1)( s  1)
2
SB
FB 
(r  1)
(s  1)
~ F (( s  1), (r  1)( s  1))
(r  1)( s  1)
拒绝域
FA  F (( s  1), (r  1)( s  1))
2
SB
2
~  2 (s  1)
例：某水生植物研究所想确定植物养料处理和
水温处理对用作色拉的小型红色西红柿重量
（单位：克）的影响，得到的数据资料如表
所示：试在显著性水平0.05条件下，检验水
温和养料对西红柿的重量是否有显著性影响。
解：本例是无重复两因素方差分析，提出假设
为：
H0A:因素A对试验结果影响不显著
H1A :因素A对试验结果影响显著
H0B :因素B对试验结果影响不显著
H1B :因素B对试验结果影响显著
已知 r=4,s=3
X1 
60
 20
3
X 1 
53
 13.25
4
X 2 
45
 15
3
X 2 
X 3 
30
 10
3
51
 12.75
4
X 4 
21
7
3
X 3 
52
 13
4
X .. 
156
 13
12
2  4  0.125  0.5
SB
S 2  3  98  294
A
S2
A
FA 
2
SE
(r  1)
(r  1)( s  1)
2  302  294  0.5  7.5
SE
2
SB
294
3  78.4

7.5
3 2
FB 
2
SE
(s  1)
(r  1)( s  1)

ST2  302
0.5
7.5
2
 0.2
3 2
F0.05(3,6)=4.76，F0.05(2,6)=5.14
FA>>F0.05 (3,6)
6)=4.76, 拒绝原假设
FB<F0.05 (2,6)=5.14,接受原假设。
水温对西红柿重量的影响高度显著，而养料对
西红柿重量没有显著性影响。
二、等重复两因素方差分析
1、交互作用
2、分析框架
X ijk   ij   ijk ,
 ijk ~ N (  ij ,  2 ),
i  1,2, , r,
j  1,2, , s
 ijk 相互独立，
k  1,2,  , l
3、离差平方和的分解
X ijk  X ...  ( X i..  X ... )  ( X . j.  X ... )  ( X ijk  X ij. )  ( X ij.  X i..  X . j.  X ... )
r
s
l
 ( X
ijk
 X ... ) 2
i 1 j 1 k 1
r
 sl
(X
s
 X .. )  rl
2
i..
i 1
r
l
(X
r
 Xk ) 
2
. j.
j 1
s
l
 ( X
ijk
 X ij. ) 2
i 1 j 1 k 1
s
 ( X
ij.
 X i..  X . j.  X ... ) 2
i 1 j 1
s
1
X i.. 
sl
r
l

1
X . j. 
rl
X ijk
j 1 k 1
r
1
X 
rsl
s
l

i 1 j 1 k 1
X ijk
l

i 1 k 1
l
X ijk
1
X ij. 
l

k 1
X ijk
令：
r
S A2
 sl
( X
i..
 X)2
i 1
s
S B2
 rl
(X
. j.
 X)2
j 1
r
2
S AB
l
s

( X ij.  X i..  X . j.  X ... ) 2
i 1 j 1
r
2 
SE
s
l

i 1 j 1 k 1
( X ijk  X ij. ) 2
4、样本统计量的分布
FA 
2 (r  1)
SA
2 rs(l  1)
SE
FB 
~ F ((r  1), rs(l  1))
2 ( s  1)
SB
2 rs(l  1)
SE
FAB 
~ F (( s  1), rs(l  1))
2 (r  1)( s  1)
S AB
2 rs(l  1)
SE
~ F ((r  1)( s  1), rs(l  1))
例：为了研究3种不同的工艺方法和3种不同的
灯丝配方对灯泡寿命的影响，对每种水平组
合进行了两次试验，得到的数据如表所示。
试在显著性水平0.05条件下，分析工艺方法
和灯丝配方对灯泡寿命是否有显著影响。
解：本例属于等重复两因素方差分析，提出假
设
H0A ：因素A对试验结果影响不显著
H1A ：因素A对试验结果影响显著
H0B ：因素B对试验结果影响不显著
H1B ：因素B对试验结果影响显著
H0AB ：因素A与B搭配对试验结果影响不显著
H1AB ：因素A与B搭配对试验结果影响显著
已知 r=3,s =3,l =2
计算得：
2
SA
FA 
2
SE
2
SB
FB 
2
SE
(r  1)
6.24

5.36
rs(l  1)
( s  1)
rs(l  1)
5.36

3  3  (2  1)
14.04

(3  1)
(3  1)

3  3  (2  1)
3.12
 5.23
0.596
7.02
 11.78
0.596
2
S AB
FAB 
10.92
3.12
(r  1)( s  1)
2 2


 4.58
2
5.36
0.596
SE
3  3  (2  1)
rs(l  1)
F0.05 (4,9)  3.63
FA  F0.05 (2,9)
FAB  F0.05 (4,9)
F0.05 (2,9)  4.26
FB  F0.05 (2,9)

应用统计学

Transcript 应用统计学

Directory