Transcript 赵健-列联分析.ppt
统 计 学
授课教师:赵健
黄淮学院经济管理系
第九章 列联分析
上节内容回顾
分类数据
性别 (男, 女)、你吸烟吗?(是,否)
分类数据的描述用列联表
分类数据的分析检验
2
r
c
( f ij e ij ) 2
i 1
j 1
e ij
观察频数fij
期望频数eij
(R-1)(C-1)
自由度不同的
2
分布
n=1
n=4
n=10
n=20
本章内容
1
拟合优度检验
2
独立性检验
3
列联表中的相关性测度
4
利用SPSS进行相应分析
拟合优度检验
导入案例
1912年4月15日,载着1316名乘客和892名船员的豪华巨轮“泰坦
尼克号”与冰山相撞而沉没,这场海难被认为是20世纪人类十大
灾难之一。
悲剧发生时,泰坦尼克号上一片混乱,在危急之中,人类本性中
的善良与丑恶、高贵与卑劣更加分明
。
2208人中,按性别划分,男性1738人,女性470人;按年龄划分
,成人2099人,儿童109人;按所在舱位划分,一等舱325人,二
等舱285人,三等舱706人,船员舱892人;
导入案例
事故发生后幸存的718人中,按性别划分,男性374人,女性344人
;按年龄划分,成人661人,儿童57人;按所在舱位划分,一等舱
203人,二等舱118人,三等舱178人,船员舱219人…….
数据是枯燥的,问题却是鲜活的:死亡与性别是否有关?与年龄
是否有关?与坐在舱位是否有关?
如何解释这些关系?与当时人们的价值观念和对待死亡的态度有
什么联系?
【例】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时
船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存
者共718人,其中男性374人,女性344人,以α=0.1的显著性水平检
验存活状况与性别是否有关。
海难前
海难后
男
1738
374
女
470
344
合计
2208
718
观测值
期望值
男
374
565
女
344
153
H0:观察频数与期望频数一致(无关)
H1:观察频数与期望频数不一致(有关)
f0 fe
观测值 f 0 期望值 f e
f0
fe
2
f0
fe
fe
男
374
565
-191
36481
64.6
女
344
153
191
36481
238.4
=
2
f0
fe
fe
2
303
2
自由度:分类变量类型的个数-1=1
α=0.1
拒绝域
2
2.705
2 303
决策:拒绝H0
结论:有证据表明存活状况与性别显著相关
拟合优度检验步骤
1.检验实际频数与期望频数是否相等
2.检验的步骤
提出假设
H0:1 = 2 = … = j;H1:
计算检验的统计量
2
进行决策
1
, 2 , … , j 不全相等
r
c
( f ij eij ) 2
i 1
j 1
eij
根据显著性水平和自由度(r-1)(c-1)查出临界值2
若2>2,拒绝H0;若2<2,接受H0
【例】一项统计结果声称,某市老年人口所占比例为
14.7%,该市老年人口研究会为了检验该项统计是否
可靠,随机抽选了400名居民,发现其中有57人老年
人。调查结果是否支持14.7%的看法?
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
观测值 f 0 期望值 f e f 0 f e f 0 f e
2
f0
fe
2
fe
老年人
57
59
-2
4
0.0678
非老年
人
343
341
2
4
0.0117
=
2
f0
fe
fe
2
0.0795
自由度:分类变量类型的个数-1=1
α=0.05
拒绝域
3.8415
2 0.0795
决策:接受H0
结论:调查结果支持该项统计结论
独立性检验
观察值的分布(图示)
行边缘分布
条件频数
一分公司
二分公司
三分公司
四分公司
合计
赞成该方案
68
75
57
79
279
反对该方案
32
45
33
31
141
合计
100
120
90
110
420
列边缘分布
期望频数的分布
1. 假定行变量和列变量是独立的
2. 一个实际频数 fij 的期望频数 eij ,是总频数的个数 n 乘以该
实际频数 fij 落入第 i 行 和第j列的概率,即
ri c j
eij n
n n
ri c j
n
由于观察频数的总数为n ,所以f11 的期望频数 e11 应为
r
e11 n 1
n
279 100
c1 r1 c1
66.43 66
n
420
n
期望频数的分布 (例题分析)
赞成该
方案
反对该
方案
一分公司
二分公司
三分公司
四分公司
实际频数
68
75
57
79
期望频数
66
80
60
73
实际频数
32
45
33
31
期望频数
34
40
30
37
实际频数
期望频数
(fij)
(eij)
68
75
57
79
32
45
33
31
66
80
60
73
34
40
30
37
统计量(例题分析)
fij - eij
2
-5
-3
6
-2
5
3
-6
(fij - eij
4
25
9
36
4
25
9
36
)2
(fij- eij)2
eij
0.0606
0.3125
0.1500
0.4932
0.1176
0.6250
0.3000
0.9730
合计:3.0319
( f e) 2
e
3.0319
2
独立性检验(例题分析)
H0: 1= 2= 3= 4
H1: 1,2,3,4 不全相等
= 0.1
df = (2-1)(4-1)= 3
临界值(s):
=0.1
0
3.0319 6.251
2
统计量:
2
r
c
( f ij eij ) 2
j 1
eij
i 1
3.0319
决策:
在 = 0.1的水平上不能拒绝H0
结论:
可以认为四个分公司对改革方案的赞成比
例是一致的
本讲课程结束
黄淮学院经济管理