赵健-列联分析.ppt

Download Report

Transcript 赵健-列联分析.ppt

统 计 学
授课教师:赵健
黄淮学院经济管理系
第九章 列联分析
上节内容回顾
 分类数据
性别 (男, 女)、你吸烟吗?(是,否)
 分类数据的描述用列联表
 分类数据的分析检验
2 
r
c
( f ij  e ij ) 2
i 1
j 1
e ij

观察频数fij
期望频数eij
(R-1)(C-1)
自由度不同的 
2
分布
n=1
n=4
n=10
n=20

本章内容
1
拟合优度检验
2
独立性检验
3
列联表中的相关性测度
4
利用SPSS进行相应分析
拟合优度检验
导入案例

1912年4月15日,载着1316名乘客和892名船员的豪华巨轮“泰坦
尼克号”与冰山相撞而沉没,这场海难被认为是20世纪人类十大
灾难之一。

悲剧发生时,泰坦尼克号上一片混乱,在危急之中,人类本性中
的善良与丑恶、高贵与卑劣更加分明

。
2208人中,按性别划分,男性1738人,女性470人;按年龄划分
,成人2099人,儿童109人;按所在舱位划分,一等舱325人,二
等舱285人,三等舱706人,船员舱892人;
导入案例

事故发生后幸存的718人中,按性别划分,男性374人,女性344人
;按年龄划分,成人661人,儿童57人;按所在舱位划分,一等舱
203人,二等舱118人,三等舱178人,船员舱219人…….

数据是枯燥的,问题却是鲜活的:死亡与性别是否有关?与年龄
是否有关?与坐在舱位是否有关?

如何解释这些关系?与当时人们的价值观念和对待死亡的态度有
什么联系?
【例】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时
船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存
者共718人,其中男性374人,女性344人,以α=0.1的显著性水平检
验存活状况与性别是否有关。
海难前
海难后
男
1738
374
女
470
344
合计
2208
718
观测值
期望值
男
374
565
女
344
153
H0:观察频数与期望频数一致(无关)
H1:观察频数与期望频数不一致(有关)
f0  fe
观测值 f 0 期望值 f e
 f0 
fe 
2
 f0 
fe 
fe
男
374
565
-191
36481
64.6
女
344
153
191
36481
238.4
 =
2
 f0 
fe
fe 
2
 303
2
自由度:分类变量类型的个数-1=1
α=0.1
拒绝域
2
2.705
 2  303
决策:拒绝H0
结论:有证据表明存活状况与性别显著相关
拟合优度检验步骤
1.检验实际频数与期望频数是否相等
2.检验的步骤
 提出假设

H0:1 = 2 = … = j;H1:
计算检验的统计量
2 
进行决策
1
, 2 , … , j 不全相等
r
c
( f ij  eij ) 2
i 1
j 1
eij

根据显著性水平和自由度(r-1)(c-1)查出临界值2
若2>2,拒绝H0;若2<2,接受H0
【例】一项统计结果声称,某市老年人口所占比例为
14.7%,该市老年人口研究会为了检验该项统计是否
可靠,随机抽选了400名居民,发现其中有57人老年
人。调查结果是否支持14.7%的看法?
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
观测值 f 0 期望值 f e f 0  f e  f 0  f e 
2
 f0 
fe 
2
fe
老年人
57
59
-2
4
0.0678
非老年
人
343
341
2
4
0.0117
 =
2
 f0 
fe
fe 
2
 0.0795
自由度:分类变量类型的个数-1=1
α=0.05
拒绝域
3.8415
 2  0.0795
决策:接受H0
结论:调查结果支持该项统计结论

独立性检验
观察值的分布(图示)
行边缘分布
条件频数
一分公司
二分公司
三分公司
四分公司
合计
赞成该方案
68
75
57
79
279
反对该方案
32
45
33
31
141
合计
100
120
90
110
420
列边缘分布
期望频数的分布
1. 假定行变量和列变量是独立的
2. 一个实际频数 fij 的期望频数 eij ,是总频数的个数 n 乘以该
实际频数 fij 落入第 i 行 和第j列的概率,即
 ri   c j
eij  n     
n  n
 ri c j
 
n

由于观察频数的总数为n ,所以f11 的期望频数 e11 应为
r
e11  n   1
n
279  100
  c1  r1 c1



 66.43  66
  
n
420
  n
期望频数的分布 (例题分析)
赞成该
方案
反对该
方案
一分公司
二分公司
三分公司
四分公司
实际频数
68
75
57
79
期望频数
66
80
60
73
实际频数
32
45
33
31
期望频数
34
40
30
37

实际频数
期望频数
(fij)
(eij)
68
75
57
79
32
45
33
31
66
80
60
73
34
40
30
37
统计量(例题分析)
fij - eij
2
-5
-3
6
-2
5
3
-6
(fij - eij
4
25
9
36
4
25
9
36
)2
(fij- eij)2
eij
0.0606
0.3125
0.1500
0.4932
0.1176
0.6250
0.3000
0.9730
合计:3.0319
( f  e) 2
 
e
 3.0319
2
独立性检验(例题分析)
H0: 1= 2= 3= 4
H1: 1,2,3,4 不全相等
 = 0.1
df = (2-1)(4-1)= 3
临界值(s):
 =0.1
0
3.0319 6.251
2

统计量:

2

r
c
( f ij  eij ) 2
j 1
eij

i 1
 3.0319
决策:
 在  = 0.1的水平上不能拒绝H0
结论:
可以认为四个分公司对改革方案的赞成比
例是一致的
本讲课程结束
黄淮学院经济管理