ppt 第4章基本统计量的描述

Download Report

Transcript ppt 第4章基本统计量的描述

第四章 SPSS基本统计分析
一.
二.
三.
四.
五.
六.
频数分析
计算基本描述统计量
探索性数据分析
交叉分组下的频数分析(卡方检验)
多选项分析
比率分析
涉及的统计过程:
 “描述统计”的全部
 “比较均值”的均值过程
 “多重响应”过程
 用途:主要用来描述一个或多个变量的描
述性统计量以及分布特征,分析变量间的
关系。

统计基础:随机变量与概率分布
随机变量:有些变量在观察前事先不能确定
数值,但其取值又有一定规律性。
 概率(probability) :描述随机事件发生的规
律性、可能性。取值界于0和1之间。
 离散性随机变量:如击中次数,常用概率分
布列表示具体取值的概率。
 连续性随机变量:如身高、体重等变量,常
用概率分布密度函数表示某取值范围的概率。

概率分布密度函数
常见的概率分布曲线
描述数据分布形状的特征量
偏度g1:分布形状的左右对称性。g1 >0 ,
正偏态;g1 <0,负偏态
 峰度g2 :以正态分布为标准,描述分布峰
态的指标。g2 >0 ,尖峭峰;g2 <0,平阔
峰


正态性检验
一、频数分析
目的:粗略把握数据的分布特征
 功能:

 编制频数分布表:频数、百分比、累计百分比
 绘制频数分析中常用统计图:条图、饼图、直
方图
 计算基本描述统计量
基本操作:分析-描述统计-频率
 选项按钮:
 统计:选择输出统计量:集中、离散趋势、
分布特征、百分位数。
 图标:选择绘制的图形:条图、饼图、直
方图(仅用于定量变量)。
 格式:定义频数表输出格式

分析-描述统计-频率界面
统计选项


计算分位数
计算常用描述统计量
频数分布表格式定义
频数分析应用举例
储户的户口、职业(分类数据):使用频
数、百分比描述,累计百分比无太大意义。
 储户收入水平(定序数据):除使用频数、
百分比外,还有累计百分比。
 取款目的排名:频数分布表输出按频数降
序输出频数—格式—降序个数

 数据中若存在缺失值,使用有效百分比。

取款金额(定量数据)的分析
 不显示频数分析表
 统计
 图表:直方图

不同户口(城镇、农村)的人群取款目的分析:
首先做数据拆分,再进行频数分析
收入水平
户口
200
农村户口
100
城镇户口
0
300元以下
300~800元
800~1500元
1500元以上
收入水平
存(取)款金额
条图
饼图
200
Std. Dev = 10945.57
Mean = 4738.1
N = 282.00
0
0
0.
.0
00
00
10
0
0.
00
90
0
0.
00
80
0
0.
00
70
0
0.
00
60
0
0.
00
50
0
0.
00
40
0
0.
00
30
0
0.
00
20
0
0.
00
10
Frequency
100
存 (取 )款 金 额
直方图
二、计算基本描述统计量







目的:精确把握变量的总体分布状况。
基本操作:
描述统计-频率过程:统计
描述统计- 描述过程
描述统计- 探索过程
均值比较-均值 过程(分组显示)
用途:计算变量的集中趋势、离散趋势、偏度、
峰度等指标,绘制统计图。
几个过程的基本描述统计量比较
“探索”过程可计算分组或不分组的描述性统计量
几个过程的其他功能
描述统计- 描述 过程的独有功能
标准化变换
例:你能很快找到取款数目异常(>3σ)的储户吗?
均值比较-均值过程的独有功能
分层输
出结果
分组
输出
结果
三、探索性数据分析
基本操作:分析-描述统计- 探索过程
 目的:对数据进行初步考察
 用途:
 计算整体或分组数据的描述性统计指标
 输出描述性统计图:茎叶图、直方图、箱
式图
 正态性检验、方差齐性检验
 检查数据的错误,辨认奇异值

选项:缺失值处理
1、某观测在所选择的变量中有缺失值时,该观测不参与全
部分析
2、仅在与该变量有关的分析中视为缺失值
3、缺失值做为一个组别输出
绘制:1、输出图形:箱式图、茎叶图、直方图
2、正态性检验及图示
3、Levene方差齐性检验
例:居民储蓄调查
描述城乡居民存取款金额的差别
 检查存取款金额的奇异点和极端值
 对存取款金额进行正态性检验和方差齐性
检验,以便进一步选择分析方法。

Descriptives
存 (取 )款 金 额
户口
城 镇 户口
农 村 户口
Mean
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtos is
Mean
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtos is
Lower B ound
Upper Bound
Lower B ound
Upper Bound
Statis tic
2687.20
1930.02
Std. Error
384.216
3444.38
1692.35
900.00
3.3E+07
5737.566
3
50250
50247
2300.00
4.570
26.996
1944.97
98.41
.163
.324
929.327
3791.52
666.69
500.00
7.8E+07
8816.366
1
80502
80501
902.50
8.311
73.134
.254
.503
箱式图是在剔除了变量的极端值、奇异点后计算统计量并绘
制的。中间的黑粗线为中位数,红框为四分位间距的范围,
上下两个细线为最大、最小值。
四、交叉分组下的频数分析
目的:掌握多变量的联合分布特征,分析
变量间的关系。
 功能:
 产生描述多变量联合分布的列联表
 比较两个(或以上)样本率或比例差异
(卡方检验)
 变量间的关联度分析

1、变量关系概述

变量间的关系:有关与无关。
 有关:如果一个变量的取值发生变化,另外一个
变量的取值也相应发生变化
 无关:如果一个变量的变化不引起另一个变量的
变化。
性别与四级英语考试通过率的相关统计
1 通过考试
自变量
2 未通过考试
1 男性
40%
60%
2 女性
40%
60%
总计
40%
60%
因变量
表述:结果显示,当性别取值不同时,通过率变量的
取值并未发生变化,因此性别与考试通过率无关。
自变量的不同取值在因变量上无差异,两变量无关。
自变量的不同取值在因变量上有差异,两变量有关。
每月工资平均数
N
1 男性
752.40
452
2 女性
601.97
409
总计
680.95
861
因变量
自变量
表述:统计结果显示,当性别取值不同时,收入变
量的取值发生了变化,因此性别与月收入有关。
2、双变量关系的统计类型
定类
定序
定距
定类
列联
定序
列联
定距
方差分析(分组平均数)
列联
积差相关
积差相关
积矩相关
积矩相关
回归
列联表的格式
列联分析——行列变量间的关系
两变量是否相互独立。
 两变量是否有共变趋势。
 一变量的变化多大程度上能由另一变量的
变化来解释。

卡方测量的原理:
卡方测量用来考察两变量是否独立(无关)。
其原理是根据这一概率定理:若两变量无关,则
两变量中联合事件发生的概率应等于各自独立发
生的概率乘积。
Pij  Pi.  P. j
在列联表中,这一定理就具体转化为:若两变量无
关,则两变量中条件概率应等于各自边缘概率的乘
积。反之,则两变量有关,或两变量不独立。
由此可见,期望值与观察值的差距越大,说明两变
量越不独立,也就越相关。因此, Pearson卡方的
表达式如下:
 2  
( f ijo  f ije ) 2
当为四格表时,
f ije
RT  CT
fe 
n
2
(
ad

bc
)
n
2
 
(a  b)(c  d )(a  c)(b  d )
卡方的取值在0~∞之间。卡方值越大,行列变量的
关联性越强。
列联表的产生:
分析-描述统计-交叉表
界面说明
【行】:用于选择行*列表中的行变量。
 【列】:用于选择行*列表中的列变量。
 【层】:层变量。
 【显示复式条形图】:显示复式条图。
 【取消表格】:不输出行*列表。
 【精确】:针对2*2以上的行*列表设定计算
确切概率的方法。
注:安装SPSS时除非特别选定,否则“精确”
模块一般不安装。

列联表所研究的问题

城镇和农村的储户收入水平状况相同吗?
 行变量:户口
 列变量:收入水平

不同班级的患病情况一致吗?
 行变量:班级
 列变量:患病

城乡储户认为存钱合算的比例是否相同?
 行变量:户口
 列变量:什么合算
回答不同班级患病是否相同的问题,需要引入卡方检验。
1、卡方检验步骤




提出假设H0:行、列变量独立(对立假设为?)
计算检验统计量(卡方统计量服从(r-1)*(c-1)个自
由度的卡方分布)
确定检验水平与界值
结果判断:查界值表、看P值大小
卡方检验操作:统计量选项

【单元格】:用于定义列联表单元格中需
要计算的指标:
 计数:是否输出实际观察数和理论数;
 百分比:是否输出行百分数、列百分数以及合
计百分数;
 残差:选择残差的显示方式;

【格式】:用于选择行变量是升序还是降
序排列。
结果:城乡储户的收入水平没有明显差异。
Pearson卡方值的影响因素
实际频数与期望频数之差
 期望频数的大小
 列联表的单元格子数
 样本量大小

2、卡方检验的校正
A.
B.
C.
自由度为1时,期望频数均大于5 :连续
性校正
20%的单元格期望频数小于5:似然比卡
方检验
T<5 and n<40或 T<1时:确切概率法
3、行列变量的关联度分析
该关联度类似于参数检验中相关系数的含
义,取值多在(-1,1)区间
 可描述行列变量的关联强度,多数是对
Pearson卡方测量值进行的修正。
 为两变量相关研究中的非参数方法,卡方
检验中的关联度分析不太常用。

3.1、两定类变量的关联度



列联系数:取值0~1,其
取值随着行列数的增加而
增大
Phi系数:取值-1~1,适
用于四格表,对样本量进
行了修正
V系数:取值0~1,对样
本量和行列数进行修正;四
格表时,等于Phi系数
C

V
2
2  n
A11 A22  A12 A21
R1R2C1C2
2
n  min[(R  1)(C  1)]
3.2、两定序变量的关联度




同序对数(P)、异序对数(Q) :当一个变量为升序排
列时,另一变量序列中有后面的一个变量值大于前面的一
个变量值,则记为一个同序对;否则为异序对。
Kendall’s tau-b: 行列数相等时
2 min[R, C ](P  Q)
Kendall’s tau-c: 任意列联表
c  2
N (min[R, C ]  1)
Gamma系数:四格表检验
b 
P Q
( P  Q  Tx)(P  Q  Tx)
 
P Q
PQ
3.3、其他关联度
一个定类变量,一个定距变量的关联度:
Eta系数,类似方差分析的非参数检验
 两定距变量(或定序变量)的关联度:相
关(Correlations):计算Pearson和
Spearman相关系数

4、配对计数资料的卡方检验
例子:海尔公司的市场调查数据:对每个
消费者调查两个问题:1、是否购买过海尔
冰箱(是、否) ?2、是否购买过海尔洗衣机
(是、否) ?
 问1:海尔冰箱和洗衣机的购买率是否有差
别?
 问2:每位消费者对海尔冰箱和洗衣机的购
买一致性程度如何?

4、配对计数资料的卡方检验

McNemar:配对计数资料的卡方检验。零假设
2
(
b

c

1
)
为两变量的阳性率无差别
2 
bc




Kappa一致性检验:系数取值-1~1。测量同
一观测对象在两变量(两变量服从二项分布)
上取值的一致性程度。其绝对值越接近1,说明
一致性程度越高。一般来说:
系数>=0.7,一致性程度较高;
0.4~0.7,一致性程度一般;
<0.4,一致性较弱
五、多选项分析


1.
目的:解决问卷设计中的多选项问题的分
析
多选项分析步骤:
先将多选项问题分解,分解方法(是否丢
失信息、是否易于分析):
二分法:把每个选项均转为二分类变量
 有序分类法:把该问题按顺序转为多个问题

2.
再进行频数分析
例子:高考志愿调查
请按顺序选择你想报考的三所大学
① 北大
② 清华
③ 人大
④ 北师大
⑤ 北京理工大学
⑥ 北外
第一
第二
第三
。

二分法分解
你报考北大吗?1、是 2、否
 你报考清华吗?1、是 2、否
 你报考北师大吗?1、是 2、否
 你报考北外吗?1、是 2、否
 你报考人大吗?1、是 2、否
 你报考北理工吗?1、是 2、否

有序分类法分解
志愿一:1~6
 志愿二:1~6
 志愿三:1~6

有序分类法较优。
另一个例子:您有过下列症状吗(可多选)?
A.失眠、B.多梦、C.情绪低落、D.记忆力减退
如何分解?
SPSS的多选项分析

基本操作:分析—多重响应—定义变量集, 定义多
选项
多选项频数分析
基本操作:分析—多重响应—频率,多
选项频数分析
 例:对居民储蓄调查数据,指定目的一、
目的二、目的三为多选项变量集后,选
择频数分析后,SPSS自动汇总各种目
的的频数表
 如对不同年龄段的居民储蓄目的分析,
可选择多选项的交叉表分析,分析不同
年龄人群的储蓄目的

六、比率分析


目的:对两变量间的比率关系进行简单或分组描
述分析。
特点:除基本描述统计量外,还有
 加权比率均值:加权比率均值,是两变量均值的比。
 AAD:平均绝对离差;
 COD:离散系数;
 PRD:相关价格微分,是比率均值与加权比率均值的
比;
 COV:基于均值或中位数的变异系数
 Ri  R
 Ri  M
AAD 
N
COD 
(
N
M
)
 (R  M )
i
COV 
N
M
2
基本操作:描述统计- 比率 过程