SPSS使用技巧

Download Report

Transcript SPSS使用技巧

讲座:SPSS使用方法
吴志强
信息管理学院
[email protected]
关于SPSS


SPSS原意为Statistical Package for the
Social Sciences,即“社会科学统计软件
包”。
随着SPSS产品服务领域的扩大和服务深
度的增加,SPSS公司于2000年将英文全
称更改为Statistical Product and Service
Solutions,意为“统计产品与服务解决
方案”。
社会科学研究中的统计

数据的描述性统计





频次分布
集中趋势:平均数、众数、中位数等;
离散趋势:方差和标准差、极差等;
数据分析
数据预测
一、SPSS常用菜单的功能




Data菜单:对数据进行排序、转置以及
观测记录的选择;
Transform菜单:数据转换功能,常用的
有Compute、Recode以及Count。
Analyze菜单:各种统计分析。
Graphs菜单:制图工具。
二、SPSS的数据管理



常用的功能有:
数据转换;
数据聚合。
1.数据转换-Compute


对数据进行规律性的整理和计算。
步骤:




Transform->Compute
If条件的设置
新变量设定
示例说明
2.数据转换-Recode


对数据按分段模式转换,如:把数据中的年龄转换为年龄段。
步骤:





Transform->Recode
选择需要转换的变量,并设置转换后的变量;
设置旧变量转换为新变量的条件;
运行OK即可。
示例
3.数据聚合-Aggregate


把数据按照某一变量进行分类汇总。
步骤:







Data->aggregate
选定分类变量到Break Variables框
选定聚合变量到Aggregate Variables框
Function设置聚合函数
选择创建新文件
运行OK即可
示例
示例: Recode和Aggregate的
组合使用
三、数据的描述统计

包括:



频数分析
均值
标准差
数据的集中趋势统计量

频数:各个组内含个体的个数
 平均数(均值):X 
1
X

n

众数:频数出现最多的变量值

中位数:第50个百分位数点上的值
1.频数

SPSS操作:





打开数据文件,执行Analyze->Descriptive
Statistics->Frequencies.
选择分析变量
Statistics按钮设置频数
Charts设置直方图以及正态曲线
OK即可。
2.平均数与标准差

SPSS操作:




打开数据文件,执行Analyze->Descriptive
Statistics-> Descriptive.
选择分析变量
Option按钮设置统计量
OK即可。
数据的离散趋势统计量

方差和标准差
S


2

1
2
(
X

X
)
;S 

n 1
s
2
极差:最大值与最小值之间的距离
四分位数差:第25、50、75个百分位
数点之间的距离
3.分组求均值


对数据分组描述,可以输出分组数据的
均值、标准差、极值等,即对数据进行
多层分类汇总。
SPSS操作


Analyze->Compare Means->Means.
示例:求不同性别的人在各工资段上的
平均值。
4.数据探测(Explore)


计算描述统计量,通过各类统计图等描
述数据的分布类型。
SPSS: Analyze->Descriptive Statistics> Explore。
5.交互分析


目的:描述同一组样本中不同变量之间
是否存在显著联系。
SPSS: Analyze->Descriptive Statistics> Crosstabs.




Rows 和columns
Chi-Square, Phi and Cramer’s V
row
示例:性别与工资的联系。
交互分析的结果


卡方检验。P<0.05,则拒绝0假设,变量
之间具有显著联系。
Phi值反应变量之间的关系强度,0.5表示
高,0.3表示一般,0.1表示低。
四、SPSS数据的推断性统计分析



T检验
方差分析
……
1. T检验


T检验的目的是检验两个样本中存在的差异在
总体中是否也同样存在。
T检验的先决条件是:





两个样本是随机取样的;
被比较的变量属于区间或比率等级;
样本的抽样分布呈正态分布。
T检验是0假设,即两者之间不存在差异。
T检验的结果:如果在置信度为95%下,显著
性水平>0.05,则接受假设;如果<0.05,拒绝
假设。
T检验的SPSS操作

Analyze->Compare Means>Independent T Test.
确定T检验的变量;
确定T检验的分组变量。
Ok即可。

示例:不同性别工资差异的T检验。



2.方差分析

分析变量之间是否存在相关性。


例如:人的年龄是否受到地域的影响。不同
地域的人的年龄,其平均年龄是否存在差异。
要求:因变量在影响因素的各个水平上
的分布必须服从正态分布。
方差分析的原理—以单因素分
析为例


假定H0:在某一自变量下的不同水平下,
总体均值μ没有差异。
将原始数据按照自变量的水平不同随机
分成c个组,然后进行分析:


如果组内差异大而组间差异下,则说明两个
变量之间没有什么关联性;
如果组间差异大而组内差异小,则说明两个
变量之间有某种关联性。
例子:人年龄与地域之间是否
存在关联性

要解决的问题:





他们之间是否存在关联性?
如果有,则:
不同地域对人年龄的影响程度如何?
哪些地域对人的年龄的影响明显?
哪些地域对人年龄的影响最不明显?
解题步骤

1)原始数据按地域随机抽样。结果如下
表:
地域1
82
81
82
82
83
X =82
1
地域2
79
80
80
81
80
X =80
2
地域3
83
84
83
85
85
X =84
3
解题步骤


2)假定:
由于三个样本取自同一总体,因而其均值μ相
同。但各自的 有差异。因此
X
1


假设H0: μ1= μ2= μ3
(含义:地域对人的年龄没有影响,其本身的
样本均值与总体均值不同是由于抽样的波动引
起的。)
解题步骤

3)求组间变差与联合方差
组间样本总平均值: X  1  X  1 (82  80  82)  82
c
3
2
1
2
组间样本总方差: S X  c  1  ( X  X )  4
 ( X 1 X 1)  ...   ( X c  X c)

2
联合方差:
S
2
p
c(n  1)
2

2
3
解题步骤


4). F检验:
如果Ho为真,F比值将围绕着1波动;如果Ho不真,F值将倾向于比1大
很多。
2
nS X
5 4
F 

 30
1)F值:
2
2
Sp
3
2)F的自由度
分子自由度:df1=c-1=3-1=2
分母自由度:df2=c(n-1)=3(5-1)=12
3)用F分布表查Ho的概值。其概值远远小于0.001,
趋近于0。
Ho的概值小于0.05( μ 的显著水平),拒绝Ho。
解题步骤



5)对方差的方差齐性检验
该检验是对自变量不同水平下各观测变量总体
方差是否相等进行检验。因为方差分析的前提
是“自变量不同水平下观测变量总体方差无显
著差异”。
分析过程:用t检验,首先分析p值(概值)是
否大于a(=0.05),如果大于,方差无显著差异;
然后,比较两个总体均值的t检验结果,如果t
统计量对应的两端的概率p值大于a,无显著差
异,如果小于,则有显著差异。
解题步骤



6). 多重比较检验
确定自变量的不同水平对观测变量的影
响程度。
这种检验比较复杂,方法也很多,其中
LSD敏感性最强。
结果

总体描述及95%置信区间
Descriptives
Æ«ÏòÐÔ
N
comÓòÃû
地域1
eduÓòÃû
地域2
govÓòÃû
地域3
Total
5
5
5
15
Mean
Std. Deviation Std. Error
82.0000
.70711
.31623
80.0000
.70711
.31623
84.0000
1.00000
.44721
82.0000
1.85164
.47809
95% Confidence Interval for
Mean
Lower Bound Upper Bound
81.1220
82.8780
79.1220
80.8780
82.7583
85.2417
80.9746
83.0254
Minimum
81.00
79.00
83.00
79.00
Maximum
83.00
81.00
85.00
85.00
检验结果


1)概值趋近于0,小于0.05,拒绝Ho,不同地
域下人的年龄有显著差异。
2)回归的概值为0.002,地域与人的年龄之间
不是零线性相关。
ANOVA
Æ«ÏòÐÔ
Between
Groups
Within Groups
Total
(Combined)
Linear Term
Contrast
Deviation
Sum of
Squares
40.000
10.000
df
2
1
Mean Square
20.000
10.000
F
30.000
15.000
Sig.
.000
.002
30.000
1
30.000
45.000
.000
8.000
48.000
12
14
.667
1). 单因素方差分析

Analyze->Compare Means-On Way ANOVA.





Dependent list选择因变量;Factor选择自变量。
posHoc选择R-E-G-W Q和Tukey。
Option选择Describtive和Homogeneity of V test.
结果:如果Post Hoc Tests检验中p<0.05,
则具有显著差异。
例子:职务与工资的方差分析。
2).多因素方差分析

SPSS: Analyze->General Linear Model>Univariate.



Dependent Variable, Fixed Factors.
Options选择Descriptive St.
例子:职务、性别与工资的方差分析。
3.卡方检验




目的:检验样本中自变量与应变量之间
的关系在总体中是否存在。
0假设:自变量与应变量之间的关系在总
体中不存在。
结论:如果p>0.05,拒绝0假设。
卡方检验要求自变量与因变量都是分隔
变量。
卡方检验的SPSS操作

SPSS: Analyze->Descriptive Statistics> Crosstabs.



Rows 和columns
Chi-Square
Ok.
五、 SPSS数据的预测分析



线性回归
对数回归
……
关于回归分析

回归分析是社会研究中进行定量分析的基
本方法,主要解决3个方面的问题:



①确定几个变量间是否存在相关关系;若存
在,则找出它们之间合适的数学表达式。
②据一个或几个变量值,预测或控制另一个
或几个变量的值,且要知道这种控制或预测
可达何种精确度。
③进行因素分析,即在共同影响一个变量的
多个变量(因素)间,找出主要和次要因素
及其相互关系。
变量之间的两种关系

确定性关系


问题1:正方形的面积y与正方形的边长x之
间的函数关系是y = x2。--确定性关系
非确定性关系--相关关系

问题2:某水田水稻产量y与施肥量x之间是
否有一个确定性的关系?
相关关系的回归分析

对具有相关关系的两个变量进行统计分
析的方法叫回归分析。

注:自变量取值一定时,因变量的取值带有
一定随机性的两个变量之间的关系叫做相关
关系。
现实生活中的相关关系




人的身高与年龄;
产品的成本与生产数量;
商品的销售额与广告费;
家庭的支出与收入。
回归方程



对具有相关关系的现象,选择一适当的数学关
系式,用以说明一个或一组变量变动时,另一
变量或一组变量平均变动的情况,这种关系式
称为回归方程。
如果所择关系式是线性的,就称为线性回归分
析;反之,则称为非线性回归分析。
线性回归是回归分析的基本模型,很多复杂的
情况都是转化为线性回归进行处理。
线性回归分析--最小二乘法
ˆ  aˆ
ˆy  bx
n
n

 (x i -x)(yi -y)
 x i yi -nxy

 b̂= i=1
i=1
=
,

n
n
2
2 -nx 2

(x
-x)
x

 i
i

i=1
i=1

ˆ
â=y-bx.

1 n
1 n
其中x=
 x i ,y=
 yi .
n i=1
n i=1
例子:大学生身高与体重的关系

编号
从某大学中随机选出8名大学生,其身高和
体重数据如下表:
1
2
身高 165 165
体重
48
57
3
4
5
6
7
8
157 170 175
165 155 170
50
61
54
64
求大学生的身高与体重的回归方程。
43
59
结果
回归方程:
yˆ  0.849 x  85.172
相关系数



 r=






n
 (x i -x)(yi -y)
i=1
n
n
2
2
(x
-x)

(y
-y)


i
i
i=1
i=1
r>0正相关;r<0负相关。
通常,r>0.75,认为两个变量有很强的相
关性。
本例中,由上面公式r=0.798>0.75.
1.利用SPSS求线性回归

SPSS:Analyze->Regression->Linear.

因变量dependent和自变量Idependent
OK即可。

示例:工作年限与工资水平的线性回归。

线性回归的结果



Model Summary:R方用来解释应变量中
有多少可以被自变量所解释。
ANOVA方差分析:判断回归模型是否有
统计学意义。如果P<0.05,具有意义。
Coefficients:具体的数学模型y=a+bx。
Coefficientsa
Model
1
Uns tandardized
Coefficients
B
Std. Error
(Cons tant)
22843.324
6362.214
Months since Hire
142.723
77.844
a. Dependent Variable: Current Salary
Standardized
Coefficients
Beta
.084
t
3.590
1.833
Sig.
.000
.067
2.利用SPSS求对数回归




非线性回归。
通常用来求应变量是分隔变量的回归模
型,而且要求应变量只有两个值,因此
需要对变量进行重新编码。
SPSS:Analyze-> Regression-Binary
Logistic.
示例:职务与工资之间的对数回归模型。
SPSS的使用心得



要掌握统计学的基本知识;
使用SPSS之前要先对数据进行宏观把握;
要根据数据以及分析思路选择合适的
SPSS命令。