Transcript 因子分析
第四章
因子分析
第一节
因子分析方法
第二节 因子分析模型
第三节 因子分析模型的解
第四节 方差最大正交旋转
第五节 因子得分
推荐阅读
第一节 因子分析方法
因子分析概念起源于20世纪初Karl
Pearson 和Charles Spearmen等人关于
智力测验的统计分析。
因子分析的基本思想是把每个研究变量
分解为几个影响因素变量,将每个原始
变量分解成两部分因素,一部分是由所
有变量共同具有的少数几个公共因子组
成的,另一部分是每个变量独自具有的
因素,即特殊因子。
xi=∑aijfj+ei
第二节 因子分析模型
一、因子分析模型
X*:标准化后的数据,F:公共因子,E:特殊
因子
假设x*、F、E满足这样一些性质:
(1)E(x*)=0 E(x)=0
(2)E(F)=0,cov(F)=I
(3)E(E)=0,cov(E)=∑,cov(ei,F)=0
x1*=a11F1+a12F2+…+a1mFm+e1
x2*=a21F1+a22F2+…+a2mFm+e2
…
xp*=ap1F1+ap2F2+…+apmFm+ep
X*=AF+E 或X*=F'A'+E
其中X*=(x1*,x2*…,xp*)′,
F=(F1,F2,…,Fm) ′E=(e1,e2,…ep) ′
a11 a12 … a1p
A= a21 a22 … a2p
…
ap1 ap2 … app
A称为因子载荷矩阵或因子负荷矩阵
二、因子载荷量的统计意义与性质
1、因子载荷aij的统计意义
xi*=ai1F1+ai2F2+…+aimFm+ei
Cov(xi*,Fj)=cov(∑aikFk+ei,Fj)
=cov(∑aikFk,Fj)+cov(ei,Fj)
=aij
cov( xi *, F j )
r=aij
r
var( xi *) var( F j )
在各公共因子不相关的前提下,aij是xi*
与Fj的相关系数,表示xi*依赖于Fj的程度。
反映了第i个原有变量在第j个公共因子上
的相对重要性。因此, aij的绝对值越大,
则公共因子Fj与原有变量Xi的关系越强。
2、变量共同度及其统计意义
因子载荷阵中第
i行元素的平方和称为xi*
的共同度。
h12=a112+a122+…+a1m2
h22=a212+a222+…+a2m2
。。。
hp2=ap12+ap22+…+apm2
m
var(X i* ) var( aij F j ei )
j 1
aij2 var(F j ) var(ei )
aij2 i2 hi2 i 1
hi2反映了全部公共因子对变量Xi*的影响,是全
部公共因子对变量方差所做出的贡献,或者说Xi*
对公共因子的共同依赖程度,称为公共因子对变
量Xi*的方差贡献。
Hi2接近于1,表明该变量的原始信息几乎都被
选取的公共因子说明了。
特殊因子的方差,反映了原有变量方差中无法
被公共因子描述的比例。
3、公共因子的方差贡献及其统计意义
g1=a112+a212+…+ap12
g2=a122+a222+…+ap22
…
gm=a1m2+a2m2+…+apm2
表示第j个公共因子Fj对于X*的每一分量Xi*所提
供的方差的总和。称第j个公共因子的方差贡献。
是衡量公共因子相对重要性的指标,gi越大,
表明公共因子Fj对X*的贡献越大,该因子的重
要程度越高
Fj的方差贡献率
gj
p
也是衡量公共因子相对重要性的另一指标。
4、正交因子载荷不具有唯一性
R cov(X * ) E ( X * E ( X * ))2
E ( X * ) 2 E ( AF E ) 2
E (( AF ) 2 2 AFE E 2 )
E ( AF ) 2 2 E ( AFE) E ( E 2 )
1
( AF )( AF ) E ( E 2 )
n
1
1
A( F F ) A E E
n
n
AD( F ) A D ( E )
AA
但此公式并非唯一公式:
R AA
AUU A AU ( AU )
A* ( A* )
其中: UU
I
两个变量xk*与xl*的相关系数和协方差等
于因子载荷阵中第k行与第l行对应元素乘
积之和。
q
r ( X k* , X l* ) ak1al1 ak 2 al 2 ... akqalq aki ali
i 1
例1
某校对学生进行了测量语言能力和数学能力的六项考
试。考试成绩都化为标准分。假定x1*,x2*,x3* 是语言
能力的三项不同考试的标准分, x4*,x5*,x6*是数学能
力的三项不同的标准分。通过部分学生这六项考试成
绩,得到相关系数矩阵:
依此得出因子载荷矩阵:
1
0.24
0.28
R
0.20
0.24
0.28
1
0.42 1
0.30 0.35 1
0.36 0.42 0.78 1
0.42 0.49 0.75 0.72 1
0.272 0.293
0.409 0.439
0.477 0.513
A
0.926 0.179
0.848 0.031
0.843 0.172
x1* 0.272 f1 0.293 f 2 e1
据此可写出因子模型:
x2* 0.409 f1 0.439 f 2 e2
x3* 0.477 f1 0.513 f 2 e3
x4* 0.926 f1 0.179 f 2 e4
x5* 0.848 f1 0.031f 2 e5
x6* 0.843 f1 0.172 f 2 e6
还可求出各变量的共同度,各变量对应的特殊
因子方差,各公共因子方差贡献率以及两个公
共因子的累计方差贡献。
变量
X1*
X2*
X3*
X4*
X5*
X6*
方差贡献率
累计方差贡
献率
ai1
0.272
0.409
0.477
0.926
0.848
0.843
45.9%
45.9%
ai2
0.293
0.439
0.513
-0.179
0.031
0.172
10.1%
56%
共同度
0.16
0.36
0.49
0.89
0.72
0.74
56%
特殊因子方差
0.84
0.64
0.51
0.11
0.28
0.26
44%
因子变量的特点
1、因子变量的数量远少于原有指标变量
的数量。
2、因子变量是对原始变量的重新组构,
能够反映原有众多指标的绝大部分信息。
3、因子变量之间没有线性相关关系,对
因子变量的分析能够为研究工作提供较
大的便利。
4、因子变量具有命名解释性。
第三节 因子分析模型的解
一、主因子法
主因子法的基本思想是使用多元相关的平方作
为对公因子方差的初始估计。初始估计公因子
方差时多元相关系数的平方置于对角线上。这
些因子载荷用于估计新公因子方差,替换对角
线上前一次的公因子方差估计。这样的迭代持
续到,本次到下一次迭代结果公因子方差的变
化满足提取因子的收敛判据。
1、给出共同度hi2的初步估计值hi*2
以第i个变量xi*与其它所有变量x1*,x2*,…,xi1*,xi+1*,…,xp*回归的复相关系数的平方作为初
始估计值
2、求出约化相关阵
计算φi*=1-hi*2,再计算出R*=R- φ*
3、求出特征根和特征向量
由方程︱R*-λI︱=0求出,并利用特征根、特征
向量求出因子载荷阵A1
4、求出φ的估计,用估计值代替第二步的φ*
φ的估计: φ*(1)=R-A1A1′
5、继续第三步,直到A, φ的估计达到稳定为
止
例4.1
根据十四个国家的十个指标值,
求主因子解,建立因子分析模型。(数
据见spssex/ex401)
例4.2 根据88个学生的力学、统计学等5
门功课开、闭卷考试的成绩,以因子分
析法了解5门功课成绩与开、闭卷因素的
关系。(数据见“开闭卷成绩”)
Principal components:主成分法
Unweighted least square:不加权最小平方法
Generalized least squares:普通最小平方法
Maximum likelihood:最大似然法
Principal axis factoring:主因子法
Alpha factoring:α因子提取法
Image factoring:映象因子提取法
常用确定q的方法是按特征根由大至小的次序
抽取,直到 q
与 p h2 接近为止。
*
i 1
i
i 1
i
二、主成分分析法
( R I )U 0 RU U R UU
R 1U1U1 2U 2U 2 pU pU p
1U1
2 U 2
1U1
2 U 2
pU p
p U p
BB 0
主成分解
R
1U1
2 U 2
AA
hˆi2 ai21 ai22 aiq2
q U q
1U1
2 U 2
q U q
确定公共因子的个数有两种方法:一是
根据具体问题的专业理论来确定,二是
利用主成分分析中选取主成分个数的方
法
例4.3
影响火柴销售量的主要指标有:
煤气、液化气户数、卷烟销售量、蚊香
销售量、打火石销售量。调查了某地区
从1963-1982年共20个年头的数据,进
行因子分析(数据见spssex/ex402)。
第四节 方差最大正交旋转
因子旋转的目的:
使每个变量在尽可能少的因子上有比较高的
载荷,让某个变量在某个因子上的载荷趋于1,
而在其他因子上的载荷趋于0。
要求每一列上的载荷大部分为很小的值,每一行
中只有少量的最好只有一个较大的载荷值;每
两列中大载荷与小载荷的排列模式应该不同。
因子旋转的方法:
1.varimax:方差最大旋转。简化对因子的解释
2.direct oblimin:直接斜交旋转。允许因子之间具
有相关性。
3.quartmax:四次最大正交旋转。简化对变量的解
释
4.equamax:平均正交旋转。
5.promax:斜交旋转方法。
两因子的方差最大正交旋转
a11 a12
a
a
cos sin
21
22
A
C
sin
cos
a p1 a p 2
a11 cos a12 sin a11 sin a12 cos
B AC
a p1 cos a p 2 sin a p1 sin a p 2 cos
b11 b12
b p1 b p 2
这样做的目的是希望所得结果能使载荷矩阵的每
一列元素尽可能向1和0两极分化,即原始变量中
一部分主要与第一因子有关,另一部分主要与第
二因子有关,也就是要求(b112,…,bp12),
(b122,…,bp22)这两组的方差尽量大。
2
2
b 1
b
1
1,2
p i 1 h p i 1 h
G V1 V2 max
G
0
D 2 AB / p
tg 4
2
2
2
2
a j1
a j2
C (A B ) / p
j
hj hj
p
p
V
p
2
i
2
i
p
2
i
2
i
A j
j 1
p
B vj
D 2 j v j
j 1
j 1
vj 2
a j 1a j 2
p
h 2j
C 2j v 2j
j 1
多因子的方差最大正交旋转
如果公共因子多于2个,可以每次取2个因子,
m( m 1)
c
全部配对旋转需要
次,全部旋转完毕
2
算一次循环,如果循环完毕得出的因子载荷阵
还没达到目的,则可以继续进行第二轮配对旋
转,。。。,如此不断重复旋转循可得V值的
一个升序列:V(1)≤V(2) ≤ V(3) ≤…
实际应用中,经过若干次旋转之后,若相对方
差改变不大,则停止旋转。
2
m
第五节 因子得分
因子分析的数学模型是将变量表示为公
共因子的线性组合,由于公共因子能反
映原始变量的相关关系,用公共因子代
表原始变量时有时更有利于描述研究对
象的特征,因而往往需要反过来将公共
因子表示为变量的线性组合,即因子得
分函数,用它来计算每个样本的公共因
子得分。
一、巴特莱特因子得分
把一个个体的p个变量的取值X*当作因变
量,把求因子解中得到的A作为自变量数
据阵,对于这个个体在公因子上的取值 f,
当作未知参数,而特殊因子的取值看作
误差 e,于是得到如下的线性回归模型:
x*=Af+e,则称未知参数f为取值为X*的
因子得分
X * Af e
1
2
1
2
1
2
X * Af e
1
其中: ee
n
ˆf A 1 A 1 A 1 X *
最小二乘法
二、汤姆生因子得分
将公共因子F用变量的线性组合来表示:
Fj bj1x1 * bj 2 x2 * bjp x p * BX *
B的最小二乘估计为:
1
BR A
因子得分的估计为:
ˆf X * R 1 A
因子分析的基本思路
1、确认待分析的原有若干变量是否适合
作因子分析
2、构造因子变量
3、利用旋转方法使因子变量更具有可解
释性
4、计算因子变量得分
如果相关系数矩阵中大部分相关系数都
小于0.3且未通过统计检验,那么这些变
量就不适合做因子分析。
Bartlett test of sphericity
H0:相关系数矩阵是一个单位阵
如果统计量值比较大,且其相对应的相
伴概率值小于用户指定的显著性水平,
拒绝原假设,认为适合作因子分析。
反之,接受原假设,不适合作因子分析。
反映象相关矩阵检验(Antiimage)
由于偏相关系数是在控制了其他变量对
两变量影响的条件下,计算出来的净相
关系数,如果变量之间确实存在较强的
相互重叠传递影响,即如果变量中确实
能够提取出公共因子,那么控制了这此
影响后的偏相关系数必然很小,因此,
如果反映象相关矩阵中的有关元素的绝
对值比较大,则说明这些变量可能不适
合作因子分析
KMO检验
KMO的取值在0和1之间,KMO越接近于
1,则越适合作因子分析
KMO
2
r
ij
i j
2
2
r
p
ij ij
i j
i j
推荐阅读
期刊名及期数
论文题目
数量经济技术经济研究
2003.10
影响中国上市公司融资
结构的主要因素分析
统计研究 2004.2
我国网络公司兼并活动
与盈利情况相关性的实
证研究