因子分析

Transcript 因子分析

第四章
因子分析
 第一节
因子分析方法
 第二节因子分析模型
 第三节因子分析模型的解
 第四节方差最大正交旋转
 第五节因子得分
 推荐阅读
第一节因子分析方法
 因子分析概念起源于20世纪初Karl
Pearson 和Charles Spearmen等人关于
智力测验的统计分析。
 因子分析的基本思想是把每个研究变量
分解为几个影响因素变量，将每个原始
变量分解成两部分因素，一部分是由所
有变量共同具有的少数几个公共因子组
成的，另一部分是每个变量独自具有的
因素，即特殊因子。
 xi=∑aijfj+ei
第二节因子分析模型
一、因子分析模型
 X*:标准化后的数据，F：公共因子，E：特殊
因子
 假设x*、F、E满足这样一些性质：
(1)E(x*)=0 E(x)=0
(2)E(F)=0,cov(F)=I
(3)E(E)=0,cov(E)=∑，cov(ei,F)=0
x1*=a11F1+a12F2+…+a1mFm+e1
x2*=a21F1+a22F2+…+a2mFm+e2
…
xp*=ap1F1+ap2F2+…+apmFm+ep
X*=AF+E 或X*=F'A'+E

 其中X*=(x1*,x2*…,xp*)′,
F=(F1,F2,…,Fm) ′E=(e1,e2,…ep) ′
a11 a12 … a1p
A= a21 a22 … a2p
…
ap1 ap2 … app
A称为因子载荷矩阵或因子负荷矩阵
 二、因子载荷量的统计意义与性质
 1、因子载荷aij的统计意义
xi*=ai1F1+ai2F2+…+aimFm+ei
Cov(xi*,Fj)=cov(∑aikFk+ei,Fj)
=cov(∑aikFk,Fj)+cov(ei,Fj)
=aij
cov( xi *, F j )
r=aij
r
var( xi *)  var( F j )
 在各公共因子不相关的前提下，aij是xi*
与Fj的相关系数，表示xi*依赖于Fj的程度。
反映了第i个原有变量在第j个公共因子上
的相对重要性。因此， aij的绝对值越大，
则公共因子Fj与原有变量Xi的关系越强。
 2、变量共同度及其统计意义
 因子载荷阵中第
i行元素的平方和称为xi*
的共同度。
 h12=a112+a122+…+a1m2
 h22=a212+a222+…+a2m2


。。。
hp2=ap12+ap22+…+apm2
m
var(X i* )  var( aij F j  ei )
j 1
  aij2 var(F j )  var(ei )
  aij2   i2  hi2   i  1
hi2反映了全部公共因子对变量Xi*的影响，是全
部公共因子对变量方差所做出的贡献，或者说Xi*
对公共因子的共同依赖程度，称为公共因子对变
量Xi*的方差贡献。
Hi2接近于1，表明该变量的原始信息几乎都被
选取的公共因子说明了。
特殊因子的方差，反映了原有变量方差中无法
被公共因子描述的比例。

3、公共因子的方差贡献及其统计意义

g1=a112+a212+…+ap12

g2=a122+a222+…+ap22

…
gm=a1m2+a2m2+…+apm2
 表示第j个公共因子Fj对于X*的每一分量Xi*所提
供的方差的总和。称第j个公共因子的方差贡献。
 是衡量公共因子相对重要性的指标，gi越大，
表明公共因子Fj对X*的贡献越大，该因子的重
要程度越高

Fj的方差贡献率

gj
p
也是衡量公共因子相对重要性的另一指标。
4、正交因子载荷不具有唯一性
R  cov(X * )  E ( X *  E ( X * ))2
 E ( X * ) 2  E ( AF  E ) 2
 E (( AF ) 2  2 AFE  E 2 )
 E ( AF ) 2  2 E ( AFE)  E ( E 2 )
1
 ( AF )( AF )  E ( E 2 )
n
1
1
 A( F F ) A  E E
n
n
 AD( F ) A  D ( E )
 AA  
 但此公式并非唯一公式：
R  AA  
 AUU A    AU ( AU )  
 A* ( A* )  
 其中： UU  
I
 两个变量xk*与xl*的相关系数和协方差等
于因子载荷阵中第k行与第l行对应元素乘
积之和。
q
r ( X k* , X l* )  ak1al1  ak 2 al 2  ...  akqalq   aki ali
i 1
例1

某校对学生进行了测量语言能力和数学能力的六项考
试。考试成绩都化为标准分。假定x1*,x2*,x3* 是语言
能力的三项不同考试的标准分， x4*,x5*,x6*是数学能
力的三项不同的标准分。通过部分学生这六项考试成
绩，得到相关系数矩阵：
依此得出因子载荷矩阵：
 1
0.24

0.28
R
0.20
0.24

0.28


1


0.42 1

0.30 0.35 1


0.36 0.42 0.78 1

0.42 0.49 0.75 0.72 1
0.272 0.293 
0.409 0.439 


0.477 0.513 
A

0.926  0.179
0.848 0.031 


0.843 0.172 
x1*  0.272 f1  0.293 f 2  e1

据此可写出因子模型：
x2*  0.409 f1  0.439 f 2  e2
x3*  0.477 f1  0.513 f 2  e3
x4*  0.926 f1  0.179 f 2  e4
x5*  0.848 f1  0.031f 2  e5
x6*  0.843 f1  0.172 f 2  e6

还可求出各变量的共同度，各变量对应的特殊
因子方差，各公共因子方差贡献率以及两个公
共因子的累计方差贡献。
变量
X1*
X2*
X3*
X4*
X5*
X6*
方差贡献率
累计方差贡
献率
ai1
0.272
0.409
0.477
0.926
0.848
0.843
45.9%
45.9%
ai2
0.293
0.439
0.513
-0.179
0.031
0.172
10.1%
56%
共同度
0.16
0.36
0.49
0.89
0.72
0.74
56%
特殊因子方差
0.84
0.64
0.51
0.11
0.28
0.26
44%
因子变量的特点
 1、因子变量的数量远少于原有指标变量
的数量。
 2、因子变量是对原始变量的重新组构，
能够反映原有众多指标的绝大部分信息。
 3、因子变量之间没有线性相关关系，对
因子变量的分析能够为研究工作提供较
大的便利。
 4、因子变量具有命名解释性。
第三节因子分析模型的解
一、主因子法
 主因子法的基本思想是使用多元相关的平方作
为对公因子方差的初始估计。初始估计公因子
方差时多元相关系数的平方置于对角线上。这
些因子载荷用于估计新公因子方差，替换对角
线上前一次的公因子方差估计。这样的迭代持
续到，本次到下一次迭代结果公因子方差的变
化满足提取因子的收敛判据。

1、给出共同度hi2的初步估计值hi*2
以第i个变量xi*与其它所有变量x1*,x2*,…,xi1*,xi+1*,…,xp*回归的复相关系数的平方作为初
始估计值
 2、求出约化相关阵
 计算φi*=1-hi*2,再计算出R*=R- φ*
 3、求出特征根和特征向量
 由方程︱R*-λI︱=0求出，并利用特征根、特征
向量求出因子载荷阵A1
 4、求出φ的估计，用估计值代替第二步的φ*
 φ的估计： φ*（1）=R-A1A1′
 5、继续第三步，直到A， φ的估计达到稳定为
止

 例4.1
根据十四个国家的十个指标值，
求主因子解，建立因子分析模型。（数
据见spssex/ex401)
 例4.2 根据88个学生的力学、统计学等5
门功课开、闭卷考试的成绩，以因子分
析法了解5门功课成绩与开、闭卷因素的
关系。（数据见“开闭卷成绩”）

Principal components:主成分法
 Unweighted least square:不加权最小平方法
 Generalized least squares:普通最小平方法
 Maximum likelihood:最大似然法
 Principal axis factoring:主因子法
 Alpha factoring:α因子提取法
 Image factoring:映象因子提取法
 常用确定q的方法是按特征根由大至小的次序
抽取，直到 q
与 p h2 接近为止。
 *
i 1
i

i 1
i
 二、主成分分析法
( R  I )U  0  RU  U  R  UU 
R  1U1U1  2U 2U 2     pU pU p
 1U1 


2 U 2 

 1U1
2 U 2 
 pU p 
 


  p U p 
 BB  0


 主成分解
R

1U1
2 U 2 
 AA  
hˆi2  ai21  ai22    aiq2


q U q 



1U1 

2 U 2 
 

q U q 
 确定公共因子的个数有两种方法：一是
根据具体问题的专业理论来确定，二是
利用主成分分析中选取主成分个数的方
法
 例4.3
影响火柴销售量的主要指标有：
煤气、液化气户数、卷烟销售量、蚊香
销售量、打火石销售量。调查了某地区
从1963-1982年共20个年头的数据，进
行因子分析（数据见spssex/ex402）。
第四节方差最大正交旋转
因子旋转的目的：
使每个变量在尽可能少的因子上有比较高的
载荷，让某个变量在某个因子上的载荷趋于1，
而在其他因子上的载荷趋于0。
要求每一列上的载荷大部分为很小的值，每一行
中只有少量的最好只有一个较大的载荷值；每
两列中大载荷与小载荷的排列模式应该不同。
因子旋转的方法：
1.varimax:方差最大旋转。简化对因子的解释
2.direct oblimin:直接斜交旋转。允许因子之间具
有相关性。
3.quartmax:四次最大正交旋转。简化对变量的解
释
4.equamax:平均正交旋转。
5.promax:斜交旋转方法。
两因子的方差最大正交旋转
 a11 a12 
a

a
cos  sin  
21
22 

A
C

  
sin

cos





a p1 a p 2 
 a11 cos  a12 sin   a11 sin   a12 cos 


B  AC  



a p1 cos  a p 2 sin   a p1 sin   a p 2 cos 


 b11 b12 


   
b p1 b p 2 


这样做的目的是希望所得结果能使载荷矩阵的每
一列元素尽可能向1和0两极分化，即原始变量中
一部分主要与第一因子有关，另一部分主要与第
二因子有关，也就是要求（b112,…,bp12），
（b122,…,bp22）这两组的方差尽量大。
2
2
b   1
b 
1



   1,2






p i 1  h   p i 1 h 
G  V1  V2  max
G
0

D  2 AB / p
tg 4 
2
2
2
2




a j1
a j2
C  (A  B ) / p




j 




 hj   hj 
p
p
V 
p
2
i
2
i
p
2
i
2
i
A  j
j 1
p
B  vj
D  2  j v j
j 1
j 1
vj  2
a j 1a j 2
p
h 2j

C    2j  v 2j
j 1

多因子的方差最大正交旋转
如果公共因子多于2个，可以每次取2个因子，
m( m  1)
c 
全部配对旋转需要
次，全部旋转完毕
2
算一次循环，如果循环完毕得出的因子载荷阵
还没达到目的，则可以继续进行第二轮配对旋
转，。。。，如此不断重复旋转循可得V值的
一个升序列：V（1）≤V（2） ≤ V（3） ≤…
 实际应用中，经过若干次旋转之后，若相对方
差改变不大，则停止旋转。

2
m
第五节因子得分
 因子分析的数学模型是将变量表示为公
共因子的线性组合，由于公共因子能反
映原始变量的相关关系，用公共因子代
表原始变量时有时更有利于描述研究对
象的特征，因而往往需要反过来将公共
因子表示为变量的线性组合，即因子得
分函数，用它来计算每个样本的公共因
子得分。
 一、巴特莱特因子得分
 把一个个体的p个变量的取值X*当作因变
量，把求因子解中得到的A作为自变量数
据阵，对于这个个体在公因子上的取值 f，
当作未知参数，而特殊因子的取值看作
误差 e，于是得到如下的线性回归模型：
x*=Af+e，则称未知参数f为取值为X*的
因子得分
X *  Af  e

1
2

1
2

1
2
 X *   Af   e
1
其中：  ee
n


ˆf  A 1 A 1 A 1 X *
最小二乘法
 二、汤姆生因子得分
 将公共因子F用变量的线性组合来表示：
Fj  bj1x1 * bj 2 x2 *  bjp x p *  BX *
 B的最小二乘估计为：
1
BR A
 因子得分的估计为：
ˆf  X * R 1 A
因子分析的基本思路
 1、确认待分析的原有若干变量是否适合
作因子分析
 2、构造因子变量
 3、利用旋转方法使因子变量更具有可解
释性
 4、计算因子变量得分
 如果相关系数矩阵中大部分相关系数都
小于0.3且未通过统计检验，那么这些变
量就不适合做因子分析。
Bartlett test of sphericity
 H0:相关系数矩阵是一个单位阵
 如果统计量值比较大，且其相对应的相
伴概率值小于用户指定的显著性水平，
拒绝原假设，认为适合作因子分析。
 反之，接受原假设，不适合作因子分析。
反映象相关矩阵检验（Antiimage）
 由于偏相关系数是在控制了其他变量对
两变量影响的条件下，计算出来的净相
关系数，如果变量之间确实存在较强的
相互重叠传递影响，即如果变量中确实
能够提取出公共因子，那么控制了这此
影响后的偏相关系数必然很小，因此，
如果反映象相关矩阵中的有关元素的绝
对值比较大，则说明这些变量可能不适
合作因子分析
KMO检验
 KMO的取值在0和1之间，KMO越接近于
1，则越适合作因子分析
KMO 
2
r
 ij
i j
2
2
r

p
 ij  ij
i j
i j
推荐阅读
期刊名及期数
论文题目
数量经济技术经济研究
2003.10
影响中国上市公司融资
结构的主要因素分析
统计研究 2004.2
我国网络公司兼并活动
与盈利情况相关性的实
证研究

因子分析

Transcript 因子分析

Directory