Transcript 因子分析
第四章 因子分析 第一节 因子分析方法 第二节 因子分析模型 第三节 因子分析模型的解 第四节 方差最大正交旋转 第五节 因子得分 推荐阅读 第一节 因子分析方法 因子分析概念起源于20世纪初Karl Pearson 和Charles Spearmen等人关于 智力测验的统计分析。 因子分析的基本思想是把每个研究变量 分解为几个影响因素变量,将每个原始 变量分解成两部分因素,一部分是由所 有变量共同具有的少数几个公共因子组 成的,另一部分是每个变量独自具有的 因素,即特殊因子。 xi=∑aijfj+ei 第二节 因子分析模型 一、因子分析模型 X*:标准化后的数据,F:公共因子,E:特殊 因子 假设x*、F、E满足这样一些性质: (1)E(x*)=0 E(x)=0 (2)E(F)=0,cov(F)=I (3)E(E)=0,cov(E)=∑,cov(ei,F)=0 x1*=a11F1+a12F2+…+a1mFm+e1 x2*=a21F1+a22F2+…+a2mFm+e2 … xp*=ap1F1+ap2F2+…+apmFm+ep X*=AF+E 或X*=F'A'+E 其中X*=(x1*,x2*…,xp*)′, F=(F1,F2,…,Fm) ′E=(e1,e2,…ep) ′ a11 a12 … a1p A= a21 a22 … a2p … ap1 ap2 … app A称为因子载荷矩阵或因子负荷矩阵 二、因子载荷量的统计意义与性质 1、因子载荷aij的统计意义 xi*=ai1F1+ai2F2+…+aimFm+ei Cov(xi*,Fj)=cov(∑aikFk+ei,Fj) =cov(∑aikFk,Fj)+cov(ei,Fj) =aij cov( xi *, F j ) r=aij r var( xi *) var( F j ) 在各公共因子不相关的前提下,aij是xi* 与Fj的相关系数,表示xi*依赖于Fj的程度。 反映了第i个原有变量在第j个公共因子上 的相对重要性。因此, aij的绝对值越大, 则公共因子Fj与原有变量Xi的关系越强。 2、变量共同度及其统计意义 因子载荷阵中第 i行元素的平方和称为xi* 的共同度。 h12=a112+a122+…+a1m2 h22=a212+a222+…+a2m2 。。。 hp2=ap12+ap22+…+apm2 m var(X i* ) var( aij F j ei ) j 1 aij2 var(F j ) var(ei ) aij2 i2 hi2 i 1 hi2反映了全部公共因子对变量Xi*的影响,是全 部公共因子对变量方差所做出的贡献,或者说Xi* 对公共因子的共同依赖程度,称为公共因子对变 量Xi*的方差贡献。 Hi2接近于1,表明该变量的原始信息几乎都被 选取的公共因子说明了。 特殊因子的方差,反映了原有变量方差中无法 被公共因子描述的比例。 3、公共因子的方差贡献及其统计意义 g1=a112+a212+…+ap12 g2=a122+a222+…+ap22 … gm=a1m2+a2m2+…+apm2 表示第j个公共因子Fj对于X*的每一分量Xi*所提 供的方差的总和。称第j个公共因子的方差贡献。 是衡量公共因子相对重要性的指标,gi越大, 表明公共因子Fj对X*的贡献越大,该因子的重 要程度越高 Fj的方差贡献率 gj p 也是衡量公共因子相对重要性的另一指标。 4、正交因子载荷不具有唯一性 R cov(X * ) E ( X * E ( X * ))2 E ( X * ) 2 E ( AF E ) 2 E (( AF ) 2 2 AFE E 2 ) E ( AF ) 2 2 E ( AFE) E ( E 2 ) 1 ( AF )( AF ) E ( E 2 ) n 1 1 A( F F ) A E E n n AD( F ) A D ( E ) AA 但此公式并非唯一公式: R AA AUU A AU ( AU ) A* ( A* ) 其中: UU I 两个变量xk*与xl*的相关系数和协方差等 于因子载荷阵中第k行与第l行对应元素乘 积之和。 q r ( X k* , X l* ) ak1al1 ak 2 al 2 ... akqalq aki ali i 1 例1 某校对学生进行了测量语言能力和数学能力的六项考 试。考试成绩都化为标准分。假定x1*,x2*,x3* 是语言 能力的三项不同考试的标准分, x4*,x5*,x6*是数学能 力的三项不同的标准分。通过部分学生这六项考试成 绩,得到相关系数矩阵: 依此得出因子载荷矩阵: 1 0.24 0.28 R 0.20 0.24 0.28 1 0.42 1 0.30 0.35 1 0.36 0.42 0.78 1 0.42 0.49 0.75 0.72 1 0.272 0.293 0.409 0.439 0.477 0.513 A 0.926 0.179 0.848 0.031 0.843 0.172 x1* 0.272 f1 0.293 f 2 e1 据此可写出因子模型: x2* 0.409 f1 0.439 f 2 e2 x3* 0.477 f1 0.513 f 2 e3 x4* 0.926 f1 0.179 f 2 e4 x5* 0.848 f1 0.031f 2 e5 x6* 0.843 f1 0.172 f 2 e6 还可求出各变量的共同度,各变量对应的特殊 因子方差,各公共因子方差贡献率以及两个公 共因子的累计方差贡献。 变量 X1* X2* X3* X4* X5* X6* 方差贡献率 累计方差贡 献率 ai1 0.272 0.409 0.477 0.926 0.848 0.843 45.9% 45.9% ai2 0.293 0.439 0.513 -0.179 0.031 0.172 10.1% 56% 共同度 0.16 0.36 0.49 0.89 0.72 0.74 56% 特殊因子方差 0.84 0.64 0.51 0.11 0.28 0.26 44% 因子变量的特点 1、因子变量的数量远少于原有指标变量 的数量。 2、因子变量是对原始变量的重新组构, 能够反映原有众多指标的绝大部分信息。 3、因子变量之间没有线性相关关系,对 因子变量的分析能够为研究工作提供较 大的便利。 4、因子变量具有命名解释性。 第三节 因子分析模型的解 一、主因子法 主因子法的基本思想是使用多元相关的平方作 为对公因子方差的初始估计。初始估计公因子 方差时多元相关系数的平方置于对角线上。这 些因子载荷用于估计新公因子方差,替换对角 线上前一次的公因子方差估计。这样的迭代持 续到,本次到下一次迭代结果公因子方差的变 化满足提取因子的收敛判据。 1、给出共同度hi2的初步估计值hi*2 以第i个变量xi*与其它所有变量x1*,x2*,…,xi1*,xi+1*,…,xp*回归的复相关系数的平方作为初 始估计值 2、求出约化相关阵 计算φi*=1-hi*2,再计算出R*=R- φ* 3、求出特征根和特征向量 由方程︱R*-λI︱=0求出,并利用特征根、特征 向量求出因子载荷阵A1 4、求出φ的估计,用估计值代替第二步的φ* φ的估计: φ*(1)=R-A1A1′ 5、继续第三步,直到A, φ的估计达到稳定为 止 例4.1 根据十四个国家的十个指标值, 求主因子解,建立因子分析模型。(数 据见spssex/ex401) 例4.2 根据88个学生的力学、统计学等5 门功课开、闭卷考试的成绩,以因子分 析法了解5门功课成绩与开、闭卷因素的 关系。(数据见“开闭卷成绩”) Principal components:主成分法 Unweighted least square:不加权最小平方法 Generalized least squares:普通最小平方法 Maximum likelihood:最大似然法 Principal axis factoring:主因子法 Alpha factoring:α因子提取法 Image factoring:映象因子提取法 常用确定q的方法是按特征根由大至小的次序 抽取,直到 q 与 p h2 接近为止。 * i 1 i i 1 i 二、主成分分析法 ( R I )U 0 RU U R UU R 1U1U1 2U 2U 2 pU pU p 1U1 2 U 2 1U1 2 U 2 pU p p U p BB 0 主成分解 R 1U1 2 U 2 AA hˆi2 ai21 ai22 aiq2 q U q 1U1 2 U 2 q U q 确定公共因子的个数有两种方法:一是 根据具体问题的专业理论来确定,二是 利用主成分分析中选取主成分个数的方 法 例4.3 影响火柴销售量的主要指标有: 煤气、液化气户数、卷烟销售量、蚊香 销售量、打火石销售量。调查了某地区 从1963-1982年共20个年头的数据,进 行因子分析(数据见spssex/ex402)。 第四节 方差最大正交旋转 因子旋转的目的: 使每个变量在尽可能少的因子上有比较高的 载荷,让某个变量在某个因子上的载荷趋于1, 而在其他因子上的载荷趋于0。 要求每一列上的载荷大部分为很小的值,每一行 中只有少量的最好只有一个较大的载荷值;每 两列中大载荷与小载荷的排列模式应该不同。 因子旋转的方法: 1.varimax:方差最大旋转。简化对因子的解释 2.direct oblimin:直接斜交旋转。允许因子之间具 有相关性。 3.quartmax:四次最大正交旋转。简化对变量的解 释 4.equamax:平均正交旋转。 5.promax:斜交旋转方法。 两因子的方差最大正交旋转 a11 a12 a a cos sin 21 22 A C sin cos a p1 a p 2 a11 cos a12 sin a11 sin a12 cos B AC a p1 cos a p 2 sin a p1 sin a p 2 cos b11 b12 b p1 b p 2 这样做的目的是希望所得结果能使载荷矩阵的每 一列元素尽可能向1和0两极分化,即原始变量中 一部分主要与第一因子有关,另一部分主要与第 二因子有关,也就是要求(b112,…,bp12), (b122,…,bp22)这两组的方差尽量大。 2 2 b 1 b 1 1,2 p i 1 h p i 1 h G V1 V2 max G 0 D 2 AB / p tg 4 2 2 2 2 a j1 a j2 C (A B ) / p j hj hj p p V p 2 i 2 i p 2 i 2 i A j j 1 p B vj D 2 j v j j 1 j 1 vj 2 a j 1a j 2 p h 2j C 2j v 2j j 1 多因子的方差最大正交旋转 如果公共因子多于2个,可以每次取2个因子, m( m 1) c 全部配对旋转需要 次,全部旋转完毕 2 算一次循环,如果循环完毕得出的因子载荷阵 还没达到目的,则可以继续进行第二轮配对旋 转,。。。,如此不断重复旋转循可得V值的 一个升序列:V(1)≤V(2) ≤ V(3) ≤… 实际应用中,经过若干次旋转之后,若相对方 差改变不大,则停止旋转。 2 m 第五节 因子得分 因子分析的数学模型是将变量表示为公 共因子的线性组合,由于公共因子能反 映原始变量的相关关系,用公共因子代 表原始变量时有时更有利于描述研究对 象的特征,因而往往需要反过来将公共 因子表示为变量的线性组合,即因子得 分函数,用它来计算每个样本的公共因 子得分。 一、巴特莱特因子得分 把一个个体的p个变量的取值X*当作因变 量,把求因子解中得到的A作为自变量数 据阵,对于这个个体在公因子上的取值 f, 当作未知参数,而特殊因子的取值看作 误差 e,于是得到如下的线性回归模型: x*=Af+e,则称未知参数f为取值为X*的 因子得分 X * Af e 1 2 1 2 1 2 X * Af e 1 其中: ee n ˆf A 1 A 1 A 1 X * 最小二乘法 二、汤姆生因子得分 将公共因子F用变量的线性组合来表示: Fj bj1x1 * bj 2 x2 * bjp x p * BX * B的最小二乘估计为: 1 BR A 因子得分的估计为: ˆf X * R 1 A 因子分析的基本思路 1、确认待分析的原有若干变量是否适合 作因子分析 2、构造因子变量 3、利用旋转方法使因子变量更具有可解 释性 4、计算因子变量得分 如果相关系数矩阵中大部分相关系数都 小于0.3且未通过统计检验,那么这些变 量就不适合做因子分析。 Bartlett test of sphericity H0:相关系数矩阵是一个单位阵 如果统计量值比较大,且其相对应的相 伴概率值小于用户指定的显著性水平, 拒绝原假设,认为适合作因子分析。 反之,接受原假设,不适合作因子分析。 反映象相关矩阵检验(Antiimage) 由于偏相关系数是在控制了其他变量对 两变量影响的条件下,计算出来的净相 关系数,如果变量之间确实存在较强的 相互重叠传递影响,即如果变量中确实 能够提取出公共因子,那么控制了这此 影响后的偏相关系数必然很小,因此, 如果反映象相关矩阵中的有关元素的绝 对值比较大,则说明这些变量可能不适 合作因子分析 KMO检验 KMO的取值在0和1之间,KMO越接近于 1,则越适合作因子分析 KMO 2 r ij i j 2 2 r p ij ij i j i j 推荐阅读 期刊名及期数 论文题目 数量经济技术经济研究 2003.10 影响中国上市公司融资 结构的主要因素分析 统计研究 2004.2 我国网络公司兼并活动 与盈利情况相关性的实 证研究