第１2章典型相关分析

Transcript 第１2章典型相关分析

第１2章
典型相关分析
12.1典型相关分析概述
12.2典型相关分析的数学描述
12.3典型相关分析的实例分析
12.4典型相关分析的应用
在一元统计分析中，研究两个随机变量之间的线性相关关系，
可以用简单相关系数；研究一个随机变量与多个随机变量之间
的线性相关关系，可用复相关系数。但如果要研究两组变量的
相关关系时，这些统计方法就无能为力了。在现实生活中，两
组变量之间具有相关关系的问题很多，例如投资性变量（如劳
动者人数、货物周转量、生产建设投资等）与国民收入变量
（如工农业国内收入、运输业国内收入、建筑业国内收入等）
具有相关关系；运动员的体力测试指标（如反复横向跳、纵跳、
背力、握力等）与运动能力测试指标（如耐力跑、跳远、投球
等）之间具有相关关系等。
1936年Hotelling首先提出了典型相关分析法，用于研究一组随
机变量与另一组随机变量之间的相关关系。它借用了主成分分
析的思想，根据变量间的相关关系，寻找一个或少数几个综合
变量（实际观察变量的线性组合）对来替代原变量，从而将二
组变量的关系集中到少数几对综合变量的关系上。
12.1 典型相关分析概述
典型相关分析就是研究两组变量之间相关关系的一种多元
统计分析方法，设两组变量用X1, X 2 , , X p 及Y1, Y2 , , Yq
表示，要研究两组变量的相关关系，一种方法是分别研
究 X i 与 Yj i  1,2, , p; j  1,2, , q  之间的相关关系，然后列
出相关系数表进行分析，当两组变量较多时，这种做法不
仅烦琐，也不易抓住问题的实际；另一种方法是采用类似
于主成分分析的做法，在每一组变量中都选择若干个有代
表性的综合指标（变量的线性组合），通过研究两组综合
指标之间的关系来反映两组变量之间的相关关系。怎样寻
找综合指标，使它们之间具有最大的相关性，这就是典型
相关分析问题。
典型相关分析首先在每组变量中找出变量的线性组合，
使其具有最大相关性，然后再在每组变量中找出第二对
线性组合，使其与第一对线性组合不相关，而第二对本
身具有最大相关性，如此继续下去，直到两组变量之间
的相关性被提取完毕为止。这些综合变量被称为典型变
量，或典则变量，第Ｉ对典型变量间的相关系数则被称
为第Ｉ典型相关系数。一般来说，只需要提取１～２对
典型变量即可较为充分的概括样本信息。
用Ｘ和Ｙ的线性组合U  aX , V  bY 之间的相关来研究
Ｘ和Ｙ之间的相关性。典型相关分析的目的就是希望
找到向量a和b,使  (U ,V ) 最大，从而找到替代原始变量
的典型变量U和V。在实际问题中，也可以从样本的相
关阵R出发来计算样本的典型相关系数和典型变量。
可以证明，当两个变量组均只有一个变量时，典型相
关系数即为简单相关系数；当一组变量只有一个变量
时，典型相关系数即为复相关系数。故可以认为典型
相关系数是简单相关系数、复相关系数的推广，或者
说简单相关系数、复相关系数是典型相关系数的特例。
12.3 典型相关分析的实例分析
例12.1为研究业内人士和观众对于一些电视节目的观
点的关系，对某地方30个电视节目做了问卷调查
并给出了平均评分。观众评分来自低学历(led)、高
学历(hed)和网络(net)调查三种,它们形成第一组变
量；而业内人士分评分来自包括演员和导演在内的
艺术家(arti)、发行(com)与业内各部门主管(man)
三种，形成第二组变量。参加图12.1，数据间
TV.Sav。
这个问题，如直接对这六个变量的相关进行两两分析，
很难得到关于这两组变量之间关系的一个清楚的印象.
故我们希望能够把多个变量与多个变量之间的相关化
为两个变量之间的相关，这样可以用主成分分析法进
行分析。打开TV.Sav文件后在SPSS中的操作如下：
1)选择菜单：
通过【文件】【新建】【语法】打开一个空白文件（默
认文件名为Syntax1.sps），再在其中键入下面命令行：
MANOVA led hed net WITH arti com man
/DISCRIM ALL ALPHA(1)
/PRINT=SIG(EIGEN DIM).
再点击一个向右的三角形图标运行目前程序，就可以得
到所需结果了。即可得到典型相关分析结果。因结果
输出内容较多，下面将对其加以解释。
图12.1 内人士和观众对电视台评价数据
表1为判断这两组变量相关性的若干检验，包括
Pillai迹检验，Hotelling-Lawley迹检验，Wilks检验和
Roy的最大根检验；它们都是有两个自由度的F检验。
该表给出了每个检验的F值，两个自由度和p值（均为
0.000）。
表1 相关性的若干检验
表2给出了特征根(Eigenvalue)，特征根所占的百分比
(Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon
Cor)及其平方(Sq. Cor)。看来，头两对典型变量(V, W)
的累积特征根已经占了总量的99.427%。它们的典型相
关系数也都在0.95之上。
表2. 特征根与典型相关系数
对于众多的计算机输出挑出一些来介绍。下面表格给出的是
第一组变量相应于上面三个特征根的三个典型变量V1、V2
和V3的系数，即典型系数(canonical coefficient)。注意，
SPSS把第一组变量称为因变量(dependent variables)，而
把第二组称为协变量(covariates)；显然，这两组变量是完
全对称的。这种命名仅仅是为了叙述方便。
这些系数以两种方式给出；一种是没有标准化的原始变量的
线性组合的典型系数(raw canonical coefficient)，一种是标
准化之后的典型系数(standardized canonical coefficient)。
标准化的典型系数直观上对典型变量的构成给人以更加清楚
的印象。
表3 未标准化系数
表4 标准化系数
可以看出，头一个典型变量V1相应于前面第一个（也是最
重要的）特征值，主要代表高学历变量hed；而相应于前面
第二个（次要的）特征值的第二个典型变量V2主要代表低
学历变量led和部分的网民变量net，但高学历变量在这里起
负面作用。从表4中可以得到第一变量的头三个典型变量V1、
V2、V3中的V1 和V2的表达式:
V1  0.14887led  0.97696hed  0.05201net
V2  0.78575led  0.38311hed  0.31163net
类似地，也可以得到被称为协变量(covariate)的标准化的第
二组变量的相应于头三个特征值得三个典型变量W1、W2和
W3的系数。
表5 未标准化系数和标准化系数
从该表可以得到（对于标准化的变量arti,com和man）
描述第二祖变量的头三个典型变量W1、W2、W3中
的W1 和W2的表达式:
W1  0.85751arti  0.01930com  0.145391man
W2  91113arti  1.04627com  0.33714man
还可以得到每个典型变量V和第一组变量的相关系数
见表6以及每个典型变量W和第二组变量的相关系数
见表7.
表6
表7
从这两个表中可以看出，V1主要和变量hed相关
（0.99329），而V2主要和led（0.92484）及net
（0.75305）相关；W1主要和变量arti（0.99696）及
man（0.92221）相关，而W2主要和com（0.81123）
相关；这和它们的典型系数是一致的。
由于V1和W1最相关，这说明V1所代表的高学历观众和
W1所主要代表的艺术家(arti)及各部门经理(man)观点相
关；而由于V2和W2也相关，这说明V2所代表的低学历
(led)及以年轻人为主的网民(net)观众和W2所主要代表
的看重经济效益的发行人(com)观点相关，但远远不如
V1和W1的相关那么显著（根据特征值的贡献率）。
12.4 典型相关分析的应用
在进行变量间关联强度的分析时，如果手中有众多变量纠
缠不清，不知如何下手时，此时需要冷静考虑，假如能根
据定性分析理出变量的层次结构，判断出某一个变量受其
他几个变量的影响，那么复相关分析和偏相关分析是不错
的选择。如果搞不清变量之间的关系，只能将其分为两类，
或者变量结构太复杂，呈现网状结构时，较好的选择就是
典型相关分析，但这也仅仅是数据分析的第一步，在发现
了数据蕴含的基本规律后，最好再换用其他更为精确的多
元统计分析模型加以深入分析。例如结构方程模型就是比
较好的选择，它可以在典型相关分析结果的基础上进一步
对研究者所提出的假设加以验证。
进行典型相关分析前，需要对两个变量组进行初步分析，判断
变量组之间的影响是双向相关还是单向的因果关系，这对于结
果的解释非常重要，如本节中的例子就是单向的因果关系，输
出结果中某些数据就不能使用。
在对所有的输出结果进行分析时，要注意重点和主次关系，
最重要的就是典型相关系数、典型变量的表达式和典型结构分
析三块。首先根据典型相关系数及其检验判断需要选取几对典
型变量，通常只选一两对，然后由典型变量的系数矩阵写出典
型变量的表达式，最后由典型结构输出画出比较简明的示意图
表示两组变量之间的影响程度。
由典型变量的表达式和典型结构图可以看出变量组之间的
影响关系，不过与其他多元分析方法类似，这需要研究者较多
的经验和对相关专业领域知识的了解，切忌生搬硬套。

第１2章典型相关分析

Transcript 第１2章典型相关分析

Directory