第12章典型相关分析

Download Report

Transcript 第12章典型相关分析

第12章
典型相关分析
12.1典型相关分析概述
12.2典型相关分析的数学描述
12.3典型相关分析的实例分析
12.4典型相关分析的应用
在一元统计分析中,研究两个随机变量之间的线性相关关系,
可以用简单相关系数;研究一个随机变量与多个随机变量之间
的线性相关关系,可用复相关系数。但如果要研究两组变量的
相关关系时,这些统计方法就无能为力了。在现实生活中,两
组变量之间具有相关关系的问题很多,例如投资性变量(如劳
动者人数、货物周转量、生产建设投资等)与国民收入变量
(如工农业国内收入、运输业国内收入、建筑业国内收入等)
具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、
背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球
等)之间具有相关关系等。
1936年Hotelling首先提出了典型相关分析法,用于研究一组随
机变量与另一组随机变量之间的相关关系。它借用了主成分分
析的思想,根据变量间的相关关系,寻找一个或少数几个综合
变量(实际观察变量的线性组合)对来替代原变量,从而将二
组变量的关系集中到少数几对综合变量的关系上。
12.1 典型相关分析概述
典型相关分析就是研究两组变量之间相关关系的一种多元
统计分析方法,设两组变量用X1, X 2 , , X p 及Y1, Y2 , , Yq
表示,要研究两组变量的相关关系,一种方法是分别研
究 X i 与 Yj i  1,2, , p; j  1,2, , q  之间的相关关系,然后列
出相关系数表进行分析,当两组变量较多时,这种做法不
仅烦琐,也不易抓住问题的实际;另一种方法是采用类似
于主成分分析的做法,在每一组变量中都选择若干个有代
表性的综合指标(变量的线性组合),通过研究两组综合
指标之间的关系来反映两组变量之间的相关关系。怎样寻
找综合指标,使它们之间具有最大的相关性,这就是典型
相关分析问题。
典型相关分析首先在每组变量中找出变量的线性组合,
使其具有最大相关性,然后再在每组变量中找出第二对
线性组合,使其与第一对线性组合不相关,而第二对本
身具有最大相关性,如此继续下去,直到两组变量之间
的相关性被提取完毕为止。这些综合变量被称为典型变
量,或典则变量,第I对典型变量间的相关系数则被称
为第I典型相关系数。一般来说,只需要提取1~2对
典型变量即可较为充分的概括样本信息。
用X和Y的线性组合U  aX , V  bY 之间的相关来研究
X和Y之间的相关性。典型相关分析的目的就是希望
找到向量a和b,使  (U ,V ) 最大,从而找到替代原始变量
的典型变量U和V。在实际问题中,也可以从样本的相
关阵R出发来计算样本的典型相关系数和典型变量。
可以证明,当两个变量组均只有一个变量时,典型相
关系数即为简单相关系数;当一组变量只有一个变量
时,典型相关系数即为复相关系数。故可以认为典型
相关系数是简单相关系数、复相关系数的推广,或者
说简单相关系数、复相关系数是典型相关系数的特例。
12.3 典型相关分析的实例分析
例12.1为研究业内人士和观众对于一些电视节目的观
点的关系,对某地方30个电视节目做了问卷调查
并给出了平均评分。观众评分来自低学历(led)、高
学历(hed)和网络(net)调查三种,它们形成第一组变
量;而业内人士分评分来自包括演员和导演在内的
艺术家(arti)、发行(com)与业内各部门主管(man)
三种,形成第二组变量。参加图12.1,数据间
TV.Sav。
这个问题,如直接对这六个变量的相关进行两两分析,
很难得到关于这两组变量之间关系的一个清楚的印象.
故我们希望能够把多个变量与多个变量之间的相关化
为两个变量之间的相关,这样可以用主成分分析法进
行分析。打开TV.Sav文件后在SPSS中的操作如下:
1)选择菜单:
通过【文件】【新建】【语法】打开一个空白文件(默
认文件名为Syntax1.sps),再在其中键入下面命令行:
MANOVA led hed net WITH arti com man
/DISCRIM ALL ALPHA(1)
/PRINT=SIG(EIGEN DIM).
再点击一个向右的三角形图标运行目前程序,就可以得
到所需结果了。即可得到典型相关分析结果。因结果
输出内容较多,下面将对其加以解释。
图12.1 内人士和观众对电视台评价数据
表1为判断这两组变量相关性的若干检验,包括
Pillai迹检验,Hotelling-Lawley迹检验,Wilks检验和
Roy的最大根检验;它们都是有两个自由度的F检验。
该表给出了每个检验的F值,两个自由度和p值(均为
0.000)。
表1 相关性的若干检验
表2给出了特征根(Eigenvalue),特征根所占的百分比
(Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon
Cor)及其平方(Sq. Cor)。看来,头两对典型变量(V, W)
的累积特征根已经占了总量的99.427%。它们的典型相
关系数也都在0.95之上。
表2. 特征根与典型相关系数
对于众多的计算机输出挑出一些来介绍。下面表格给出的是
第一组变量相应于上面三个特征根的三个典型变量V1、V2
和V3的系数,即典型系数(canonical coefficient)。注意,
SPSS把第一组变量称为因变量(dependent variables),而
把第二组称为协变量(covariates);显然,这两组变量是完
全对称的。这种命名仅仅是为了叙述方便。
这些系数以两种方式给出;一种是没有标准化的原始变量的
线性组合的典型系数(raw canonical coefficient),一种是标
准化之后的典型系数(standardized canonical coefficient)。
标准化的典型系数直观上对典型变量的构成给人以更加清楚
的印象。
表3 未标准化系数
表4 标准化系数
可以看出,头一个典型变量V1相应于前面第一个(也是最
重要的)特征值,主要代表高学历变量hed;而相应于前面
第二个(次要的)特征值的第二个典型变量V2主要代表低
学历变量led和部分的网民变量net,但高学历变量在这里起
负面作用。 从表4中可以得到第一变量的头三个典型变量V1、
V2、V3中的V1 和V2的表达式:
V1  0.14887led  0.97696hed  0.05201net
V2  0.78575led  0.38311hed  0.31163net
类似地,也可以得到被称为协变量(covariate)的标准化的第
二组变量的相应于头三个特征值得三个典型变量W1、W2和
W3的系数。
表5 未标准化系数和标准化系数
从该表可以得到(对于标准化的变量arti,com和man)
描述第二祖变量的头三个典型变量W1、W2、W3中
的W1 和W2的表达式:
W1  0.85751arti  0.01930com  0.145391man
W2  91113arti  1.04627com  0.33714man
还可以得到每个典型变量V和第一组变量的相关系数
见表6以及每个典型变量W和第二组变量的相关系数
见表7.
表6
表7
从这两个表中可以看出,V1主要和变量hed相关
(0.99329),而V2主要和led(0.92484)及net
(0.75305)相关;W1主要和变量arti(0.99696)及
man(0.92221)相关,而W2主要和com(0.81123)
相关;这和它们的典型系数是一致的。
由于V1和W1最相关,这说明V1所代表的高学历观众和
W1所主要代表的艺术家(arti)及各部门经理(man)观点相
关;而由于V2和W2也相关,这说明V2所代表的低学历
(led)及以年轻人为主的网民(net)观众和W2所主要代表
的看重经济效益的发行人(com)观点相关,但远远不如
V1和W1的相关那么显著(根据特征值的贡献率)。
12.4 典型相关分析的应用
在进行变量间关联强度的分析时,如果手中有众多变量纠
缠不清,不知如何下手时,此时需要冷静考虑,假如能根
据定性分析理出变量的层次结构,判断出某一个变量受其
他几个变量的影响,那么复相关分析和偏相关分析是不错
的选择。如果搞不清变量之间的关系,只能将其分为两类,
或者变量结构太复杂,呈现网状结构时,较好的选择就是
典型相关分析,但这也仅仅是数据分析的第一步,在发现
了数据蕴含的基本规律后,最好再换用其他更为精确的多
元统计分析模型加以深入分析。例如结构方程模型就是比
较好的选择,它可以在典型相关分析结果的基础上进一步
对研究者所提出的假设加以验证。
进行典型相关分析前,需要对两个变量组进行初步分析,判断
变量组之间的影响是双向相关还是单向的因果关系,这对于结
果的解释非常重要,如本节中的例子就是单向的因果关系,输
出结果中某些数据就不能使用。
在对所有的输出结果进行分析时,要注意重点和主次关系,
最重要的就是典型相关系数、典型变量的表达式和典型结构分
析三块。首先根据典型相关系数及其检验判断需要选取几对典
型变量,通常只选一两对,然后由典型变量的系数矩阵写出典
型变量的表达式,最后由典型结构输出画出比较简明的示意图
表示两组变量之间的影响程度。
由典型变量的表达式和典型结构图可以看出变量组之间的
影响关系,不过与其他多元分析方法类似,这需要研究者较多
的经验和对相关专业领域知识的了解,切忌生搬硬套。