Transcript 第12章典型相关分析
第12章 典型相关分析 12.1典型相关分析概述 12.2典型相关分析的数学描述 12.3典型相关分析的实例分析 12.4典型相关分析的应用 在一元统计分析中,研究两个随机变量之间的线性相关关系, 可以用简单相关系数;研究一个随机变量与多个随机变量之间 的线性相关关系,可用复相关系数。但如果要研究两组变量的 相关关系时,这些统计方法就无能为力了。在现实生活中,两 组变量之间具有相关关系的问题很多,例如投资性变量(如劳 动者人数、货物周转量、生产建设投资等)与国民收入变量 (如工农业国内收入、运输业国内收入、建筑业国内收入等) 具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、 背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球 等)之间具有相关关系等。 1936年Hotelling首先提出了典型相关分析法,用于研究一组随 机变量与另一组随机变量之间的相关关系。它借用了主成分分 析的思想,根据变量间的相关关系,寻找一个或少数几个综合 变量(实际观察变量的线性组合)对来替代原变量,从而将二 组变量的关系集中到少数几对综合变量的关系上。 12.1 典型相关分析概述 典型相关分析就是研究两组变量之间相关关系的一种多元 统计分析方法,设两组变量用X1, X 2 , , X p 及Y1, Y2 , , Yq 表示,要研究两组变量的相关关系,一种方法是分别研 究 X i 与 Yj i 1,2, , p; j 1,2, , q 之间的相关关系,然后列 出相关系数表进行分析,当两组变量较多时,这种做法不 仅烦琐,也不易抓住问题的实际;另一种方法是采用类似 于主成分分析的做法,在每一组变量中都选择若干个有代 表性的综合指标(变量的线性组合),通过研究两组综合 指标之间的关系来反映两组变量之间的相关关系。怎样寻 找综合指标,使它们之间具有最大的相关性,这就是典型 相关分析问题。 典型相关分析首先在每组变量中找出变量的线性组合, 使其具有最大相关性,然后再在每组变量中找出第二对 线性组合,使其与第一对线性组合不相关,而第二对本 身具有最大相关性,如此继续下去,直到两组变量之间 的相关性被提取完毕为止。这些综合变量被称为典型变 量,或典则变量,第I对典型变量间的相关系数则被称 为第I典型相关系数。一般来说,只需要提取1~2对 典型变量即可较为充分的概括样本信息。 用X和Y的线性组合U aX , V bY 之间的相关来研究 X和Y之间的相关性。典型相关分析的目的就是希望 找到向量a和b,使 (U ,V ) 最大,从而找到替代原始变量 的典型变量U和V。在实际问题中,也可以从样本的相 关阵R出发来计算样本的典型相关系数和典型变量。 可以证明,当两个变量组均只有一个变量时,典型相 关系数即为简单相关系数;当一组变量只有一个变量 时,典型相关系数即为复相关系数。故可以认为典型 相关系数是简单相关系数、复相关系数的推广,或者 说简单相关系数、复相关系数是典型相关系数的特例。 12.3 典型相关分析的实例分析 例12.1为研究业内人士和观众对于一些电视节目的观 点的关系,对某地方30个电视节目做了问卷调查 并给出了平均评分。观众评分来自低学历(led)、高 学历(hed)和网络(net)调查三种,它们形成第一组变 量;而业内人士分评分来自包括演员和导演在内的 艺术家(arti)、发行(com)与业内各部门主管(man) 三种,形成第二组变量。参加图12.1,数据间 TV.Sav。 这个问题,如直接对这六个变量的相关进行两两分析, 很难得到关于这两组变量之间关系的一个清楚的印象. 故我们希望能够把多个变量与多个变量之间的相关化 为两个变量之间的相关,这样可以用主成分分析法进 行分析。打开TV.Sav文件后在SPSS中的操作如下: 1)选择菜单: 通过【文件】【新建】【语法】打开一个空白文件(默 认文件名为Syntax1.sps),再在其中键入下面命令行: MANOVA led hed net WITH arti com man /DISCRIM ALL ALPHA(1) /PRINT=SIG(EIGEN DIM). 再点击一个向右的三角形图标运行目前程序,就可以得 到所需结果了。即可得到典型相关分析结果。因结果 输出内容较多,下面将对其加以解释。 图12.1 内人士和观众对电视台评价数据 表1为判断这两组变量相关性的若干检验,包括 Pillai迹检验,Hotelling-Lawley迹检验,Wilks检验和 Roy的最大根检验;它们都是有两个自由度的F检验。 该表给出了每个检验的F值,两个自由度和p值(均为 0.000)。 表1 相关性的若干检验 表2给出了特征根(Eigenvalue),特征根所占的百分比 (Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon Cor)及其平方(Sq. Cor)。看来,头两对典型变量(V, W) 的累积特征根已经占了总量的99.427%。它们的典型相 关系数也都在0.95之上。 表2. 特征根与典型相关系数 对于众多的计算机输出挑出一些来介绍。下面表格给出的是 第一组变量相应于上面三个特征根的三个典型变量V1、V2 和V3的系数,即典型系数(canonical coefficient)。注意, SPSS把第一组变量称为因变量(dependent variables),而 把第二组称为协变量(covariates);显然,这两组变量是完 全对称的。这种命名仅仅是为了叙述方便。 这些系数以两种方式给出;一种是没有标准化的原始变量的 线性组合的典型系数(raw canonical coefficient),一种是标 准化之后的典型系数(standardized canonical coefficient)。 标准化的典型系数直观上对典型变量的构成给人以更加清楚 的印象。 表3 未标准化系数 表4 标准化系数 可以看出,头一个典型变量V1相应于前面第一个(也是最 重要的)特征值,主要代表高学历变量hed;而相应于前面 第二个(次要的)特征值的第二个典型变量V2主要代表低 学历变量led和部分的网民变量net,但高学历变量在这里起 负面作用。 从表4中可以得到第一变量的头三个典型变量V1、 V2、V3中的V1 和V2的表达式: V1 0.14887led 0.97696hed 0.05201net V2 0.78575led 0.38311hed 0.31163net 类似地,也可以得到被称为协变量(covariate)的标准化的第 二组变量的相应于头三个特征值得三个典型变量W1、W2和 W3的系数。 表5 未标准化系数和标准化系数 从该表可以得到(对于标准化的变量arti,com和man) 描述第二祖变量的头三个典型变量W1、W2、W3中 的W1 和W2的表达式: W1 0.85751arti 0.01930com 0.145391man W2 91113arti 1.04627com 0.33714man 还可以得到每个典型变量V和第一组变量的相关系数 见表6以及每个典型变量W和第二组变量的相关系数 见表7. 表6 表7 从这两个表中可以看出,V1主要和变量hed相关 (0.99329),而V2主要和led(0.92484)及net (0.75305)相关;W1主要和变量arti(0.99696)及 man(0.92221)相关,而W2主要和com(0.81123) 相关;这和它们的典型系数是一致的。 由于V1和W1最相关,这说明V1所代表的高学历观众和 W1所主要代表的艺术家(arti)及各部门经理(man)观点相 关;而由于V2和W2也相关,这说明V2所代表的低学历 (led)及以年轻人为主的网民(net)观众和W2所主要代表 的看重经济效益的发行人(com)观点相关,但远远不如 V1和W1的相关那么显著(根据特征值的贡献率)。 12.4 典型相关分析的应用 在进行变量间关联强度的分析时,如果手中有众多变量纠 缠不清,不知如何下手时,此时需要冷静考虑,假如能根 据定性分析理出变量的层次结构,判断出某一个变量受其 他几个变量的影响,那么复相关分析和偏相关分析是不错 的选择。如果搞不清变量之间的关系,只能将其分为两类, 或者变量结构太复杂,呈现网状结构时,较好的选择就是 典型相关分析,但这也仅仅是数据分析的第一步,在发现 了数据蕴含的基本规律后,最好再换用其他更为精确的多 元统计分析模型加以深入分析。例如结构方程模型就是比 较好的选择,它可以在典型相关分析结果的基础上进一步 对研究者所提出的假设加以验证。 进行典型相关分析前,需要对两个变量组进行初步分析,判断 变量组之间的影响是双向相关还是单向的因果关系,这对于结 果的解释非常重要,如本节中的例子就是单向的因果关系,输 出结果中某些数据就不能使用。 在对所有的输出结果进行分析时,要注意重点和主次关系, 最重要的就是典型相关系数、典型变量的表达式和典型结构分 析三块。首先根据典型相关系数及其检验判断需要选取几对典 型变量,通常只选一两对,然后由典型变量的系数矩阵写出典 型变量的表达式,最后由典型结构输出画出比较简明的示意图 表示两组变量之间的影响程度。 由典型变量的表达式和典型结构图可以看出变量组之间的 影响关系,不过与其他多元分析方法类似,这需要研究者较多 的经验和对相关专业领域知识的了解,切忌生搬硬套。