第12章典型相关分析12.1典型相关分析概述12.2典型相关分析的数学描述12.3典型相关分析的实例分析12.4典型相关分析的应用在一元统计分析中,研究两个随机变量之间的线性相关关系,可以用简单相关系数;研究一个随机变量与多个随机变量之间的线性相关关系,可用复相关系数。但如果要研究两组变量的相关关系时,这些统计方法就无能为力了。在现实生活中,两组变量之间具有相关关系的问题很多,例如投资性变量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国内收入、运输业国内收入、建筑业国内收入等)具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球等)之间具有相关关系等。1936年Hotelling首先提出了典型相关分析法,用于研究一组随机变量与另一组随机变量之间的相关关系。它借用了主成分分析的思想,根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)对来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上。12.1典型相关分析概述典型相关分析就是研究两组变量之间相关关系的一种多元统计分析方法,设两组变量用及表示,要研究两组变量的相关关系,一种方法是分别研究与之间的相关关系,然后列出相关系数表进行分析,当两组变量较多时,这种做法不仅烦琐,也不易抓住问题的实际;另一种方法是采用类似于主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。怎样寻找综合指标,使它们之间具有最大的相关性,这就是典型相关分析问题。12,,,pXXX12,,,qYYYjYiX1,2,,;1,2,,ipjq典型相关分析首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其与第一对线性组合不相关,而第二对本身具有最大相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止。这些综合变量被称为典型变量,或典则变量,第I对典型变量间的相关系数则被称为第I典型相关系数。一般来说,只需要提取1~2对典型变量即可较为充分的概括样本信息。用X和Y的线性组合之间的相关来研究X和Y之间的相关性。典型相关分析的目的就是希望找到向量a和b,使最大,从而找到替代原始变量的典型变量U和V。在实际问题中,也可以从样本的相关阵R出发来计算样本的典型相关系数和典型变量。可以证明,当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。故可以认为典型相关系数是简单相关系数、复相关系数的推广,或者说简单相关系数、复相关系数是典型相关系数的特例。,UaXVbY(,)UV12.3典型相关分析的实例分析例12.1为研究业内人士和观众对于一些电视节目的观点的关系,对某地方30个电视节目做了问卷调查并给出了平均评分。观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成第一组变量;而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。参加图12.1,数据间TV.Sav。这个问题,如直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关系的一个清楚的印象.故我们希望能够把多个变量与多个变量之间的相关化为两个变量之间的相关,这样可以用主成分分析法进行分析。打开TV.Sav文件后在SPSS中的操作如下:1)选择菜单:通过【文件】【新建】【语法】打开一个空白文件(默认文件名为Syntax1.sps),再在其中键入下面命令行:MANOVAledhednetWITHarticomman/DISCRIMALLALPHA(1)/PRINT=SIG(EIGENDIM).再点击一个向右的三角形图标运行目前程序,就可以得到所需结果了。即可得到典型相关分析结果。因结果输出内容较多,下面将对其加以解释。图12.1内人士和观众对电视台评价数据表1为判断这两组变量相关性的若干检验,包括Pillai迹检验,Hotelling-Lawley迹检验,Wilks检验和Roy的最大根检验;它们都是有两个自由度的F检验。该表给出了每个检验的F值,两个自由度和p值(均为0.000)。表1相关性的若干检验表2给出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累积百分比(Cum.Pct)和典型相关系数(CanonCor)及其平方(Sq.Cor)。看来,头两对典型变量(V,W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。表2.特征根与典型相关系数对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1、V2和V3的系数,即典型系数(canonicalcoefficient)。注意,SPSS把第一组变量称为因变量(dependentvariables),而把第二组称为协变量(covariates);显然,这两组变量是完全对称的。这种命名仅仅是为了叙述方便。这些系数以两种方式给出;一种是没有标准化的原始变量的线性组合的典型系数(rawcanonicalcoefficient),一种是标准化之后的典型系数(standardizedcanonicalcoefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。表3未标准化系数表4标准化系数可以看出,头一个典型变量V1相应于前面第一个(也是最重要的)特征值,主要代表高学历变量hed;而相应于前面第二个(次要的)特征值的第二个典型变量V2主要代表低学历变量led和部分的网民变量net,但高学历变量在这里起负面作用。从表4中可以得到第一变量的头三个典型变量V1、V2、V3中的V1和V2的表达式:类似地,也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W3的系数。120.14887led0.97696hed0.05201net0.78575led0.38311hed0.31163netVV表5未标准化系数和标准化系数从该表可以得到(对于标准化的变量arti,com和man)描述第二祖变量的头三个典型变量W1、W2、W3中的W1和W2的表达式:还可以得到每个典型变量V和第一组变量的相关系数见表6以及每个典型变量W和第二组变量的相关系数见表7.120.85751arti0.01930com0.145391man91113arti1.04627com0.33714manWW表6表7从这两个表中可以看出,V1主要和变量hed相关(0.99329),而V2主要和led(0.92484)及net(0.75305)相关;W1主要和变量arti(0.99696)及man(0.92221)相关,而W2主要和com(0.81123)相关;这和它们的典型系数是一致的。由于V1和W1最相关,这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关;而由于V2和W2也相关,这说明V2所代表的低学历(led)及以年轻人为主的网民(net)观众和W2所主要代表的看重经济效益的发行人(com)观点相关,但远远不如V1和W1的相关那么显著(根据特征值的贡献率)。12.4典型相关分析的应用在进行变量间关联强度的分析时,如果手中有众多变量纠缠不清,不知如何下手时,此时需要冷静考虑,假如能根据定性分析理出变量的层次结构,判断出某一个变量受其他几个变量的影响,那么复相关分析和偏相关分析是不错的选择。如果搞不清变量之间的关系,只能将其分为两类,或者变量结构太复杂,呈现网状结构时,较好的选择就是典型相关分析,但这也仅仅是数据分析的第一步,在发现了数据蕴含的基本规律后,最好再换用其他更为精确的多元统计分析模型加以深入分析。例如结构方程模型就是比较好的选择,它可以在典型相关分析结果的基础上进一步对研究者所提出的假设加以验证。进行典型相关分析前,需要对两个变量组进行初步分析,判断变量组之间的影响是双向相关还是单向的因果关系,这对于结果的解释非常重要,如本节中的例子就是单向的因果关系,输出结果中某些数据就不能使用。在对所有的输出结果进行分析时,要注意重点和主次关系,最重要的就是典型相关系数、典型变量的表达式和典型结构分析三块。首先根据典型相关系数及其检验判断需要选取几对典型变量,通常只选一两对,然后由典型变量的系数矩阵写出典型变量的表达式,最后由典型结构输出画出比较简明的示意图表示两组变量之间的影响程度。由典型变量的表达式和典型结构图可以看出变量组之间的影响关系,不过与其他多元分析方法类似,这需要研究者较多的经验和对相关专业领域知识的了解,切忌生搬硬套。