..摘要典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.【关键词】典型相关分析,样本典型相关,性质,实际应用..ABSTRACTTheCanonicalCorrelationAnalysisisanimportantstudyingtopicoftheMultivariateStatisticalAnalysis.Itisthestatisticalanalysismethodwhichstudiesthecorrelationbetweentwosetsofvariables.Itcanworktorevealthemutuallinedependencerelationavailablybetweentwosetsofvariables.WiththehelpofthethoughtaboutthePrincipalComponents,wecanuseafewcomprehensivevariablestoreflectthelinearrelationshipbetweentwosetsofvariables.NowadaysIthasalreadybeenusedwidelyinthecorrelationanalysisandforecastedanalysis.ThistextdescribesthestatisticalthoughtoftheCanonicalCorrelationAnalysisfirstly,andthendefinesthetotalcanonicalcorrelationvariablesandcanonicalcorrelationcoefficient,andsumuptheirsolutionmethodbriefly.AfteritIgodeepintodiscusssomealgorithmofthesamplecanonicalcorrelationanalysisthoroughly.AccordingtothereasoningoftheCanonicalCorrelationAnalysis,sumupsomeofitsimportantpropertiesandgivetheidentification,followingit,Iinferthesignificancetestingaboutthecanonicalcorrelationcoefficient.Accordingtotheanalysisfromthetheoriesandtheapplication,wecanachievethepossibilityandthesuperiorityfromcanonicalcorrelationanalysisinthereallife.【Keywords】CanonicalCorrelationAnalysis,Samplecanonicalcorrelation,Character,Practicalapplications..目录前言...............................................................1第1章典型相关分析的数学描述......................................2第2章典型变量与典型相关系数......................................32.1总体典型相关................................................32.2样本典型相关................................................42.2.1第一对典型相关变量的解法...............................42.2.2典型相关变量的一般解法.................................82.2.3从相关矩阵出发计算典型相关.............................9第3章典型相关变量的性质.........................................11第4章典型相关系数的显著性检验...................................15第5章典型相关分析的计算步骤及应用实例...........................185.1典型相关分析的计算步骤.....................................185.2实例分析...................................................19结语..............................................................26致谢..............................................................27参考文献...........................................................28附录..............................................................29..前言典型相关分析(CanonicalCorrelationAnalysis,CCA)作为多元统计学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.典型相关分析是由Hotelling于1936年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等...第1章典型相关分析的数学描述一般地,假设有一组变量pXXX,,,21与另一组变量qYYY,,,21,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.当qp1时,就是我们常见的研究两个变量X与Y之间的简单相关关系,其相关系数是最常见的度量,定义为:)()(),(YVarXVarYXCovxy当1p,1q(或1,1pq)时,p维随机向量'21),(pXXXX,设),(~1pNYX,22211211,其中,11是第一组变量的协方差阵,12是第一组与第二组变量的协方差阵,22是第二组变量的协方差阵.则称221211121R为Y与pXXX,,,21的全相关系数,全相关系数用于度量一个随机变量Y与另一组随机变量pXXX,,,21的相关系数.当1,qp时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即XXXXUpp'2211YYYYVqq'2211其中,'21),,,(p和'21),,,(q为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量VU与之间的相关问题,希望寻求,使U,V之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析...第2章典型变量与典型相关系数2.1总体典型相关设有两组随机变量'21),,,(pXXXX,'21),,,(qYYYY,分别为维维和qp随机向量,根据典型相关分析的思想,我们用X和Y的线性组合X'和Y'之间的相关性来研究两组随机变量X和Y之间的相关性.我们希望找到和,使得)(‘YX',最大.由相关系数的定义)()(),(),(''''''YVarXVarYXCovYX易得出对任意常数dcfe,,,,均有),(])(,)([''''YXdYcfXe这说明使得相关系数最大的YX'',并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定1)('XVar,1)('YVar于是,我们就有了下面的定义:设有两组随机变量'21),,(pXXXX,'21),,(qYYYY,qp维随机向量YX的均值向量为零,协方差阵0(不妨设qp).如果存在'1111),,(p和'1111),,(q,使得在约束条件1)('XVar,1)('YVar下,),(max),('''1'1YXYX则称YX'1'1,是YX,的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前1k对典型相关变量之后,第k对典型相关变量定义为:如果存在'1),,(pkkk和'1),,(qkkk,使得⑴YXkk'',和前面的1k对典型相关变量都不相关;..⑵1)('XVark,1)('YVark;⑶YXkk''和的相关系数最大,则称YXkk''和是YX,的第k对(组)典型相关变量,它们之间的相关系数称为第k个典型相关系数(pk,,2).2.2样本典型相关以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量和协方差阵通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对进行估计.2.2.1第一对典型相关变量的解法设总体'11),,,,,(qpYYXXZ,已知总体的n次观测数据为:1)()()()(qptttYXZ(nt,,2,1),于是样本数据阵为)(212122221222211121111211qpnnqnnnpnnqpqpyyyxxxyyyxxxyyyxxx