2020/1/13DXL1第十章典型相关分析(CanonicalCorrelationAnalyses---CCA)典型相关分析及基本思想典型相关分析的数学描述总体的典型相关系数和典型变量样本的典型相关系数和典型变量典型相关系数的显著性检验计算步骤及实例2020/1/13DXL2§10.1典型相关分析及基本思想典型相关分析方法(canonicalcorrelationanalysis---CCA)最早源于荷泰林(H,Hotelling)于1936年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》。他所提出的方法经过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。由于典型相关分析涉及较大量的矩阵计算,其方法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。Thecanonicalcorrelationanalysis---CCA2020/1/13DXL3在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的q个质量指标和p个原材料指标的相关关系。当然可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有p*q个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。),,,(21pxxx),,,(21qyyyThecanonicalcorrelationanalysis---CCA2020/1/13DXL4Withcanonicalcorrelation,weareworkingwithtwosetsofvariable(e.g.,wemighthaveonesetofvariablesmeasuringthepersonalitycharacteristicsofhighschoolstudentsandanothersetofvariablesmeasuringtheirvocationalinterests).Incanonicalcorrelation,wearealsotryingtore-expressandsimplifythedata.Ourgoalistofindtwolinearcombinationsoftheoriginalvariables----onecombinationfromthefirstsetvariablesandonecombinationfromthesecond(calledcanonicalvariables)----thatexhibitthelargestpossiblecovariance.FromJamesetc《AnalyzingMultivariateData》2020/1/13DXL5FromJames.《AnalyzingMultivariateData》Inprincipalcomponentsanalysis(PCA),wefoundthatasmallnumberofcomponentscouldaccountformuchofthevariance(i.e.,information)intheentiredataset.Withcanonicalcorrelation,wewillfindthatafewpairsofcanonicalvariatescanaccountformuchoftheinterdependencebetweentwosetsofvariables.2020/1/13DXL6例:家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量::户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。Thecanonicalcorrelationanalysis---CCA2020/1/13DXL7X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵Thecanonicalcorrelationanalysis---CCA2020/1/13DXL8y2y3y1x2x133122111112211111ybybybVxaxau33222211222221122ybybybvxaxau?),(11vu?),(22vuThecanonicalcorrelationanalysis---CCA2020/1/13DXL9典型相关分析的思想:首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,1111212111112121ppqquaxaxaxvbybybyThecanonicalcorrelationanalysis---CCA2020/1/13DXL10然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对线性组合本身具有次大的相关性。既:u2和v2与u1和v1相互独立,但u2和v2有次大相关性。如此继续下去,直至进行到r步,两组变量的相关性被提取完为止。rmin(p,q),可以得到r组变量。2121222221212222ppqquaxaxaxvbybybyThecanonicalcorrelationanalysis---CCA2020/1/13DXL11§10.2典型相关的数学描述考虑两组变量的向量1212(,,,,,,,)pqxxxyyyZ其协方差阵为pqpq11122122ΣΣΣΣΣ其中11是第一组变量的协方差矩阵;22是第二组变量的协方差矩阵;是X和Y的其协方差矩阵。1221矩阵的分块Thecanonicalcorrelationanalysis---CCA2020/1/13DXL12如果我们记两组变量的第一对线性组合为:11u=aX11v=bY其中:11211(,,,)paaa1a11211(,,,)qbbb1b122()1VarVar1111vb(Y)bbΣb1()11Covu,vCov11u,v11121a(X,Y)baΣb所以,典型相关分析就是求a1和b1,使uv达到最大。1()()1VaruVar111111aXaaΣa想一想如何求?Thecanonicalcorrelationanalysis---CCA2020/1/13DXL13§10.3总体的典型相关系数和典型变量在约束条件:()1Varu11aΣa()1Varv22bΣb下,求a1和b1,使uv达到最大。令1211αΣa1222βΣb1211Σαa1222Σβb1αα1ββ2111左乘2122左乘Thecanonicalcorrelationanalysis---CCA2020/1/13DXL14根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求11(,)(1)(1)(1)22ab112111111221aΣbaΣabΣb的极大值,其中和是Lagrange乘数。Thecanonicalcorrelationanalysis---CCA不含1不含12020/1/13DXL15110(2)0a121111211221Σb-λΣaΣa-νΣb(3)121111211221Σb-λΣa=0Σa-νΣb=0将上面的3式分别左乘和1a1b1121111112111221aΣb-λaΣa=0bΣa-νbΣb=0Thecanonicalcorrelationanalysis---CCA()1Varu11aΣa注意到()1Varv22bΣb11211211aΣbλbΣa2020/1/13DXL1611(,)uv1121aΣb将左乘(3)的第二式,得-11222ΣΣ0-1-112222111222221ΣΣΣa-νΣΣΣb0-11222211121ΣΣΣa-νΣb并将第一式代入,得0-121222211111ΣΣΣa-λΣa0-1-121112222111ΣΣΣΣa-λa的特征根是,相应的特征向量为211221211121(3)121111211221Σb-λΣa=0Σa-νΣb=0等于单位阵特征根定义Thecanonicalcorrelationanalysis---CCA2020/1/13DXL17将左乘(3)的第一式,并将第二式代入,得111120-12111211121ΣΣΣb-λΣa0-122111121221ΣΣΣb-λΣb10-1-12222111121ΣΣΣΣb-λb的特征根是,相应的特征向量为211111212221回顾特征根定义12111211222112212111BA令mBmll22AThecanonicalcorrelationanalysis---CCA2020/1/13DXL18结论:既是A又是B的特征根,和是相应于A和B的特征向量。211至此,典型相关分析转化为求A和B特征根和特征向量的问题。第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。Thecanonicalcorrelationanalysis---CCA2020/1/13DXL19在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:2u2ax22v=by在约束条件:2()1Varu2112aΣa2()1Varv2222bΣb12cov(,)cov()0uu121112ax,axaΣa12cov(,)cov()0vv121112by,bybΣb求使达到最大的和。22cov(,)uv2122aΣb2a2b独立性Thecanonicalcorrelationanalysis---CCA2020/1/13DXL20例:家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量::户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。Thecanonicalcorrelationanalysis---CCA2020/1/13DXL21X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵Thecanonicalcorrelationanalysis---CCA2020/1/13DXL22典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919Thecanonicalcorrelationanalysis---CCA2020/1/13DXL23X组典型变量的系数U1U2X1(就餐)0.7689-1.4787X2(电影)0.27211.6443Y组典型变量的系数V1V2Y1(年龄)0.0