多元统计分析典型相关分析及应用研究多个变量与多个变量之间的相关性典型相关分析典型相关分析基本理论典型相关分析求解方法典型相关系数的假设检验典型相关分析在SPSS中的运用统计思想和基本理论典型相关分析(CanonicalCorrelationAnalysis)是研究两组变量之间相关关系的一种多元计方法。它能够揭示出两组变之间的内在联系。也是一种运用于多元统计中的降维技术。其目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。统计思想和基本理论典型相关分析最早由1936年霍特林Hotelling在《生物统计》上发表的论文《两组变量之间的关系》提出,其计算方法后经过多年的应用日趋完善。哈罗德·霍特林(HaroldHotelling,1895—1973):统计学界、经济学界、数学界公认大师典型相关分析相关实例典型相关分析的应用十分广泛。。。。。例如~~X1,X2,…,XpY1,Y2,…,Yq1小伙子追求姑娘的指标要求~~外貌,身高,学历。。。姑娘向往的小伙子的指标~~~工作,家庭,人品。。2创新投入~~人员,研究开发经费,设施。。创新产出~~专利,论文,产品。。3长子头的~~长度,宽度次子头的~~长度,宽度4身体形态~~年龄,体重,胸围健康状况~~脉搏,血压5人口出生~~多孩率,计划生育率教育生活水平~~初中毕业率,收入水平,生活水平典型相关分析相关实例再如~~~考察一些与财政政策有关的指标--如财政支出总额的增长率,财政赤字增长率,税率降低,和与经济发展的一系列指标如国内GDP增长率,就业增长率,物价上涨率等,来研究扩张性财政政策实施后对宏观经济发展的影响.典型相关分析求解方法一元统计分析:用相关系数来衡量两个随机变量之间的线性相关关系;用复相关系数研究一个随机变量和多个随机变量的线性相关关系。Q:遇到比较两组变量的相关性问题,怎么办?多元统计分析:运用典型相关分析研究两组变量x1,x2…xp与y1,y2…yq之间的线性关系,将每一组变量作为一个整体进行分析。。。两组变量间的相关关系。典型相关分析求解方法典型相关分析通常可采取两种方法:方法1讨论第一组每个变量和第二组每个变量的相互关系,得到pq个相关系数,再用这些相关系数反应两组变量的关系。BUT。。在两组变量较多时,方法繁琐也不容易抓到问题实际。简单相关系数的局限性只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数(例~每组30个变量),使问题显得复杂,难以从整体描述。难以抓到重点---用来描述两个变量的之间的线性相关性。典型相关分析求解方法方法2在每组变量中选择若干个由代表性的综合指标,这些指标是原始变量的线性组合,代表了原始变量的大部分信息,且两组综合指标的相关程度最大。(类似于主成分分析法)新产生的综合指标成为典型相关变量CanonicalVariable,通过少数的几个综合变量来反应两组变量的相关性质。方法2更为简洁直接~~典型相关分析的中心思想。典型相关分析的基本思想•首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。•然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提取完毕为此。•被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。典型相关分析的基本思想()(1)()(1)()(1)()(1)1122iiiiiPPUaXaXaXaX()(2)()(2)()(2)()(2)1122iiiiiqqVbXbXbXbX(1)(1)(1)(1)12(,,,)pXXXX、(2)(2)(2)(2)12(,,,)qXXXX一般情况,设为两个相互关联的随机向量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使得每一个综合变量是原变量的线性组合,即()(1)()(1)()(1)()(1)1122iiiiiPPUaXaXaXaX()(2)()(2)()(2)()(2)1122iiiiiqqVbXbXbXbX典型相关分析的基本思想ab与(1)(1)(1)11(2)(2)(2)22(1)(2)12121122()()Cov(,)()()(,)Cov(,)Cov(,)Cov(,)Corr(,)()()DUDDVDCovUVUVUVDUDVΣΣΣΣΣΣaXaXXaaabXbXXbbbaXXbababaabb典型相关分析的基本思想典型相关分析的基本思想第一步:估计组合系数使得对应的典型变量和相关系数达到最大。最大的相关系数为第一典型相关系数,且称有最大相关系数的这对典型变量为典型相关变量。第二步:再次估计组合相关系数,找出第二大的典型相关系数,称为第二典型相关西湖,称有第二大相关系数的这对典型变量为第二典型相关变量。。设两组的变量个数为p,q,pq,那么寻求典型变量的过程可一直重复,直到得到P对典型变量。。典型相关分析的基本思想•当有少数几对或者一对典型变量能够反映原数据的主要信息,那么两个变量组的相关程度的分析就可以转化为对少数几对,或者对一对典型变量的相关分析,这就是典型相关分析的基本目的。典型相关分析与主成分分析典型相关分析在某些方面与主成分分析类似,但并不完全相同。二者均是通过构造原变量的适当线性组合提取不同信息,主成分分析着眼于考虑变量的“分散性”信息,考虑的是一组变量内部各个变量直接的相关关系。而典型相关分析则立足于识别和量化二组变量的统计相关性,是两个随机变量之间的相关性在两组变量之下的推广。典型相关分析求解方法例~1985年中国28省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,…,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1,Y2,…,Y5。现欲研究这两组变量之间的相关性。简单相关系数矩阵Corr(X)=R11Corr(X)=R11Corr(X)=R11Corr(Y)=R221221RR典型相关系数和典型变量的求法在约束条件:()1Varu11aΣa()1Varv22bΣb下,求a1和b1,使uv达到最大。令23根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求的极大值,其中和是Lagrange乘数。)1()1(2)1(2),(12211111112111bbaababa(3)121111211221Σb-λΣa=0Σa-νΣb=0将上面的3式分别左乘和1a1b1121111112111221aΣb-λaΣa=0bΣa-νbΣb=0)2(0012212111111121bvababa11(,)uv1121aΣb由(3)式的第二式,得0-121222211111ΣΣΣa-λΣa0-1-121112222111ΣΣΣΣa-λa11211211aΣbλbΣa(3)121111211221Σb-λΣa=0Σa-νΣb=01211221ab代入(3)式的第一式,得211221211121a的特征根是,相应的特征向量为-1-1111122221-1-1222211112M=ΣΣΣΣM=ΣΣΣΣ令2122Ma=λaMb=λb(3)121111211221Σb-λΣa=0Σa-νΣb=0由(3)式的第一式,得1121111ba代入(3)式的第二式,得121112112221b的特征根是,相应的特征向量为0122211211121bb01211211121122bb2结论:既是M1又是M2的特征根,和是相应于M1和M2的特征向量。1a1b至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:2u2ax22v=by在约束条件:2()1Varu2112aΣa2()1Varv2222bΣb12cov(,)cov()0uu121112ax,axaΣa12cov(,)cov()0vv121112by,bybΣb求使达到最大的和。22cov(,)uv2122aΣb2a2b例~~~Textbookp277典型相关系数的假设检验1.全部总体典型相关系数均为02.部分总体典型相关系数为0(1),~(,).(2)pqXYNnpq对资料的要求:两个变量组应服从多变量正态分布。即设()30例家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量::户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。31X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数U1U2X1(就餐)0.7689-1.4787X2(电影)0.27211.6443Y组典型变量的系数V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.29562112721.07689.0xxu2126443.14787.1xxu32111900.08975.00491.0yyyv32122956.05837.00003.1yyyv典型变量的结构(相关系数)U1U2X10.9866-0.1632X20.88720.4614V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的结构(相关系数)V1V2X10.6787-0.0305X20.61040.0862U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.056336两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入,u1和v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度,u2和v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的相关性。384、各组原始变量被典型变量所解释的方差X组原始变量被ui解释的方差比例pmpiiiixuxuxuu/)(2,2,2,21X组原始变量被vi解释的方差比例pmpiiiixvxvxvv/)(2,2,2,2