第4章 典型相关分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

典型相关分析一、什么是典型相关分析及基本思想通常情况下,为了研究两组变量的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。),,,(21pxxx),,,(21qyyy在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的p个质量指标q个原材料的指标之间的相关关系;也可以是采用典型相关分析来解决的问题。如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使变量个数简化,又可以达到分析相关性的目的。),,,(21pxxx),,,(21qyyy例家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xxX1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵y2y3y1x2x133122111112211111ybybybVxaxau33222211222221122ybybybvxaxau?),(11vu?),(22vu典型相关分析的思想:首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合无关,第二对本身具有次大的相关性。如此下去,直至两组变量的相关性被提取完为止。ppxaxaxau12211111qqybybybv1221111122112222ppuaxaxax22112222qqvbybybyu2和v2与u1和v1相互独立,但u2和v2相关。如此继续下去,直至进行到r步,rmin(p,q),可以得到r组变量。从而达到降维的目的。),,(1ruuU),,(1rvvV二、典型相关的数学描述(一)想法考虑两组变量的向量),,,,,,,(2121qpyyyxxxZ其协方差阵为qpqp22211211ΣΣΣΣΣ其中11是第一组变量的协方差矩阵;22是第二组变量的协方差矩阵;12和21是X和Y的其协方差矩阵。我们记两组变量的第一对线性组合为:Xu11Yv11),,,(121111paaa),,,(121111q1111111()()1VaruVarX1)()(1221111YVarvVar11211111,),(),(11YXCovvuCovvu所以,典型相关分析就是求1和1,使二者的相关系数达到最大。11,uv(二)典型相关系数和典型变量的求法在约束条件1)(11111uVar1)(12211vVar下,求1和1,使u1v1达到最大。根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求)1()1(2)1(2),(12211111112111的极大值,其中和是Lagrange乘数。)2(0012212111111121)3(00122121111112将上面的3式分别左乘和110012211211111111211221121111111121之间的相关系数和,且是则:111121vu将左乘(3)的第二式,得1221201221221212112212011212112212并将第一式代入,得011121211221201212112212111的特征根是,相应的特征向量为2112212111210112121111210122211211121将左乘(3)的第一式,并将第二式代入,得11112012112111211221211121122221122121111BA令的特征根是,相应的特征向量为21111121222115引理:AB和BA有相同的非零特征根.A’和A有相同的非零特征根.则和有相同的非零特征根。1211121122221122121111MM2/12212111212/12222/11121122122/1111NN结论:既是M1又是M2的特征根,和是相应于M1和M2的特征向量。211至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不足以解释原始变量,可以再求第二对典型变量和他们的典型相关系数。再求第二对典型变量和他们的典型相关系数。设第二对典型变量为:xu22yv22在约束条件:1)(21122uVar1)(22222vVar0),cov(),cov(21112121xxuu0),cov(),cov(21112121yyvv0),cov(),cov(21212121yxvu21212121cov(,)cov(,)0uvxy求使达到最大的和。212222),cov(vu22例家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xxX1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数U1U2X10.7689-1.4787X20.27211.6443Y组典型变量的系数V1V2Y10.04911.0003Y20.8975-0.5837Y30.19000.29562112721.07689.0xxu2126443.14787.1xxu32111900.08975.00491.0yyyv32122956.05837.00003.1yyyv两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入,u1和v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度,u2和v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的有关。23三、样本典型相关系数在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差阵或相关系数阵进行估计,然后利用估计得到的协方差阵或相关系数阵进行分析。由于估计中有抽样误差的存在,所以估计以后还需要进行有关的假设检验。241、假设有X组和Y组变量,样本容量为n。假设(X1,Y1),(X2,Y2),…,(Xn,Yn),观测值矩阵为:nqnnpnqpqpqpqpyyxxyyxxyyxxyyxxyyxxZ1144144133123122122111111125yyyxxyxxSSSSnn1111ˆZZ样本的协方差:qnqnpnpnqqppqqppqqppqqppyyyyxxxxyyyyxxxxyyyyxxxxyyyyxxxxyyyyxxxx111141414141313121312121212111111111Z262、计算特征根和特征向量求M1和M2的特征根,对应的特征向量。则特征向量构成典型变量的系数,特征根为典型变量相关系数的平方。)(ˆ111yxyyxyxxSSSSM令:)(ˆ112xyxxyxyySSSSM令:22221r),,2,1(riii和27四、典型相关系数的检验典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有误,需要进行检验。检验的统计量:(一)整体检验)0:;0:(10xyxyHH||||||0yyxxSSS;即典型相关系数均为零,0:10rH不为零中至少11),,2,1(:riHi28yyyxxyxxSSSSS因为I0SSISSSSISS0Ixy1xxyyyxxyxx1xxyxxy1xxyxyyxxSSSS00S所以,两边同时求行列式,有yyyxxyxxxy1xxyyyxxyxx1xxyxSSSSI0SSISSSSISS0I29yx1yyxyxxyyyyyxxyxxSSSSSSSSS|S|yx1yyxy1xxxxyySSSSISSMISSSSI|S||S||S|yx1yyxy1xxyyxxˆ030由于所以若M的特征根为,则(l-M)的特征根为(1-)。根据矩阵行列式与特征根的关系,可得:)ˆ()ˆ1(ˆˆˆˆMIIλMIIIλMIλMISSSSISSSyxyyxyxxyyxxˆ||||||110piip1222221)1()1()1)(1(0越小,则拒绝原假设,支持备择假设。31在原假设为真的情况下,检验的统计量近似服从自由度为pq的2分布。在给定的显著性水平下,如果22(pq),则拒绝原假设,认为至少第一对典型变量之间的相关性显著。再检验下一对典型变量之间的相关性。直至相关性不显著为止。对两组变量x和y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。H0经检验被拒绝,则应进一步检验假设。111(3)ln2Qnpq32(二)部分总体典型相关系数为零的检验H0:P2=…=Pr=0Hl:

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功