第六章典型相关分析第六章典型相关分析第一节典型相关分析的基本原理第二节典型变量与典型相关系数的求法第三节典型相关系数的检验第四节典型相关分析的计算步骤第五节典型相关分析的SPSS实现第一节典型相关分析的基本原理一、什么是典型相关分析在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。通常情况下,为了研究两组变量的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。),,,(21pxxx),,,(21qyyy二、典型相关分析的基本思想三、典型相关分析的数学描述四、典型相关分析的应用典型相关分析的用途很广。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标,如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。又如,为了研究宏观经济走势与股票市场走势之间的关系,就需要考察各种宏观经济指标如经济增长率、失业率、物价指数、进出口增长率等与各种反映股票市场状况的指标如股票价格指数、股票市场融资金额等两组变量之间的相关关系。再如,工厂要考察所使用的原料的质量对所生产的产品的质量的影响,就需要对所生产产品的各种质量指标与所使用的原料的各种质量指标之间的相关关系进行测度。第二节典型变量与典型相关系数的求法一、总体典型变量和典型相关系数二、原始变理与变型变量之间的相关系数三、样本典型相关变量和样本典型相关系数第三节典型相关系数的检验典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有误,需要进行检验。(一)整体检验)0:;0:(10xyxyHH||||||0yyxxSSS0:10rH不为零中至少11),,2,1(:riHi检验的统计量:yyyxxyxxSSSSSI0SSISSSSISS0Ixy1xxyyyxxyxx1xxyxxy1xxyxyyxxSSSS00S所以,两边同时求行列式,有yyyxxyxxxy1xxyyyxxyxx1xxyxSSSSI0SSISSSSISS0I事实上yx1yyxyxxyyyyyxxyxxSSSSSSSSS|S|yx1yyxy1xxxxyySSSSISSMISSSSI|S||S||S|yx1yyxy1xxyyxxˆ0由于所以若M的特征根为,则(l-M)的特征根为(1-)。根据矩阵行列式与特征根的关系,可得:)ˆ()ˆ1(ˆˆˆˆMIIλMIIIλMIλ111||ˆ||||xxxyyyyxxxyySISSSSIMSS222121(1)(1)(1)(1)ppii11H小,支持。在原假设为真的情况下,检验的统计量近似服从自由度为pq的2分布。在给定的显著性水平下,如果22(pq),则拒绝原假设,认为至少第一对典型变量之间的相关性显著。111(3)ln2Qnpq依此类推,再检验下一对典型变量之间的相关性。直至相关性不显著为止。对两组变量x和y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。H0经检验被拒绝,则应进一步检验假设。若原假设H0被接受,则认为只有第二对典型变量是有用的;若原假设H0被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设。(二)部分总体典型相关系数为零的检验023rH:==123:,,,rH至少有一非零034rH:==134:,,,rH至少有一非零如此进行下去.直至对某个k014krH:==114:,,,krH至少有一非零检验的统计量211(1)rkiik2111[(3)]ln2kikikQnkpq近似服从自由度为(p-k)(q-k)的2分布。在给定的显著性水平下,如果22[(p-k)(q-k)],则拒绝原假设,认为至少第k+1对典型变量之间的相关性显著。第四节典型相关分析的计算步骤在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行估计,然后利用估计得到的协方差或相关系数矩阵进行分析。由于估计中抽样误差的存在,所以估计以后还需要进行有关的假设检验。1、假设有X组和Y组变量,样本容量为n。假设(X1,Y1),(X2,Y2),…,(Xn,Yn),观测值矩阵为:nqnnpnqpqpqpqpyyxxyyxxyyxxyyxxyyxxZ11441441331231221221111111yyyxxyxxSSSSnn1111ˆZZ样本的协方差:qnqnpnpnqqppqqppqqppqqppyyyyxxxxyyyyxxxxyyyyxxxxyyyyxxxxyyyyxxxx111141414141313121312121212111111111Z2、计算特征根和特征向量求M1和M2的特征根,对应的特征向量。则特征向量构成典型变量的系数,特征根为典型变量相关系数的平方。)(ˆ111yxyyxyxxSSSSM令:)(ˆ112xyxxyxyySSSSM令:22221r),,2,1(riii和第五节邮电业与国民经济的典型相关分析二、数据分析我们将基于1995年到2007年我国国民经济数据(数据来自于中国统计年鉴),利用Stata软件来做邮电业和国民经济之间的典型相关分析。数据具体见表1.我们将采用如下指标来衡量我国各年份的邮电业:采用下面的指标来衡量我国各年份的经济(单位都是万亿).canon(x1-x4)(y1-y4)e=exact,a=approximate,u=upperboundonFRoy'slargestroot308.1948616.38030.0000uLawley-Hotellingtrace318.081161469.58020.0000aPillai'strace2.2247816322.50650.0131aWilks'lambda.0002161011615.912914.75960.0000aStatisticdf1df2FProbFTestsofsignificanceofallcanonicalcorrelations0.99840.95120.44360.3557Canonicalcorrelations:y40.0000-0.0003-0.0001-0.0000y30.00010.0013-0.0103-0.0075y2-0.00000.00020.00150.0006y10.0001-0.0001-0.00050.00161234Rawcoefficientsforthesecondvariablesetx40.0000-0.0004-0.00040.0004x30.00000.00030.0003-0.0003x20.0000-0.0000-0.00010.0000x1-0.0069-0.0457-0.0038-0.06291234RawcoefficientsforthefirstvariablesetCanonicalcorrelationanalysisNumberofobs=13.canon(x1-x4)(y1-y4),test(1234)Roy'slargestroot308.1948616.38030.0000uLawley-Hotellingtrace318.081161469.58020.0000aPillai'strace2.2247816322.50650.0131aWilks'lambda.0002161011615.912914.75960.0000aStatisticdf1df2FProbFTestsofsignificanceofallcanonicalcorrelations0.99840.95120.44360.3557Canonicalcorrelations:y40.0000-0.0003-0.0001-0.0000y30.00010.0013-0.0103-0.0075y2-0.00000.00020.00150.0006y10.0001-0.0001-0.00050.00161234Rawcoefficientsforthesecondvariablesetx40.0000-0.0004-0.00040.0004x30.00000.00030.0003-0.0003x20.0000-0.0000-0.00010.0000x1-0.0069-0.0457-0.0038-0.06291234RawcoefficientsforthefirstvariablesetCanonicalcorrelationanalysisNumberofobs=13e=exact,a=approximate,u=upperboundonFWilks'lambda.873497181.15860.3131eStatisticdf1df2FProbFTestofsignificanceofcanonicalcorrelation4Wilks'lambda.7016424140.67840.6182eStatisticdf1df2FProbFTestofsignificanceofcanonicalcorrelations3-4Wilks'lambda.0668163914.7533.34370.0196aStatisticdf1df2FProbFTestofsignificanceofcanonicalcorrelations2-4Wilks'lambda.0002161011615.912914.75960.0000aStatisticdf1df2FProbFTestofsignificanceofcanonicalcorrelations1-4用似然比法检验典型相关系数与零的差别是否显著,检验r1时,其零假设为r1以及小于r1的所有典型相关系数都为零;检验时r2,其零假设为r2以及小于r2的所有典型相关系数都为零,依此类推。所求的似然比统计量近似服从F,其P值说明第1和第2典型相关系数分别具有非常显著和显著的意义。.canon(x1-x4)(y1-y4),stdcoefe=exact,a=approximate,u=upperboundonFRoy'slargestroot308.1948616.38030.0000uLawley-Hotellingtrace318.081161469.58020.0000aPillai'strace2.2247816322.50650.0131aWilks'lambda.0002161011615.912914.75960.0000aStatisticdf1df2