STATSTATSAS软件与统计应用教程第七章典型相关与对应分析7.1典型相关分析7.2对应分析STATSTATSAS软件与统计应用教程7.1典型相关分析7.1.1典型相关分析的概念与步骤7.1.2用INSIGHT模块实现典型相关分析7.1.3用“分析家”实现典型相关分析7.1.4用CANCORR过程实现典型相关分析STATSTATSAS软件与统计应用教程7.1.1典型相关分析的概念与步骤1.典型相关分析的基本思想典型相关分析采用主成分的思想浓缩信息,根据变量间的相关关系,寻找少数几对综合变量(实际观测变量的线性组合),用它们替代原始观测变量,从而将二组变量的关系集中到少数几对综合变量的关系上,通过对这些综合变量之间相关性的分析,回答两组原始变量间相关性的问题。除了要求所提取的综合变量所含的信息量尽可能大以外,提取时还要求第一对综合变量间的相关性最大,第二对次之,依次类推。STATSTATSAS软件与统计应用教程这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当其中的一组只有一个变量时,典型相关系数即为复相关系数。STATSTATSAS软件与统计应用教程2.典型相关系数与典型相关变量设X=(X1,X2,…,Xp)',Y=(Y1,Y2,…,Yq)'是两个随机向量。利用主成分思想寻找第i对典型相关变量(Ui,Vi):Ui=ai1X1+ai2X2+…+aipXp=ai'XVi=bi1Y1+bi2Y2+…+biqYq=bi'Yi=1,2,…,m=min(p,q);称ai'和bi'为(第i对)典型变量系数或典型权重。STATSTATSAS软件与统计应用教程记第一对典型相关变量间的典型相关系数为:CanR1=Corr(U1,V1)(使U1与V1间最大相关);第二对典型相关变量间的典型相关系数为:CanR2=Corr(U2,V2)(与U1、V1无关;使U2与V2间最大相关)…第m对典型相关变量间的典型相关系数为:CanRm=Corr(Um,Vm)(与U1,V1,…,Um–1,Vm–1无关;Um与Vm间最大相关)STATSTATSAS软件与统计应用教程3.典型相关变量的性质各对典型相关变量所包括的相关信息互不交叉,且满足:1)U1,U2,…,Um互不相关,V1,V2,…,Vm互不相关,即其相关系数为jijiVVCorrjijiUUCorrjiji,0,1),(,0,1),(STATSTATSAS软件与统计应用教程2)同一对典型相关变量Ui和Vi之间的相关系数为CanRi,不同对的典型相关变量之间互不相关,即:3)Ui和Vi的均值为0,方差为1(i=1,…,m)。4)1≥CanR1≥CanR2≥…≥CanRm≥0jijiCanRVUCorriji0),(STATSTATSAS软件与统计应用教程4.典型相关系数的求解步骤1)求X,Y变量组的相关阵R=;2)求矩阵A=(R11)–1R12(R22)–1R21和B=(R22)–1R21(R11)–1R12,可以证明A、B有相同的非零特征值;3)求A或B的特征值λi与CanRi,A或B的特征值即为典型相关系数的平方:λi=(CanRi)2,i=1,…,m。22211211RRRRSTATSTATSAS软件与统计应用教程4)求A、B关于λi的特征向量。设ai为A关于λi的特征向量,bi为B关于λi的特征向量,则ai'和bi'为(第i对)典型变量系数。即第i对典型相关变量(Ui,Vi):Ui=ai'X*=ai1X1*+ai2X2*+…+aipXp*Vi=bi'Y*=bi1Y1*+bi2Y2*+…+biqYq*i=1,2,…,m=min(p,q);其中X*,Y*为原变量组的标准化。STATSTATSAS软件与统计应用教程5.特征根特征根(eigenvalue)是方差分析和多元检验的基础,特征根与典型相关系数之间的数量关系为:上式可以理解为第i对典型变量表示观测变量总方差作用的指标,它的值越大说明表示作用越大。221iiCanRCanRi特征根第STATSTATSAS软件与统计应用教程6.典型相关系数的标准误7.典型相关系数的假设检验典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验。对数据的要求:1)两个变量组均应服从多维正态分布:(X,Y)~Np+q(μ,σ2)2)np+q112nCanRCanRSEiiSTATSTATSAS软件与统计应用教程(1)全部总体典型相关系数为0H0:CanRi=0,i=1,…,mH1:至少有一个CanRi≠0检验的似然比统计量为对于充分大的n,当H0成立时,统计量近似服从自由度为pq的2分布。miir121)1(11ln)]3(21[qpnQSTATSTATSAS软件与统计应用教程(2)部分总体典型相关系数为0仅对较小的典型相关作检验:H0:CanRi=0,i=s,…,m,2≤s≤mH1:至少有一个CanRi≠0其检验的统计量为对于充分大的n,当H0成立时,统计量近似服从自由度为(p–k)(q–k)的2分布。mkiikr121)1(1121ln])3(21[kkiikrqpknQSTATSTATSAS软件与统计应用教程7.1.2用INSIGHT模块实现典型相关分析1.实例【例7-1】1985年中国28省市城市男生(19~22岁)的调查数据,见表7-1。其中6项形态指标:身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽,分别记为x1,x2,…,x6;5项机能指标:脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml),分别记为y1,y2,…,y5。STATSTATSAS软件与统计应用教程表7-1城市男生(19~22岁)形态与机能调查数据设表中数据已经存放在数据集Mylib.xtyjn中,试分析形态指标和机能指标这两组变量间的相关性。编号身高x1坐高x2体重x3胸围x4肩宽x5盆骨宽x6脉搏y1收缩压y2舒张压y3舒张压y4肺活量y51173.2893.6260.186.7238.9727.5175.3117.474.661.845082172.0992.8360.3887.3938.6227.8276.7120.177.166.244693171.4692.7859.7485.5938.8327.4675.8121.875.265.443984170.0892.2558.0485.9238.3327.2976.1115.173.861.340685170.6192.3659.6787.4638.3827.1472.9119.477.567.14339………………………………16167.9490.9155.9786.6638.1727.1676.2110.968.556.8414117168.8291.356.0785.8737.6126.6777.2113.87157.5390518168.0291.2655.2885.6339.6628.0774.5117.27463.8394319167.8790.9655.7984.9238.226.5374.3112.369.350.2419520168.1591.554.5684.8138.4427.3877.5117.475.363.6403921168.9991.5255.1186.2338.327.1477.7113.372.152.84238STATSTATSAS软件与统计应用教程2.分析设置在INSIGHT模块中打开数据集Mylib.xtyjn。1)选择菜单“Analyze”“Multivariate(YX)(多元分析)”,打开“Multivariate(YX)”对话框;2)将6项形态指标:x1至x6选为X变量,将5项机能指标:y1至y5选为Y变量,如图7-1左所示。STATSTATSAS软件与统计应用教程3)单击“Output”按钮,在打开的对话框中选中“CanonicalCorrelationAnalysis(典型相关分析)”复选框,单击下面的“CanonicalCorrelationOptions(典型相关选项)”按钮,打开“CanonicalCorrelationOptions”对话框,并按下图右所示设置。4)三次单击“OK”按钮,得到分析结果。STATSTATSAS软件与统计应用教程3.结果分析(1)典型相关系数第1典型相关系数为0.939573,校正值为0.908276,标准误差为0.026207,典型相关系数的平方为0.882797;第2典型相关系数为0.877842,校正值为0.842459,标准误差为0.051294,典型相关系数的平方为0.770606,如图所示。前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大。STATSTATSAS软件与统计应用教程(2)典型变量所解释的变异第二部分是的5个特征根(Eigenvalues),包括:特征根、相邻两个特征根之差、特征根所占方差信息量的比例和累积方差信息量的比例。从中可以看出,前两对典型变量所能解释的变异占总变异(方差)的91.18%,如图7-4所示。其它三个典型相关变量的作用很小,一共只解释了总变异的9%,可以不予考虑。STATSTATSAS软件与统计应用教程(3)典型相关系数的检验用似然比法检验典型相关系数与零的差别是否显著,其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为0,其p值依次为0.0010,0.0509和0.5089等等,如图7-5所示,说明前两对典型相关系数基本具有显著意义(在α0.0509的显著水平下)。因此,两组变量相关性的研究可转化为研究前两对典型相关变量的相关性。STATSTATSAS软件与统计应用教程(4)典型相关结构典型相关结构(下图)分别是各组原始变量与典型变量两两之间的相关系数矩阵。从相关系数判断,形态指标中除x5(0.0514)、x6(0.2433)外各变量与第一典型变量间的相关性都比较高,机能指标中除y2(0.0975)外各变量与第一典型变量间的相关性也都比较高。x5与第二典型变量间的相关性比较高,y2与第二典型变量间的相关性比较高。y1与前两个典型变量的相关系数为负值。STATSTATSAS软件与统计应用教程说明,第一对典型变量对肩宽x5和收缩压y2的解释作用不大。另外,从形态指标组的变量和机能指标组的典型变量之间,以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见,各组变量与前两对典型变量之间均有较强的相关。STATSTATSAS软件与统计应用教程(5)标准化变量的典型相关变量的系数输出结果中还给出标准化变量的典型变量系数,如图所示。来自机能指标的第一典型变量CY1为(原始变量的右上角带“*”表示为标准化变量):CY1=–0.071672y1*–0.789642y2*+0.567178y3*+0.508332y4*+0.533496y5*容易看出,CY1主要代表了舒张压变音、舒张压消音、肺活量等指标。STATSTATSAS软件与统计应用教程来自形态指标的第一典型变量CX1为:CX1=0.4287x1*–0.09696x2*–0.16210x3*+0.93745x4*+0.23498x5*–0.18696x6*易知,CX1主要代表了胸围、身高和肩宽等指标。关于第二典型变量有:CY2=–0.026533y1*+1.213436y2*–0.535038y3*–0.186048y4*+0.455870y5*CX2=0.70270x1*–0.39985x2*+0.84359x3*–0.99063x4*–0.06829x5*+0.48310x6*可见,CY2代表了收缩压和肺活量等指标;CX2代表了身高、体重、盆骨