典型相关分析南通大学理学院1.简单相关系数:两个随机变量Y与X的相关系数2.多重相关系数:一个随机变量Y与一组随机变量X1,X2,…,Xp的相关系数3.典型相关系数:一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp的相关系数(一)典型相关分析适用的条件典型相关是简单相关、多重相关的推广典型相关是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推动了它的应用。实例(X与Y地位相同)X1,X2,…,XpY1,Y2,…,Yq1临床症状所患疾病2原材料质量相应产品质量3居民营养健康状况4生长发育(肺活量)身体素质(跳高)5人体形态人体功能1985年中国28省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,…,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1,Y2,…,Y5。现欲研究这两组变量之间的相关性。简单相关系数矩阵简单相关系数Corr(X)=R11Corr(Y)=R22Corr(Y,X)=R21Corr(X,Y)=R121221RR简单相关系数描述两组变量间相关性的缺点:只是孤立考虑X中单个分量与Y中单个分量间的相关性,没有考虑X、Y变量组内部各变量间的相关性。两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述(复相关系数也如此)。(二)典型相关分析的思想),(iiiVUCorrCanR采用主成分思想寻找第i对典型(相关)变量(Ui,Vi):qppiYbYbYbYbVXaXaXaXaUiqqiiiiippiiii,2,1**,*22*11**,*22*11典型相关系数典型变量系数或典型权重iiba、X*1,X*2,…,X*p和Y*1,Y*2,…,Y*q分别为X1,X2,…,Xp和Y1,Y2,…,Yq的正态离差标准化值。记第一对典型相关变量间的典型相关系数为:CanR1=Corr(U1,V1)(使U1与V1间最大相关)第二对典型相关变量间的典型相关系数为:CanR2=Corr(U2,V2)(与U1、V1无关;使U2与V2间最大相关)……第五对典型相关变量间的典型相关系数为:CanR5=Corr(U5,V5)(与U1、V1、…、U4、V4无关;U5与V5间最大相关)有:1≥CanR1≥CanR2≥……≥CanR5≥0典型相关变量的性质103CanR1i,0,),(2,0,1),(,0,1),()1(,方差为的均数为、之外的最大者】)个【除前面(典型相关系数)(iijijijiVUjijiVUCorrjijiVVCorrjijiUUCorr(三)典型相关分析示意图X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5CanR1CanR2CanR3CanR4CanR5二、典型相关系数及其检验(一)求解典型相关系数的步骤22211211RRRR1.求X,Y变量组的相关阵R=2.求矩阵A、B可以证明A、B有相同的非零特征根3.求A或B的λi(相关平方)与CanRi,i=1,…,p4.求A、B关于λi的特征根向量即变量系数12111211222112212111)()()()(RRRRBRRRRA(二)典型相关系数计算实例1.求X,Y变量组的相关阵R=22211211RRRRCorr(X)=R11Corr(Y)=R22Corr(Y,X)=R21Corr(X,Y)=R122.求矩阵A、B12111211222112212111)()()()(RRRRBRRRRAA矩阵(p×p)0.52980.45860.30530.3986-0.2919-0.1778-0.0912-0.0701-0.1669-0.1939-0.0007-0.01680.22740.27390.54890.08400.52380.44680.09660.03760.05100.3877-0.2523-0.1759-0.0915-0.0979-0.0669-0.03770.0061-0.08060.09490.14210.1757-0.02100.21710.3142B矩阵(q×q)0.2611-0.0560-0.0337-0.0551-0.0312-0.00530.55720.10090.0034-0.0543-0.0632-0.08430.08590.00130.1743-0.1175-0.00070.11830.25500.1490-0.10520.13900.35310.29120.55733.求矩阵A、B的λ(相关系数的平方)0IBIAA、B有相同的非零特征值B矩阵求λ(典型相关系数的平方)0.2611-λ-0.0560-0.0337-0.0551-0.0312-0.00530.5572-λ0.10090.0034-0.0543-0.0632-0.08430.0859-λ0.00130.1743-0.1175-0.00070.11830.2550-λ0.1490-0.10520.13900.35310.29120.5573-λ5个λ与典型相关系数λ1=0.7643λ2=0.5436λ3=0.2611λ4=0.1256λ5=0.02201482.03544.05110.07373.08742.05544332211CanRCanRCanRCanRCanR4.求A、B关于λi的变量系数(求解第1典型变量系数)。)的方差为(此外,还应满足的矩阵为:关于第一特征根如矩阵17643.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.00168.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.07643.0A*616*1111161514131211161514131211XaXaUaaaaaaaaaaaaaAa求解第2典型变量系数。)的方差为(此外,还应满足的矩阵为:关于第一特征根如矩阵15436.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.00168.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.05436.0A*626*1212262524232221262524232221XaXaUaaaaaaaaaaaaaAa…求解第5典型变量系数。)的方差为(此外,还应满足的矩阵为:关于第一特征根如矩阵1022.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.00168.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.0022.0A*656*1515565554535251565554535251XaXaUaaaaaaaaaaaaaAa5组(标准化)典型变量系数(X)U1U2U3U4U5X10.5852-1.14430.78230.0352-0.8298X2-0.21750.01890.60320.12891.5590X30.52881.6213-0.7370-0.4066-1.1704X40.1890-0.9874-0.77530.12290.6988X5-0.1193-0.0626-0.2509-0.58601.0488X60.19480.81080.14670.9523-0.51405组(标准化)典型变量系数(X)SXXXXXXXUXXXU***6*2*15*6*2*11X5140.05590.18298.0......1948.02175.05852.0原变量,即的表示为正态离差标准化由标准化典型变量系数获得原变量X对应的粗典型变量系数常数)()()(),、()、,)、(,(为对应的均数标准差分别、、、如6216211621*6*2*115069.03153.04074.03842.017.271948.06897.620.922175.04365.137.1705852.03842.017.276897.620.924365.137.1701948.02175.05852.0XXXXXXUXXXXXXU粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。jijijSaa/*5组(标准化)典型变量系数(Y)V1V2V3V4V5Y1-0.0838-0.13251.08070.3750-0.0376Y2-0.08781.26880.07010.2476-0.3342Y30.2147-0.33010.2218-1.08631.4100Y40.2920-0.2392-0.57651.3368-0.2942Y50.7607-0.29950.6532-0.0017-0.6905(三)典型相关系数的特点1.两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变)2.第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即CanR1≥max(|Corr(Xi,Yj)|)或CanR1≥max(|Corr(X,Yj)|)≥max(|Corr(Xi,Y)|)(四)校正典型相关系数(AdjustedCanonicalCorrelation)为了使结果更加明了,增加大值或小值,减少之间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。缺点:1.可能影响max(U1,V1);2.影响(U1,V1)与其他典型变量间的独立性。(五)典型相关系数的标准误1482.03544.05110.07373.08742.05544332211CanRCanRCanRCanRCanR188223.0)(168283.0)(142209.0)(087829.0)(045366.0)(54321CanRSECanRSECanRSECanRSECanRSE112nCanRCanRSEii(六)E-1