典型相关分析的实例

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

CanonicalCorrelationAnalysis典型相关分析一、引言1.两个随机变量Y与X简单相关系数2.一个随机变量Y与一组随机变量X1,X2,…,Xp多重相关(复相关系数)3.一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp典型(则)相关系数(一)何时采用典型相关分析典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。典型相关是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推动了它的应用。实例(X与Y地位相同)X1,X2,…,XpY1,Y2,…,Yq1临床症状所患疾病2原材料质量相应产品质量3居民营养健康状况4生长发育(肺活量)身体素质(跳高)5人体形态人体功能1985年中国28省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,…,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1,Y2,…,Y5。现欲研究这两组变量之间的相关性。简单相关系数矩阵简单相关系数公式符号Corr(X)=R11Corr(Y)=R22Corr(Y,X)=R21Corr(X,Y)=R121221RR简单相关系数描述两组变量的相关关系的缺点只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。(二)典型相关分析的思想(,)iiiCorrUV采用主成分思想寻找第i对典型(相关)变量(Ui,Vi):****1122,****1122,1,2,min(,)iiiippiiiiqqUaXaXaXaXVbYbYbYbYimpqm,典型相关系数典型变量系数或典型权重ba、X*1,X*2,…,X*p和Y*1,Y*2,…,Y*q分别为X1,X2,…,Xp和Y1,Y2,…,Yq的正态离差标准化值。记第一对典型相关变量间的典型相关系数为:=Corr(U1,V1)(使U1与V1间最大相关)第二对典型相关变量间的典型相关系数为:=Corr(U2,V2)(与U1、V1无关;使U2与V2间最大相关).....……第五对典型相关变量间的典型相关系数为:=Corr(U5,V5)(与U1、V1、…、U4、V4无关;U5与V5间最大相关)有:1251250典型相关变量的性质1,1,(1)(,)(,)0,0,,2(,)0,i1CanR301ijijijiiijijCorrUUCorrVVijijijCorrUVijUV典型相关系数()【除前面()个之外的最大者】、的均数为,方差为。1X1X2X3212Y1Y2b11b22c11c21b23b13b21b12c12c22ρ11ρ2212η2η1典型变量典型相关系数•1与2是三个X变项的线性组合。•η1与η2代表两个Y变项的线性组合。典型加权系数(三)典型相关分析示意图二、典型相关系数及其检验(一)求解典型相关系数的步骤22211211RRRR1.求X,Y变量组的相关阵R=;2.求矩阵A、B可以证明A、B有相同的非零特征根;11111222211122211112()()()()ARRRRBRRRR3.求A或B的λi(相关系数的平方)与,i=1,…,m,即;4.求A、B关于λi的特征根向量即变量加权系数。i2ii(二)典型相关系数计算实例1.求X,Y变量组的相关阵R=22211211RRRRCorr(X)=R11Corr(Y)=R22Corr(Y,X)=R21Corr(X,Y)=R122.求矩阵A、B11111222211122211112()()()()ARRRRBRRRRA矩阵(p×p)0.52980.45860.30530.3986-0.2919-0.1778-0.0912-0.0701-0.1669-0.1939-0.0007-0.01680.22740.27390.54890.08400.52380.44680.09660.03760.05100.3877-0.2523-0.1759-0.0915-0.0979-0.0669-0.03770.0061-0.08060.09490.14210.1757-0.02100.21710.3142B矩阵(q×q)0.2611-0.0560-0.0337-0.0551-0.0312-0.00530.55720.10090.0034-0.0543-0.0632-0.08430.08590.00130.1743-0.1175-0.00070.11830.25500.1490-0.10520.13900.35310.29120.55733.求矩阵A、B的λ(相关系数的平方)0IBIAA、B有相同的非零特征值B矩阵求λ(典型相关系数的平方)0.2611-λ-0.0560-0.0337-0.0551-0.0312-0.00530.5572-λ0.10090.0034-0.0543-0.0632-0.08430.0859-λ0.00130.1743-0.1175-0.00070.11830.2550-λ0.1490-0.10520.13900.35310.29120.5573-λ5个λ与典型相关系数λ1=0.7643λ2=0.5436λ3=0.2611λ4=0.1256λ5=0.022011223344550.87420.73730.51100.35440.14824.求A、B关于λi的变量系数(求解第1典型变量系数)。)的方差为(此外,还应满足的矩阵为:关于第一特征根如矩阵17643.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.00168.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.07643.0A*616*1111161514131211161514131211XaXaUaaaaaaaaaaaaaAa求解第2典型变量系数。)的方差为(此外,还应满足的矩阵为:关于第一特征根如矩阵15436.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.00168.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.05436.0A*626*1212262524232221262524232221XaXaUaaaaaaaaaaaaaAa…求解第5典型变量系数。)的方差为(此外,还应满足的矩阵为:关于第一特征根如矩阵1022.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.00168.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.0022.0A*656*1515565554535251565554535251XaXaUaaaaaaaaaaaaaAa5组(标准化)典型变量系数(X)U1U2U3U4U5X10.5852-1.14430.78230.0352-0.8298X2-0.21750.01890.60320.12891.5590X30.52881.6213-0.7370-0.4066-1.1704X40.1890-0.9874-0.77530.12290.6988X5-0.1193-0.0626-0.2509-0.58601.0488X60.19480.81080.14670.9523-0.51405组(标准化)典型变量系数(X)SXXXXXXXUXXXU***6*2*15*6*2*11X5140.05590.18298.0......1948.02175.05852.0原变量,即的表示为正态离差标准化由标准化典型变量系数获得原变量X对应的粗典型变量系数常数)()()(),、()、,)、(,(为对应的均数标准差分别、、、如6216211621*6*2*115069.03153.04074.03842.017.271948.06897.620.922175.04365.137.1705852.03842.017.276897.620.924365.137.1701948.02175.05852.0XXXXXXUXXXXXXU粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。jijijSaa/*5组(标准化)典型变量加权系数(Y)V1V2V3V4V5Y1-0.0838-0.13251.08070.3750-0.0376Y2-0.08781.26880.07010.2476-0.3342Y30.2147-0.33010.2218-1.08631.4100Y40.2920-0.2392-0.57651.3368-0.2942Y50.7607-0.29950.6532-0.0017-0.6905(三)典型相关系数的特点1.两变量组的变量单位改变,典型相关系数不变,但典型变量加权系数改变。(无论原变量标准化否,获得的典型相关系数不变)2.第一对典则相关系数较两组变量间任一个简单相关系数的绝对值都大,即ρ1≥max(|Corr(Xi,Yj)|)或ρ1≥max(|Corr(X,Yj)|)≥max(|Corr(Xi,Y)|)(四)校正典型相关系数(AdjustedCanonicalCorrelation)为了使结果更加明了,增加大值或小值,减少中间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。缺点:1.可能影响max(U1,V1);2.影响(U1,V1)与其他典型变量间的独立性。(五)典型相关系数的假设检验1.全部总体典型相关系数均为02.部分总体典型相关系数为0(1),~(,).(2)pqXYNnpq对资料的要求:两个变量组应服从多变量正态分布。即设()1.全部总体典型相关系数为00121121121:0;1,2,,;min(,):0(1)(10.7643)(10.5

1 / 55
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功