典型相关分析典型相关分析(Canonicalcorrelation)又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。典型相关与主成分相关有类似,不过主成分考虑的是一组变量,而典型相关考虑的是两组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的成分使之与另一组的成分具有最大的线性关系。典型相关模型的基本假设:两组变量间是线性关系,每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共线性。典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因变量。典型相关会找出一组变量的线性组合**=iijjXaxYby与,称为典型变量;以使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。ia和jb称为典型系数。如果对变量进行标准化后再进行上述操作,得到的是标准化的典型系数。典型变量的性质每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关;原来所有变量的总方差通过典型变量而成为几个相互独立的维度。一个典型相关系数只是两个典型变量之间的相关,不能代表两个变量组的相关;各对典型变量构成的多维典型相关,共同代表两组变量间的整体相关。典型负荷系数和交叉负荷系数典型负荷系数也称结构相关系数,指的是一个典型变量与本组所有变量的简单相关系数,交叉负荷系数指的是一个典型变量与另一组变量组各个变量的简单相关系数。典型系数隐含着偏相关的意思,而典型负荷系数代表的是典型变量与变量间的简单相关,两者有很大区别。重叠指数如果一组变量的部分方差可以又另一个变量的方差来解释和预测,就可以说这部分方差与另一个变量的方差之间相重叠,或可由另一变量所解释。将重叠应用到典型相关时,只要简单地将典型相关系数平方(2CR),就得到这对典型变量方差的共同比例,代表一个典型变量的方差可有另一个典型变量解释的比例,如果将此比例再乘以典型变量所能解释的本组变量总方差的比例,得到的就是一组变量的方差所能够被另一组变量的典型变量所能解释的比例,即为重叠系数。例1:CRM(CustomerRelationshipManagement)即客户关系管理案例,有三组变量,分别是公司规模变量两个(资本额,销售额),六个CRM实施程度变量(WEB网站,电子邮件,客服中心,DM快讯广告Directmail缩写,无线上网,简讯服务),三个CRM绩效维度(行销绩效,销售绩效,服务绩效)。试对三组变量做典型相关分析。数据的格式如上所示,以下对三组变量两两做典型相关分析。首先对公司规模和CRM实施程度做典型相关分析SPSS并未提供典型相关分析的交互窗口,只能直接在synatxeditor窗口中呼叫SPSS的CANCORR程序来执行分析。并且cancorr不能读取中文名称,需将变量改为英文名称。打开文件后File-new--synatxeditor打开语法窗口输入语句INCLUDE'D:\spss19\Samples\English\Canonicalcorrelation.sps'.CANCORRSet1=CapitalSales/Set2=WebMailCallDMMobileShortM.小写字母也行,但是变量名字必须严格一致include'D:\spss19\Samples\English\Canonicalcorrelation.sps'.cancorrset1=CapitalSales/set2=WebMailCallDMMobileShortM.注意第三行的“/”不能为“\”runall得到典型相关分析结果第一组变量间的简单相关系数第一对典型变量的典型相关系数为CR1=0.434,第二对典型变量的典型相关系数为CR2=0.298.此为检验相关系数是否显著的检验,原假设:相关系数为0.每行的检验都是对此行及以后各行所对应的典型相关系数的多元检验。第一行看出,第一对典型变量的典型相关系数是不为0的,相关性显著。第二行sig值P=0.2630.05,在5%显著性水平下不显著。第一个典型变量的标准化典型系数为-0.287和-0.774.CV1-1=--0.287capital--0.774sales,CV1-2=--1.4capital+1.2salesCV2-1=--0.341web+0.117mail+0.027call—0.091DM—0.767mobile—0.174shortmCV2-2=--0.433web—0.168mail—1.075call+0.490DM+0.139mobile+0.812shortm典型负荷系数和交叉负荷系数表重叠系数分析Redundancyindex0.157=21CR*0.833=0.434^2*0.8330.08=21*0.425CR=0.434^2*0.425此为计算的典型变量,保存到原文件后部。公司规模与CRM绩效的典型相关分析CRM绩效与CRM实施程度典型相关分析自变量因变量规则相关系数检验的P值公司规模CRM实施程度0.4340.05CRM实施程度CRM绩效0.3680.00公司规模CRM绩效0.3580.112由上表知,公司规模与CRM实施程度显著相关,且公司规模越大实施程度越高;此外CRM实施程度越高越能实现CRM绩效,但公司规模与CRM绩效并不显著相关;就整体而言,公司规模不直接影响CRM绩效,而是通过CRM实施程度间接影响CRM绩效。影响CRM绩因素很多,光靠较大公司规模还不是CRM绩效的保证,还有其他因素影响CRM绩效。例2:全国30省市自治区农村收入与支出的指标,x1—x4反映农村收入,y1---y8反映农村生活费支出,对收入与支出进行典型相关分析。语法输入INCLUDE'D:/spss19/Samples/English/Canonicalcorrelation.sps'.cancorrset1=x1x2x3x4/set2=y1y2y3y4y5y6y7y8.只有前两对典型相关系数是显著的;分别为CR1=0.982和CR2=0.910.CV1-1=-0.511x1-0.039x2-0.448x3-0.142x4CV1-2=-1.046x1-0.293x2+1.459x3-0.319x4CV2-1=-0.199y1+0.017y2+0.442y3-0.615y4+0.096y5-0.415y6-0.07y7-0.22y8CV2-2=-0.117y1-1.512y2-1.515y3+1.320y4-0.03y5+0.705y6+0.453y7+0.274y8第一对典型变量说明靠劳动报酬和转移收入为主的家庭其对应的消费主要在家庭设备和服务,交通和通讯支出上,在居住支出上比较少。例三:已知294个被调查者的cesd(抑郁症),health与sex,age,education,income两组指标建立数据文件。对两组进行典型相关分析。语法输入INCLUDE'D:/spss19/Samples/English/Canonicalcorrelation.sps'.CANCORRSet1=cesdhealth/Set2=sexageeducincome.结果选录从第一对典型变量的表达式看出,年龄较大,教育程度较低,相对的无抑郁症趋势;显然健康比较差。第二对典型变量表明,年龄小,教育度低,收入低的女性相对的有抑郁症。