第四章相关分析我们研究的实际问题,受到各种因素的影响,影响因素的不确定性是绝对的,这样问题变量与影响变量之间的关系就不可能用一个确定公式表示,这种关系称为相关关系。前面在研究相关关系时,总是假定影响变量是普通变量。在进行相关分析时,将所有变量,不分因果,同等视为随机变量。相关分析是以样本观察值研究变量间相互关联的密切程度,从而确定模型中的解释变量(自变量)。§4.1相关的概念相关关系:变量间的非确定性关系。存在于两个变量间的相关关系,称为简单相关。三个或三个以上变量之间的相关关系称为复相关(多重相关)。从相关的形态看有线性与非线性之分;从相关的走向看有正相关、负相关和零相关(不相关)。一.简单相关系数:皮尔逊相关相关系数是用来描述变量之间线性关系(相关)程度的指标。1.总体相关系数:22(,)xyxyxyxyCOVxy是不可观察的。2.样本相关系数r:12211niixyinnxyiiiixySrSSxy;22rR,即2rR其中111nxyiiiSxyn,称为样本协方差,且是xy的无偏估计量;22111nxiiSxn,称为x的样本方差;且是2x的无偏估计量;22111nyiiSyn,称为y的样本方差,且是2y的无偏估计量。因此,样本相关系数r可作为总体相关系数的估计,即r二.r,,2R之间的关系:1.2112211nniiiiinniiiixyyrxx,00r对检验与对检验是等价的。2.2rR,r的符号与一致,r与2R的区别:必须进行显著性检验。三.的显著性检验:可将r看作的估计,即r。在总体服从正态分布的假定下,当0时,统计量22(2)1~rnTtnr检验步骤:1.01:0,:0HH;2.计算检验统计量221rnTr;3.对给定的显著性水平,查(2)tn分布表得临界值2(2)tn;4.T与2(2)tn比较,若2(2)Ttn,拒绝0H,接受1H若2(2)Ttn,接受1H,拒绝0H四.相关矩阵R:在研究模型是否满足经典假定6时,需要了解所有自变量简单相关系数,为表达方便,可将所有简单相关系数排成矩阵形式,称为相关矩阵。假设有k个自变量12,,......kxxx。ijr是ix与jx之间的简单相关系数,则相关矩阵R为11121121212222121212...1......1.................................1kkkkkkkkkkrrrrrrrrrrrrrrrR,显然TRR在聚类分析中,相关矩阵也重要的分析工具。§4.2偏相关系数一.偏相关系数的概念:有一组变量12,,,......kyxxx两个变量之间的相关关系(例如y和jx)不只涉及这两个变量,还包括其它变量的影响。因此,y和jx的简单相关系数yir不仅描述了y和jx的相关,同时还包括其余变量通过jx对y的间接影响。若要考虑y和jx的纯的相关关系,就要排除其余变量的间接影响。只考虑两个变量之间的相关关系,并且清除其余变量的间接影响,这种相关叫做偏相关。根据所排除变量个数的多少可分为零阶偏相关(简单相关),一阶偏相关(只排除一个变量的影响),二阶偏相关(排除两个变量的影响),......(1)k阶偏相关(排除其余所有变量的影响)。描述偏相关程度的指标称为偏相关系数,如:yjir(ij)一阶偏相关系数,表示消除了ix的影响后y和jx的相关系数。12ryjkk(1,2jkjk)二阶偏相关系数,表示消除了1kx和2kx的影响后y和jx的相关系数。......1,2,(1),(1),,ryjjjk,(k-1)阶偏相关系数,表示消除了除jx以外其余所有变量的影响后,y和jx的相关系数。这是y和jx的纯的相关系数。二.求法:1,2,......(1),(1),......,ryjjjk1,2,......(1),(1)......(1)1,2,......(1),(1)......(1)1,2,......(1),(1),......(1)22(1)(1)1,2,......(1),(1)(1)1,2,......(1),(1),......(1)rrryjjjkykjjkjkjjkrrykjjkjkjjk可用统计量21,2,......(1),(1),......,211,2,......(1),(1),......,rnyjjjkTryjjjk对其进行检验,检验过程与上节简单相关系数的检验过程类似。§4.3复相关系数在多个变量12,,,......kyxxx的相关关系中,一个变量y与其它所有变量12,,......kxxx的相关关系称为复相关。假设模型为01122,......,kkyxxxu记*01122,......,kkyxxx则有*yyu这样,y与12,,......,kxxx的相关分析变成y与*y的相关分析。其相关系数12(,,,)kyxxx同y与*y的简单相关系数*yy等价。12(,,......,)~kyxxx***(,)yyyyCOVyy其样本估计量121221(,,......,)(,,......,)21()()kkniiyxxxyxxxniiyyRSSRTSSyy在计算上,复相关系数估计量与拟合优度一致,但含义不同。两点说明:1.在多元情况下,12(,,,)kyxxxR总取正号;2.显著性检验是必要的,方法同第一节中类似。