相关系数矩阵的逆矩阵与行列式的内涵分析20130205-王惠文

无语寒冰冰
1 ℃
2019-12-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

相关系数矩阵的逆矩阵与行列式的内涵分析【摘要】相关系数矩阵是用于表现变量之间相关关系的统计分析工具。然而，多元变量之间的相关关系极易受各种复杂因素的影响，因此并不能仅仅依据该矩阵中的数值来解释变量间的关系。而利用偏相关系数则可以进一步地反映变量间的本质联系。本文系统研究了相关系数矩阵的逆矩阵与行列式中的深刻内涵，一方面讨论了相关系数矩阵的逆矩阵与偏相关系数之间的数量联系；另一方面，从数学上证明了相关系数矩阵的行列式与变量间各阶次偏相关系数的等式关系。此外，论文还进一步指出这些研究结论在多元线性回归建模中的指导意义。【关键词】相关系数矩阵偏相关系数多元线性回归分析中图分类号：O212.4文献标识码：A一、引言1877年，FrancisGalton在一次演讲中用“复原”（reversion）一词定义了甜豆苗母代与子代之间物理特性的关系[1]，这是历史早期人们对相关性概念的理解。从那以后，许多科学家不断尝试，希望创造一种方法来测量两变量的相关性大小。KarlPearson在1895年提出了Pearson相关系数（PearsonProduct-MomentCorrelationCoefficient），并给出了计算公式。在此之后，人们又创造性地提出了若干种等价的计算方式。最有代表性的是Rodgers和Nicewander（1988）[2]，他们在总结前人成果的基础上，从13种不同的角度来解读Pearson相关系数，为相关系数的广泛应用做出了重要贡献。在Pearson相关系数的基础上，关于相关性问题的深入研究也在不断继续。如Fisher（1925）[3]详细解释了偏相关系数、序列相关等；Lord（1968）[4]说明了偏相关、复相关与多元线性回归的关系；国内的学者如马江洪（1994）[5]在讨论多元线性回归分析中的复杂相关性问题时，推导了偏相关系数的计算公式；王海燕（2006）[6]等比较了偏相关系数与标准化系数，得到了二者的数量关系和统计意义。除此之外，偏相关系数、半偏相关系数的区别和应用日益受到重视[7,8]；相关分析、偏相关分析也逐步应用于医学、信号处理等领域[9,10]；尾部相关系数、多相关系数等延伸概念也被提出和解释[11,12]。时至今日，相关系数及与其有关的拓展应用，仍然是统计领域的热点研究问题。（“应用”不适合称为“方法”）本文以Pearson相关系数矩阵（以下简称为相关系数矩阵）为出发点，对相关系数矩阵的两种最基本的代数变换形式——逆矩阵、行列式中隐含的信息进行研究。在文章的第二部分，通过一个实例说明了相关系数矩阵在解释多元相关关系时的缺陷；第三部分则系统讨论了相关系数矩阵的逆矩阵与偏相关系数之间的数量关系；第四部分重点研究了相关系数矩阵行列式所包含的内涵信息，从数学上证明了相关系数矩阵行列式与变量间各阶次偏相关系数的等式关系；此外，还进一步讨论了这些研究结论对多元线性回归建模的指导意义。二、相关系数矩阵及其局限性为了充分认识研究相关系数矩阵与偏相关系数之间联系的重要性，本节将通过一个实例来说明相关系数矩阵的局限性。1.相关系数矩阵首先给出一些必要的数学符号。由于数据的中心化不会改变变量间的相关性，所以为叙述简便，如不特殊说明，本文以下提到的变量均是中心化数据（即每个变量的均值为0）。对于一个有p个变量和n个观测的数据集合12,,,pX=xxx，其中每一个变量,1,2,,njjpRx。则X的相关系数矩阵R被记为：12112212111pppppprrrrrrR=（1）注意到每一个变量均为中心化的，所以有ix与jx之间的简单相关系数ijr为，Tijijijrxxxx，,1,2,ijp…（2）对于矩阵R，它有两个最基本的代数变换形式，即逆矩阵和行列式。本文将系统研究这两种代数变换中所隐含的更加深刻的相关性信息。如果相关系数矩阵R是可逆矩阵，记R的逆矩阵1R为：1=ijpppR（3）此外，将相关系数矩阵R的行列式记为R。2.相关系数矩阵的局限性在相关系数矩阵R中，每个元素ijr是两个变量ix与jx之间的简单相关系数。一般地，它可用于测量这两个变量之间的相关程度。然而值得注意的是，在多元分析问题中，由于变量之间的相关关系会受到更多交错复杂的因素影响，其相关程度往往无法从简单相关系数矩阵R中得到准确的反映。例如，JoneNeter（1990)曾利用一套脂肪数据来说明变量多重相关问题的隐蔽性和复杂性[13]。这套数据中有3个变量，分别是三头肌皮褶厚度1x，大腿围长2x、中臂围长3x。这3个变量之间的简单相关系数矩阵R如表1所示：表1脂肪数据的相关系数变量名称三头肌皮褶厚度1x大腿围长2x中臂围长3x三头肌皮褶厚度1x10.92380.4578大腿围长2x0.923810.0847中臂围长3x0.45780.08471从表1看到的情形是，三头肌皮褶厚度1x和大腿围长2x之间的相关程度非常高；中臂围长3x与其他2个变量的相关程度都比较低，尤其是中臂围长3x和大腿围长2x，二者相关系数仅为0.085。然而，这并不能推断中臂围长与其他两个变量之间不存在多重共线性。事实上，如果以3x为因变量，以12,xx为自变量，建立回归模型，则会得到一个测定系数20.9904R的回归方程：31262.33081.88091.6085xxx（4）从这个例子可以看出，在多元分析时，简单相关系数常常无法反映变量之间的本质联系。因此，仅依据简单相关系数矩阵R来解释变量之间的相关性是不可靠的。三、1R与偏相关系数之间的联系为了更加准确地描述变量之间的相关关系，人们常利用偏相关系数来测量变量集合中复杂的相关关系。在本节中，将讨论偏相关系数与相关系数矩阵逆矩阵1R之间的联系。首先，简述偏相关系数的定义。对于p个变量的集合12,,,,ijpX=xxxxx，为了得到变量ix与jx的偏相关系数，首先用ix对除jx外的所有变量做回归，得到此回归方程的残差ie；接着，用jx对除ix外的所有变量做回归，得到此回归方程的残差je。记\,ijXxx为变量集合X中除ix和jx外的其他所有变量的集合。将ie与je的简单相关系数记为,,ijijrX\xx，则称,,ijijrX\xx为ix与jx关于\,ijXxx的偏相关系数。从上述定义可见，偏相关系数是在控制某两个变量以外的其他变量对它们的影响之后,计算这两个变量之间的相关关系。显然，它更加深刻地反映了变量之间的本质联系。马江洪（1994）推导了由R的伴随矩阵内的元素计算偏相关系数的公式。由此可知，偏相关系数可以由1R中的元素计算求得。其具体计算方法是：当R矩阵可逆，则有偏相关系数,,ijijijiijjprppX\xx（5）公式（5）为计算偏相关系数提供了一种行之有效的方法。同时，也搭建了简单相关系数与偏相关系数之间的桥梁。事实表明，在多变量的场合下，由于变量之间存在错综复杂的关系，偏相关系数与简单相关系数在数值上可能会有很大的差异，有时甚至会出现符号相反的情况。例如，本文第二节中使用的脂肪数据，其偏相关系数值如表2所示：表2脂肪数据的偏相关系数变量名称三头肌皮褶厚度1x大腿围长2x中臂围长3x三头肌皮褶厚度1x10.99910.9951大腿围长2x0.99911-0.9939中臂围长3x0.9951-0.99391对比表1和表2中的数值，可以得到一些很不一样的结论。比如，如果从偏相关系数来看，中臂围长3x与其他2个变量的相关程度都相当高。此外，当控制了变量三头肌皮褶厚度1x后，中臂围长3x与大腿围长2x的偏相关系数为负值。由此可见，如果要更加准确地反映两个变量之间的内在联系，不能简单地计算相关系数，而是需要考虑偏相关系数[14]，并将两者合理地配合使用。而从本节的分析可以看出，在1R矩阵中包含了偏相关系数的计算要素，可以更深入地反映多变量分析中的共线性信息。四、R与各阶偏相关系数之间的联系在上一节已得到相关系数矩阵的逆矩阵1R与多变量之间复杂的相关性之间的关系。本节将重点研究相关系数矩阵行列式R中所包含的丰富内涵信息。记1jr为1x和jx的简单相关系数（也叫做0阶偏相关系数）；2,1jr为2x和jx关于1x的1阶偏相关系数；2,1jr为3x和jx关于12(,)xx的2阶偏相关系数；以此类推……，1,122pppr为1px和px关于122,,,pxxx的2p阶偏相关系数。笔者通过数学证明，得到公式（6）：222212,13,121,1222341111pppjjjpppjjjrrrrR（6）上式的证明参见附录1。由公式（6）可以看出R与1jr、2,1jr、2,1jr，……，1,122pppr之间所存在的联系。而且，根据行列式的计算性质，任意调换变量集合中12,,,pX=xxx中2个变量的位置，行列式值R都不会发生改变。所以，公式（6）全面建立了相关系数矩阵行列式与各阶次偏相关系数之间的数量关系，反映了更为复杂的相关性信息。众所周知，R的取值情况会对多元分析问题有重要的影响。比如，在多元线性回归建模过程中，设有自变量集合12,,,pX=xxx和因变量Y，这些变量都是中心化的。利用最小二乘方法，可以得到模型参数的估计值如下：211pjj*TTXXXYBR=x(7)其中，*TXX为TXX的伴随矩阵。从公式（7）中看到，R处在分母的位置上。因此，如果R取值非常接近0，则1/R的计算结果就不稳定，继而会造成回归系数B计算结果的非稳健性。因此，结合公式（6），就可以具体指出影响回归建模稳健性的若干关键因素。首先，从公式（6）可以看出，在多元线性回归建模时，出现任意2个变量的简单相关系数过高，或者它们之间的任何阶次的偏相关系数过高，都会导致R几乎等于0。例如在脂肪数据的案例中，表2中的偏相关系数的绝对值都达到了0.99以上。再利用（6）式可以计算出，该相关系数矩阵的行列式=0.0014R。其次，如果进一步分别计算（6）式中的各个因子，还可以看出是哪些变量之间的复杂相关性对行列式R的影响最大。仍以脂肪数据为例，现将R的3个因子分解组合计算，结果如表3所示：表3脂肪数据行列式R的因子分解22121311rr223,11r222121323,1111rrr0.11580.01210.0014由表3中可见，造成R几乎为0的主要原因是因子223,11r的值过小，即是由偏相关系数23,1r的取值偏大造成。最后，从公式（6）还可以看出，当自变量的数量比较多时，即便不存在两两变量间的高度相关性，也会造成R非常接近0。例如，在一个有15个自变量的回归模型中，即使所有自变量的简单相关系数和各阶次偏相关系数都只等于0.3，仍会出现R等于0.0047的现象。所以，这也提醒人们，在多元线性回归建模工作中，一定要遵守参数节省原则，尽量删除不必要的自变量，减少自变量的数量。五、总结相关系数矩阵R是多元统计分析中的一个常用工具。R矩阵有两个最基本的代数变换形式，一个是逆矩阵1R，另一个是行列式R。本文通过分析1R和R与偏相关系数之间的数量关系，展现了相关系数矩阵中所隐含的丰富内涵信息。研究表明，从相关系数矩阵中，不但可以直接得到两两变量之间的简单相关系数，还可以发掘出变量之间各种复杂的偏相关关系。本文研究从数学理论层面上，进一步揭示了相关系数矩阵定义的深刻意义。此外，本文还指出，在多元分析的应用研究中，可以运用文中研究结论，来识别变量集中多重共线性的形成原因，并明确危害建模效果的一些实质性因素。由此可见，本文的研究结论在多元分析建模中具有十分重要的应用价值。参考文献：[1]KarlPearson,F.R.S.NotesOnTheHistoryOfCorrelation.BiometriciansandMathematicalStatisticians[J],1920,14:44-45.[2]J.L.Rodgersan