1多元数据的正态性检验摘要:本文对多元正态性检验的两种主要方法——2统计量的Q-Q图检验法和主成分检验法进行了讨论,介绍其基本原理、具体实施步骤,通过实例分析进行应用研究,并比较它们的优劣,发现主成分检验法的实用性和应用价值更强.关键词:多元正态性2统计量Q-Q图检验法主成分检验法TheNormalityTestforMultivariateDataAbstract:Inthispaper,wediscusstwomainmethodsofmultiplenormaltests,Q-Qcharttestandprincipalcomponenttest,introducethebasicprincipleandthespecificimplementationsteps,researchthroughstudyingthecase,andcomparetheiradvantagesanddisadvantages.WefoundthattheprincipalcomponenttestisbetterthanQ-Qcharttestinpracticalityandappliedvalue.Keywords:Multivariatenormality;Chi-squarestatistic;Q-Qchartest;Principalcomponenttest引言正态分布在学习中是一种很重要的分布,在自然界中占据着很重要的位置,它能描述许多随机现象,从而充当一个真实的总体模型.尽管在学习中我们总是碰到很多问题的总体服从正态分布,然而,在一个实际问题中,总体一定是正态分布吗?一般的讲,所作统计推断的结论是否正确,取决于实际总体与正态总体接近的程度如何.因此,建立一些方法来检验多元观测数据与多元正态数据的差异是否显著是十分必要的.如今,一元数据的正态检验的理论已相当成熟,但对于多元数据的正态性检验问题还处在摸索前进的阶段,没有形成行之有效、有足够说服力的检验方法.本文将在第一节中介绍文中用到的一元正态性检验的两种基本方法:图方法和矩法;第二节中介绍2统计量的Q-Q图检验法基本原理和检验步骤;第三节中介绍主成分正态检验法的基本原理和检验步骤;第四节中通过两个实例做应用分析;第五节中对这两种方法在应用中的优劣做比较分析.1一元正态性检验的方法鉴于一元数据正态性检验的多样性,本文不一一介绍,只介绍本文中用到的2检验法和偏峰检验法.1.1图方法设12,,...,nxxx是来自总体的X随机样本,检验),(~:20NXH.如果没有关于样本的附加信息可以利用,首选推荐的是利用正态概率纸画图.它让人们立即看到观测的分布是否接近正态分布.2对于一张正态概率纸,它的横轴的刻度是均匀的,纵轴按标准正态分布的P分位数均匀刻度,标上相应的P值.正态概率纸上的坐标轴系统使正态分布的分布函数呈一条直线.利用正态概率纸检验一组观测值是否服从正态分布,可以按如下步骤进行:把n个观测值按非降次序排列成12nxxx.然后把数对(3/8,1/4kkxn)(1,2,,kn)点在正态概率纸上.如果所画的n个点明显地不成一条直线,则拒绝原假设.如果这些点散布在一条直线附近,则可以粗略地说,样本来自正态分布.这时,可以凭直觉配一条直线,使它离各点的偏差尽可能地小,其中在纵轴刻度为50%附近各点离直线的偏差要优先照顾,使其尽可能地小,并且使直线两边的点数大致相等.如果发现得到的点系统地偏离一条直线,在拒绝原假设后,可以考虑备择假设的类型.特别,如果几个较大的值明显地倾向于由其它值确定的直线的下方,作logyx或yx等变换可能使图形更符合一条直线.这种方法也就是人们常说的P-P图法或Q-Q图法.1.2矩法矩法,也称动差法、偏峰检验法,它是利用中心距的概念引入的两个量,正态分布的这两个量有着很好的特征,因此,常用这两个量进行正态性检验.总体X的偏度是刻画X分布的对称程度的量,记为31322()[()]EXEXGEXEX,(1.2.1)10G,X的分布对称;10G,称为正偏;10G,称为负偏.总体X的峰度是衡量X的概率分布密度陡峭程度的量,记为4222()[()]EXEXGEXEX,(1.2.2)正态分布的偏度为0,峰度为3.一个分布如果1G远离0或2G远离3,则可认为它与正态分布相差很大,为了检验样本12,,...,nxxx是否来自正态总体,先计算偏度和峰度的估计量3113321()(())niiniixxgxx,412321()(())niiniixxgxx.当总体服从正态分布且样本容量n很大时,统计量1g和2g近似正态分布,且有1()0Eg,224()Vargn,如果以下不等式16622gnn,22424232gnn,只要有一个不成立,就认为总体不服从正态分布[4].22统计量的Q-Q图检验法2.12统计量的Q-Q图检验法的原理3为了充分解释2统计量的Q-Q图检验法的基本原理,先引入分位数和经验分布函数的概念以及一个重要结论.定义2.1对10p,称满足不等式pxXP)(,pxXP1)(的x值为随机变量X的P阶分位数.如果X是连续型的,那么P阶分位数就是满足方程pxF)(的x的值.如果X是离散型的,那么,P阶分位数存在唯一性的问题.因此采用以下定义更准确:设X的分布函数为)(xF,对10p,定义x的P阶分位数为pxFxxp)(:inf.所以)(1pFxp就是分布函数的反函数,且只存在唯一的P阶分位数,即xF的左侧分位数.分位数是随机变量的重要数字特征,在描述数据的分布时非常有用.定义2.2设nxxx,,21是总体X的一组样本观察值,将它们按大小顺序排列为)()2()1(nxxx,x为任意实数,称函数(1)()()(1)()0,(),1,knnkknxxFxxxxxx,为经验分布函数.经验分布函数的图像是一条阶梯曲线,若观察值不重复则阶梯的每一个跃度都是1n,若重复,则按1n的倍数跳跃上升.对任意的实数x,()nFx的值等于样本的观察值12,,,nxxx中不超过x的频率,由频率与概率的关系,()nFx可以作为总体X的分布函数()Fx的一个近似值,随n的增大,近似程度越好.结论2.1设),(~pNX,0,则),(~21pXX,其中1'.证明:因为0,由正定矩阵的分解可得'CC(C为非退化方阵),令1YCX,即XCY,则),(~1pPICNY,因'CC,所以1,ppYNCI,且有),(~211pYYCYCYXX,4其中111''CC.下面介绍2统计量的Q-Q图检验法的原理,设()1(,...;)(1,,)pXXXan为来自p元总体X的随机样本,检验),(~:0PNXH,1:HX不服从(,)pN.由上面的结论1可知在0H成立时,)(~)()(21pXX,所以将X到总体中心的马氏距离2(,)DX=1()()XX记为2D,则有)(~22pD.以下构造的检验方法是检验量2D是否有)(~22PD成立.先由样品()aX计算2(1,,)aDan,并对2aD排序:222(1)(2)()...nDDD;取统计量2D的经验分布函数为2()0.5()ntttFDpn,记2()(|)tHDp表示2()p的分布函数在2()tD的值,则在0H下有2()(|)ttpHDp;由经验分布得到样本的tp分位数21()()tntDFp,同时设2分布的tp分位数为2t,若假设0H成立,应有:22()ttD.然后绘制点22()(,)ttD的散点图,这些点应散布在一条过原点且斜率为1的直线上,如果存在明显的偏离,则可以拒绝原假设.这种检验法其实就是2分布的Q-Q图检验法.如果不利用分位数,直接用概率散点2()(,(|))ttpHDp绘图,就是2分布的P-P图检验法.2.22统计量的Q-Q图检验法一般步骤为了方便应用,将上述思路的具体实施步骤归纳如下:(1)由n个p维样品1,,aXan计算样本均值X和样本协方差阵S:11'1naaaSXXXXn;(2.2.1)(2)计算样品点tX(1,2,,tn)到X的马氏距离:21'1,,tttDXXSXXtn;(3)对马氏距离2tD按从小到大的次序排序:22212nDDD;(4)计算0.51,2,,ttptnn以及2t,其中2t满足:52ttHpp(或计算2tHDp的值);(5)以马氏距离为横坐标,2分位数为纵坐标作平面坐标系,用n个点22,ttD绘制散布图,即得到2分布的Q-Q图;或者用另n个点2,ttpHDp绘制散布图,即得2分布的P-P图;(6)考察这n个点是否散布在一条通过原点,斜率为1的直线上,若是,接受数据来自p元正态总体的假设;否则拒绝正态性假设.3主成分检验法3.1主成分检验法的基本原理目前,关于主成分的研究很多,但大多数集中在进行综合评价及回归分析,用来做检验的则几乎没有.主成分检验法是建立在主成分变量基础上的统计方法,基本思想是降维:将多元数据集转化为多个一元互相独立的数据集,通过检验一元数据集的正态性来判断原多元数据集的正态性.为充分解释这一思想,先引入主成分的定义.定义3.1.1设X=12(,,,)'pXXX是p维随机向量,均值()EX,协方差阵()DX,称iiZaX为X的第i主成分(1,2..ip),如果:(1)1(1,2.,)iiaaip;(2)当1i时,0(1,2.,1)ijaaji;(3)1,0(1,2.,1)()max()ijiaajiVarZVarX.若已知的特征值为120p,12,,,paaa为相应的单位正交特征向量,则X的第i主成分iiZaX(1,2..ip)具体的证明过程参见文献[1].如果可以证明:1Z,…,pZ是相互独立的,这时p元数据的正态性检验可化为P个相互独立的主成分的一元数据的正态性检验,这种检验方法称为主成分检验法.下面说明主成分的不相关性.设()DX,如果是对角矩阵,即p维向量的分量互不相关,这时可以直接把p元正态性检验问题转化为p个一元正态性检验问题.但一般不是对角矩阵,即分量间是相关的,利用主成分分析法,求得X的p个主成分1Z,…,pZ.下证1Z,…,pZ是不相关的.令12(,,,)pZZZZ,由于1Z,…,pZ依次为X的第i主成分的充要条件是12()(,,,)pDZdiag.即有0(,)ijiijCovzzij,又1≥2≥……≥p>0,即说明任意两个不相同的主成分之间是不相关的,故12,,,pZZZ不相关.6文献[2]中给出了主成分数据处理的基本方法,并分析了方法的不足,提出了改进的方法.直接将标准化的数据代入*TpnpnZAX,则得到主成分得分.其中,系数矩阵pnA为对应特征向量组成的矩阵,*TpnX为标准化的数据集.从中我们看到,计算主成分得分实际上是将标准化后的原始数据投影到旋转后的坐标中.结论3.1.1若~(,)XN,则~(,)ZNAAA;反之,若Z服从多元正态分布,则X也服从多元正态分布.证明:由主成分的定义知,ZAX,其中,12(,,,)pAaaa且为正交矩阵.由于~(,)XN,则()()()EZEAXAEXA,()()()DZDAXADXAAA,从而,由多元正态分布的线性性质,~(,)ZNAAA,反过来,由Z服从正态分布,同理可知X服从正态分布.结论3.1.2若12,,,pZZZ独立同正态分布,则Z服从多元正态分