正态性检验的一般方法

木头桩子1
2 ℃
2020-02-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

正态性检验的一般方法姓名：蓝何忠学号：1101200203班号：1012201正态性检验的一般方法【摘要】：正态分布是自然界中一种最常见的也是最重要的一种分布.因此,人们在实际使用统计分析时,总是乐于正态假定,但该假定是否成立,牵涉到正态性检验.在一般性的概率统计教科书中,只是把这个问题放在一般性的分布拟合下作简短处理,而这种万精油式的检验方法,对正态性检验不具有特效.鉴于此,该文从不同角度出发介绍正态性检验的几种常见的方法,并且就各种方法作了优劣比较,【引言】一般实际获得的数据，其分布往往未知。在数据分析中，经常要判断一组数据的分布是否来自某一特定的分布，比如对于连续性分布，常判断数据是否来自正态分布，而对于离散分布来说，常判断是否来自二项分布.泊松分布，或判断实际观测与期望数是否一致，然后才运用相应的统计方法进行分析。几种正态性检验方法的比较。一、2拟合优度检验：（1）当总体分布未知，由样本检验总体分布是否与某一理论分布一致。H0:总体X的分布列为p{X=}=,i=1,2,……H1：总体X的分布不为.构造统计量其中为样本中发生的实际频数,为H0为真时发生的理论频数。（2）检验原理若2=0，则=,意味着对于，观测频数与期望频数完全一致，即完全拟合。观察频数与期望频数越接近，则2值越小。当原假设为真时，有大数定理，与不应有较大差异，即2值应较小。若2值过大，则怀疑原假设。拒绝域为R={2d}，判断统计量是否落入拒绝域，得出结论。二、Kolmogorov-Smirnov正态性检验：Kolmogorov-Smirnov检验法是检验单一样本是否来自某一特定分布。比如检验一组数据是否为正态分布。它的检验方法是以样本数据的累积频数分布与特定理论分布比较，若两者间的差距很小，则推论该样本取自某特定分布族。即对于假设检验问题：H0:样本所来自的总体分布服从某特定分布H1：样本所来自的总体分布不服从某特定分布统计原理：Fo（x）表示分布的分布函数，Fn（x）表示一组随机样本的累计概率函数。设D为Fo(x)与Fn（x）差距的最大值，定义如下式:D=max|Fn(x)-Fo(x)|对于给定的a，P{Dnd}=a.例如：35位健康男性在未进食前的血糖浓度如表所示，试测验这组数据是否来自均值μ=80，标准差σ=6的正态分布8777926880788477818080779286768081757772819084868068778776777892758078n=35检验过程如下：假设H0:健康成人男性血糖浓度服从正态分布H1:健康成人男性血糖浓度不服从正态分布#{,1,2,,}()inxxinFxn计算过程如表：结论：上表中的理论值(x)是根据标准化值z查表得到，实际上D=max|Fn(x)-(x)|=0.1754查D值表，故不能拒绝H0即健康成年男人血糖浓度服从正态分布，当样本容量n大时可以用Dα，n=1.36/求得结果，如上述D0.55,35=1.36/=0.2299=0.23结论：当实际观测DDn,则接受H1，反之则不拒绝H0假设。2拟合优度检验与K-S正态检验的比较：2拟合优度检验与K-S正态检验都采用实际频数与期望频数进行检验。它们之间最大的不同在于前者主要用于类别数据，而后者主要用于有计量单位的连续和定量数据，拟合优度检验虽然也可以用于定量数据，但必须先将数据分组得到实际观测频数，并要求多变量之间独立，而K-S正态检验法可以不分组直接把原始数据的n个观测值进行检验，所以它对数据的利用较完整。三、Lilliefor正态分布检验该检验是对Kolmogorov-Smirnov检验的修正，当总体均值和方差未知时，Lilliefor提出用样本均值和标准差代替总体的期望和标准差，然后使用Kolmogorov-Smirnov正态性检验法，它定义了一个D统计量;D=maxFn（x）-Fo（x）|参数未知，由计算得到统计量，查表得Lilliefor检验的临界值，确定拒绝域，得出结论。四、偏度峰度检验法：（一）偏度检验：设随机变量X具有数学期望和方差，为X的偏度，所谓偏度检验就是检验如下假设：:=0注意到，拒绝原假设，则可以认为样本不是来自正态总体。接受原假设，并不等价于接受原假设“样本来自正态总体”。这是因为任一对称分布的偏度都为0，无法排除样本来自非正态的对称分布的可能。因此，偏度检验只能检验数据分布的对称性。由于总体分布未知，无法直接得到总体的偏度，故可以利用样本偏度作为检验上述假设的检验统计量，记定义1设为随机变量X的n个相互独立的样本，偏度检验的检验统计量为(*)常被用于双尾检验，因为非正态分布可能出现左偏，也可能出现右偏。在原假设成立时，，在显著性水平下取定分位点，若,则拒绝原假设。事实上,的分布是对称的，因此采取双尾检验的做法是合理的。定理1设为(*)式中定义的偏度检验统计量，则渐进服从均值为0，方差为6的正态分布，即样本容量有限的情形，使用渐进情形下的结论就会导致较高的出错率，这也是偏度检验的一个缺陷。需要指出的是，只有在确定对称性是唯一影响分布的形态时，偏度检验才是合适的选择，否则应该避免使用偏度检验。（二）峰度检验设随机变量X具有数学期望和方差，为X的峰度，所谓峰度检验，实际上是将正态性检验转化为检验如下假设：如同偏度检验一样，峰度为3的非正态分布也是存在的。所以，接受原假设并不能表明X一定服从正态分布，这一事实也导致对数据的正态性检验会有一定的出错率。定义2设为随机变量X的n个相互独立的样本，峰度检验的检验统计量为(*2)定理2设为(*2)式中定义的峰度统计量，则同偏度统计量一样,的收敛速度也是比较慢的.五、小样本场合（3n50）的W检验w检验是检验样本容量n≤50时，样本是否符合正态分布的一种方法。其检验步骤如下：①将数据按数值大小重新排列，使x1≤x2≤…≤xn；②计算③计算式中：当n为偶数时，i=n/2；n为奇数时，i=（n－1）/2；值可查表得出；④计算检验统计量[2]2(1)()121[()]()niniiiniiaXXWXX⑤若Ｗ值小于判断界限值Ｗα（可通过查表求得），按表上行写明的显著性水平α舍弃正态性假设；若ＷＷα,接受正态性假设。21()niiXX六、大样本场合（50n100）的D检验检验统计量：()132()11()2()()niiniiniXDnXX再令则在显著性水平时，拒绝域为。其中分别为Y的和分位数。总结在各种正态性检验方法中，一般通用的方法有2检验以及K检验，但检验精度较低。偏度检验对非对称、长尾分布较敏感；峰度检验对对称分布较敏感；W检验对各种分布（特别对非对称分布）都很敏感。当总体均值和方差未知且无先验信息时用Lilliefor正态检验.大样本情况下D检验是比较好的检验方法。但我们要知道，检验方法的功效性都是随着样本量的增大而增大的。