非参数假设检验上节讨论了母体分布类型为已知时的参数假设检验问题.一般在进行参数假设检验之前,需要对母体的分布进行推断.本节将讨论母体分布的假设检验问题.因为所用的方法适用于任何分布或者仅有微弱假定分布,实质上是不依赖于分布的.在数理统计学中不依赖于分布的统计方法统称为非参数统计方法.这里所讨论的问题就是非参数假设检验问题.这里所研究的检验是如何用子样去似全母体分布,所以又称为分布拟合扰度检验,一般有两种:一是拟合母体的分布函数;另一是拟合母体分布的概率函数.这里我们只介绍三种检验方法:概率图纸法.2-拟合优度检验和柯尔莫哥洛夫斯米尔诺夫检验.一,概率图纸法这是一种比较直观和简便的检验方法.它适合于在现场使用.目前常见的概率图纸有正态,对数正态,二项分布,指数分布和威布尔分布概率图纸等.这里我们只介绍正态概率图纸,关于其它分布的概率图纸的构造原理和使用方法都是类似的1.正态概率图纸的构造原理设母体有分布函数F(x),{N(,2)}表示正态分布族.需要检验假设)},({)(:20NxFH这里和2均为未知常数.在原假设0H为真时,通过中心化变换)(2121)(22)(222xduedtexFxxt即)(服从正态N(0,1).函数u(x)是x的线性函数.)((7.13)在(x,u(x))直角坐标平面上是一条直线.这条直线过(,0),且斜率为1.2.检验步骤.事实上,我们知道的不是母体取出的一组子样观察值nxx,,1由格里汶科定理知道子样的经验分布函数)(xFn依概率收剑于母体分布函数F(x).所以在检验母分体布函数F(x)是否属于正态分布族时,我们以大子样的经验分布函数)(xFn作为母体分布的近似.若0H:F(x)∈{N(,2)}为真,那末点,,,1)),(,(nixFxii在正态概率图纸上应该在一条直线上.所以根据上述经验分布函数)(xFn是母体分布函数F(x)很好的近似,点,,,1)),(,(nixFxii在正态概率图纸上也应该近似地在一条直线附近.倘若点列)),(,(iixFx不是近似地在一条直线附近,那末只能说明F(x)不属于正态分布族.根据上述想法,用正态概率图纸去检验假设0H的具体步骤如下.(1)整理数据(2)描点(3)目测这些点的位置,3.未知参数与2的估计.若通过概率图纸检验已经知道母体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点,,,1)),(,()()(nixFxini的一条直线l,因为)(服从正态N(0,1),所以当0)(x,即x=时对应的概率F=0.5.因此,只要在概率图纸上面一条F=0.5的水平直线.这条直线与直线l的交点的横坐标5.0x就可以作为参数为的估计.又由(x)=1时所对应的概率F=0.8413的水平直线,这条直线与直线l的交点的横坐标为8413.0x.这个8413.0x显然满足18413.08413.0x即8413.0x因此可以用差5.08413.0xx估计.例7.8(略)见P338二,2的似体检验法前面介绍了直观而简便的概率图纸法,它不需要很多计算就能对母体分布族作出一个统计推断,并且还能对分布所含的参数作出估计.但是这种方法因人而异,且精度不高,又不能控制犯错误的概率.这里介绍2-拟合检验法,它能够像各种显著性检验一样控制犯第一类错误的概率.设母体的分布函数为具有明确表达式的F(x),.我们把随机变量的值域R分成k个互不相容的区间kkkaaAaaAaaA,,,,,,1212101这些区间不一定有相同的长度.设nxx,,1是容量为n的子样的一组观测值.in为子样观测值nxx,,1中落入iA的频数.nnnii1在这n次事件iA出现的频率为nni.我们现在检验原假设)()(:00xFxFH.设在原假设0H成立下,母体落入区间iA的概率为iP,即kiaFaFAPPiiii,1),()()(100(7.14)此时n个观察值中,恰有1n个值落入1A内,2n的观察值落入2A内,kn个观察值落入kA内的概率为knnnnkPPPnnnn212121!!!!这是一个多项分布.按大数定理,在0H为真时,频率nni与概率iP的差异不应太大.根据这个思想构造一个统计量2=kiiiinPnPn12)((7.15)称做2-统计量.往后可以看到,用2表示这一统计量不是没有原因的.因为它的极限分布就是自由度为k-1的2-分布.为了能够把2-统计量用来作检验的统计量,我们必须知道它的抽样分布.我们先k=2的简单情形.在0H成立下,221)(,)(PAPPAPi其中121PP这时,频数nnn21我们考察222212112)()(nPnPnnPnPn(7.16)令222111,nPnYnPnY(7.17)显然0)(212121PPnnnYY(7.18)由此可见1Y与2Y不是线性独立,且21YY.于是21212221212PnPYnPYnPY21111)1(PnPnPn(7.19)根据德莫弗-拉普拉斯极限定理,当n充分大时,随机变量)1(1111PnPnPn的分布是接近于正态的,从而推得k=2情形的分布,当n充分大时,是接近于自由度为1的2-分布.对于一般情形有如下的定理.定理7.1当0H为真时,即kPP,,1为母体的真实概率时,由(7.15)式所定义的统计量2的渐近分布是自由度为k-1的2-分布,即密度函数为,0,2121)(22321xkkexkxf(7.20)证因为在n个观测值中恰有1n个观测值落入1A内,2n的观察值落入2A内,kn个观察值落入kA内的概率为knnnnkPPPnnnn212121!!!!这里nnnnk21.其特征函数nkjitjkjePtt112),,((7.21)令kjnPnPnYjjjj,2,1,(7.22)于是有kjjkjjjjYnPnPn12122)((7.23)和kjjjPY1=0(7.24)由此式看出,诸随机变量jY不是线性独立的.(kYY,,1)的联合分布的特征函数具有形状2111expexp),,(kjjjjkjjjknPitPnPittt(7.25)两边取对数得kjjjjkjjjnnPitPnPtnitt111expln),,(ln(7.26)利用指数数函和对数函在0jt处的泰勒展开:nnPtnPitnpitjjjjjj121exp2和)(2)1ln(22xxxx于是)1(21211211ln),,(ln11212111211kjkjkjjjjjjkjjjkjkjjjjkjjjkPtnitnPtninPtnintnPtninPtnitt当n时kjkjjjjkPtttt1212121),,(ln即kjkjjjjknPtttt1212121exp),,(lim(7.26)作一正交变换:kjjkjkjljlYPZklYaZ111,,1,(7.27)其中lja应该满足1,,1,,0,11krlrlrlaakjrjlj和1,,1,01klPakjjlj由kjjjkkjyijltPukltau111,1,(7.28)得到1122112kjjkjikjjjuPtt(7.29)由(7.26)知,当n时,(kZZ,,1)的特征函数112121exp),,(limkjjknuuu.这意味着11,,kZZ的分布弱收剑于相互独立的正态N(0,1)分布,而kZ依概率收剑于0.因此kjjkjjZY12122的渐近分布是自由度为k-1的2-分布.如果原假设0H只确定母体分布类型,而分布中还含有未知参数m,,1则我们还不能用定理7.1来作为检验的理论依据.费歇证明了如下定理.从而解决了含未知参数情形的分布检验问题.定理7.2设F(x;m,,1)为母体的真实分布,其中m,,1为m个未知参数.在F(x;m,,1)中用m,,1的极大似然估计m,代替m,,1并且以F(x;m,)取代(7.4)中的F(x)得到),,1;(),,1;(1maFmaFiiiP(7.30)则将(7.30)代入(7.15)所得的统计量kjiininnpp122()(7.31)当n时有自由度为k-m-1的2-分布.例7.9(略)见P345由例子来总结一下利用2-检验分布假设的步骤:(1)把母体的值域划分为k个互不相交的区间[,,,1),,1kiaaii其中kaa,1可以分别取,;(2)在0H成立下,用极大似然估计法估计分布所含的未知参数;(3)在0H成立下,计算理论概率)()(010iiiaFaFp并且算出理论频数inP;(4)按照子样观察值nxxx,,,21落在区间),[1iiaa中的个数,即实际频数,,,1,kini和(3)中算出的理论频数inP,计算iiinPnPn)(2的值;(5)按照所给出的显著性水平,查自由度k-m-1的2-分布表得)1(21mk,其中m是未知参数的个数;(6)若221,则拒绝原假设0H,若212,则认为原假设0H成立.三柯尔莫哥洛夫似合检验------nD检验2-似合检验是比较子样频率与母体的概率的.尽管它对于离散型和连续型母体分布都适用.但它是依赖于区间的划分的.因为即使原假设)()(:00xFxFH不成立,在某种划分下还是可能有kiPaFaFaFaFiiiii,,1,)()()()(1001从而不影响(7.5)中2的值,也就是有可能把不真的原假设0H接受过来.由此看到,用2-检验实际上只是检验了,,,1,)()(100kiPaFaFiii是否为真,而并未真正地检验母体分布F(x)是否为)(0xF.柯尔莫哥洛夫对连续母体的分布提出了一种方法.一般称做柯尔莫哥洛夫检验或nD-检验.这个检验比较子样经验分布函数)(xFn和母体分布函数F(x)的.它不是在划分的区间上考虑)(xFn与原假设的分布函数之间的偏差.而是在每一点上考虑它们之间的偏差.这就克服了2-检验的依赖于区间划分的缺点.但母体分布必须假定为连续.根据格里汶科定理,我们可以把子样经验分布函数看作实际母体分布函的缩影.如果原假设成立,它与F(x)的差距一般不应太大.由此柯尔莫哥洛夫提出一个统计量|)()(|supxFxFDnxn(7.32)并且得到这统计量nD的精确分布和极限分布K(λ).它们都不依赖于母体的分布.这里我们不加证明地引入柯尔莫哥洛夫定理.定理7.3设母体有连续分布函数F(x),从中抽取容量为n的字样,并设经验分布函数为)(xFn,则|)()(|supxFxFDnxn的分布函数nDPn21=nnnndyyyfnnnnnnnnn2120212,1,),,(0,0212123232122121当