北京交通大学刘晓分布拟合检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1检验分布拟合的22提出的.分类数据的检验问题中首先是在出来的.这个检验方法年提于统计学家检验是著名的英国分布拟合的1900K.Pearson2χ3检验一、分类数据的2419世纪,伟大的生物学家Mendel按照颜色与形状把豌豆分为四类:黄而圆的,青而圆的,黄而有角的,青而有角的.Mendel根据遗传学的理论指出,这四类的豌豆个数之比应当为9︰3︰3︰1.他在556n粒豌豆中,观察到这四类豌豆的个数分别为:315,108,101,32.在实际观察中,由于有随机性,观察数一般不会恰好呈现9︰3︰3︰1的比例,因此就需要根据这些观察数据,对Mendel的理论进行统计检验.52检验正是为了这种需要而产生的.除此之外,Mendel的其它许多数据都曾用2检验法检验过.可见Pearson的2检验对确立他的遗传学说起了一定的作用.而Mendel的实践向统计学家提出了一个很有意义的问题,也促进了统计学的发展.6上述这种分类数据的检验问题的一般提法如下:根据某项指标,总体被分成r类:rAAA,,,21.对此,我们最关心的是其比例问题,即属于各类的个体数在总体中所占的比例的大小.通常我们可从理论上、经验上提出一个如下假设:0H:类iA所占的比例为ip,ri,,2,1.由于分类是完全的,所以11riip.7我们进行观察,从该总体中随机抽取n个个体.假设其中属于类iA的观察个数为in,ri,,2,1.显然,nnrii1.在0H成立时,n个个体中属于iA类的“期望个数”应当为ipn,ri,,2,1.在统计学中,ipn称为理论频数;in称为实际频数.在假设0H为真时,实际频数in应接近于理论频数ipn.8Pearson提出用riiiipnpnn122作为衡量实际频数与理论频数的偏差的综合指标.在假设0H为真时,2的值倾向于较小;否则,就倾向于取较大的值.因此检验的拒绝域应当为cxxxWn2211:,,,.9Pearson证明了下面的极限定理,根据这个2定理,我们可以由给定的显著性水平,近似地确定出临界值c.定理在假设0H成立时,有122rL.10注:⑴分类数据的检验问题的显著性水平近似等于的检验的拒绝域为1:,,,212211rxxxWn.⑵在实际使用这个2检验法时,样本量n必须充分地大,并且在每个类中的实际频数都不应小于5.11例在Mendel的豌豆试验问题中,豌豆被分成了四类.按照Mendel的理论,这四类豌豆个数之比为9︰3︰3︰1.这相当于说,任取一颗豌豆,它属于这四类的概率分别为161,163,163,169.如果Mendel的理论是正确的,则在被观察的556n颗豌豆中,属于这四类的“理论频数”分别为75.34161556,25.104163556,25.104163556,75.312169556.取05.0,所以81.731295.021r,因此检验的拒绝域为81.7:,,,2211nxxxW.12而我们所观察到的实际频数分别为32,101,108,315,由此算得2统计量的值为47.075.3475.343225.10425.10410125.10425.10410875.31275.31231522222.由于47.081.731295.021r,所以不拒绝0H,可以认为Mendel的理论是正确的.13为方便计算,可列出如下的表格:表1Mendel豌豆试验的2检验计算表iinipniiipnpnn2131575.3120162.0210825.1041349.0310125.1041013.043275.342176.04700.0214检验χ的二、带参数的分类数据215在上述所讨论的分类数据的检验问题中,当原假设0H成立时,各类的比例(也就是所有的ip)都是完全已知的.但是在许多应用问题中,它们有可能只是部分已知的,其中还包含着有限个未知的实参数.看下面的例子:16例有1000人按性别和是否色盲分类如下:男女正常442514色盲386按照遗传学模型,这些数字应有下列相对的概率:2,2,2,222qqpqpp,其中pq1.问数据是否与模型相符合?17本题所要检验的假设为0H:212,212,122,222432221pqppqpppppqpppp其中4321,,,pppp分别为男性正常,女性正常,男性色盲,女性色盲的概率.由于pppii依赖于未知参数p,所以衡量实际频数与理论频数的偏差的综合指标riiiipnpnn122中含有未知参数p,因此它不能作为检验统计量,我们必须对它进行修改,18一个很自然的做法就是将上式中的ip用它的估计量ipˆ来替代.为此,我们首先求出参数p的极大似然估计量pˆ,并由此得到ip的估计量pppiiˆˆ.然后将此代入上式,得统计量riiiipnpnn122ˆˆ.19显然,它也可以用来衡量实际频数与理论频数的偏差,也就是数据与模型的偏差的综合指标.现在的问题是,当n时,它的极限分布是否仍是2分布?假如仍是2分布,其自由度是否仍是1r?英国著名的统计学家R.A.Fisher解决了这个问题,从而推广了2统计量的极限定理.20根据某项指标,总体被分成r类:rAAA,,,21.设类iA所占的比例为ip,ri,,2,1.这里miipp,,,21依赖于m个未知参数m,,,21.21如果j的极大似然估计量为jˆ,mj,,2,1.那么1ˆˆ2122mrpnpnnLriiii.其中miippˆ,,ˆ,ˆˆ21,ri,,2,1.22此时,显著性检验问题0H:类iA所占的比例为miipp,,,21,ri,,2,1.的显著性水平近似等于的检验的拒绝域为1:,,,212211mrxxxWn.23例在上述色盲与性别的问题中,似然函数为62385144422121222ppppppL5051495610001221ppp,由似然方程0dppdL,得p的极大似然估计值为91.0ˆp,24从而得诸ip的估计值ipˆ,4,3,2,1i分别为00405.0,045.0,49595.0,455.0.由1000638514442n知理论频数分别为05.4,45,95.495,455.25取05.0,由于4r,1m,所以991.521295.021mr,因此检验的拒绝域为991.5:,,,2211nxxxW.而我们所观察到的实际频数分别为6,38,514,442,由此算得2统计量的值为056.305.405.4645453895.49595.49551445545544222222.26由于056.3991.521295.021mr,所以不拒绝0H,可以认为关于色盲与性别的观察数与遗传学模型是相符合的.27三、分布拟合的检验28设nXXX,,,21是取自总体xFX~中的一个样本,需要检验的原假设为0H:总体分布函数为xF0.其中xF0称为理论分布.它可以是一个完全已知的分布,也可以是一个仅依赖于有限个实参数且具体数学形式已知的分布函数.这个分布检验问题就是检验数据是否与理论分布相符合.在样本容量较大时,这个问题可用分类数据的2检验来解决.这时的2检验称为分布拟合的2检验.291、总体X为离散型随机变量30设总体X为取有限个或可列无限个值的离散性随机变量.我们把若干个ia值并成一类,使得,,,,21maaa被分成有限个类:rBBB,,,21,使得样本的观测值nxxx,,,21落在每一个iB内的个数in都不小于5.记iipBXP,ri,,2,1.31因此,假设0H:总体分布函数为xF0.就相当于假设0H:类iB所占的比例为ip,ri,,2,1.这样,总体X为离散型随机变量时的分布检验问题与上述分类数据的检验问题就毫无区别了.32例在某交叉路口记录每15秒钟内通过的汽车数量,观察了25分钟,共100次,结果如下:汽车数量01234567891011频数1515172611983221在显著性水平05.0下检验假设:0H:通过该交叉路口的汽车数量服从Poisson分布.33解:我们先估计理论分布Poisson分布中的参数.由于参数的极大似然估计量为Xˆ,所以参数的估计值为3.41001112101525110ˆ.34我们把1,0这两个值并为一类,把不小于8的值也并为一类,使新的一类内的实际频数都不小于5,如下表中括弧所示.并类后,共有8r类.这个问题的2检验的具体计算过程如下:35表22检验计算表iin3.4!3.4ˆeipiiipnˆiiipnpnnˆˆ201510500.00111.011.60020.02151125.025.112500.13171687.087.160010.04261898.098.185964.25111708.008.171643.2691281.081.121332.1780824.024.80070.089101112230043.00104.00232.00463.042.80210.01749.736因为被估计的参数的个数1m,所以临界值为592.1261295.0295.0mr,因此检验的拒绝域为592.12:,,,2211nxxxW.而由样本观测值,有592.121749.72.所以不拒绝0H,可以认为通过该路口的汽车车辆数服从Poisson分布.372、总体X为连续型随机变量38这时,需要用适当的点121naaa,把实数轴划分为r个区间:,,,,,,1211naaaa.39这r个区间相当于r个类.在原假设0H为真时,记1001iiiiiaFaFaXaPp,ri,,2,1.其中0a,na.以in表示样本nXXX,,,21落在区间iiaa,1内的个数ri,,2,1.接下来的做法就与总体X只取有限个值的情况一样了.40例混凝土抗压强度的分布被认为是正态分布2,N.建立假设:0H:混凝土抗压强度的分布为正态分布.为检验这一点,抽取容量200n的样本.我们把实数轴分成6r的区间:41,240,240,230,230,220,220,210,210,200,200,.样本值落在这6个区间中的频数分别为14,30,64,56,26,10654321nnnnnn.它们都不小于5.42由样本观测值求得与的最大似然估计值为2211ˆ2001iixnx,2cmkg;33.121ˆ20012iixxn,2cmkg.则由11001iiiiiiiaaaFaFaXaPp,得33.1222133.122211iiiaap,6,,2,1i.43这个问题的2检验统计量的计算如下表表32检验计算表序号区间inipˆipnˆiiipnpnnˆˆ21200,10045.0

1 / 64
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功