7.4分布拟合检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1DepartmentofMathematics概率论与数理统计主讲人:宣平2012年.秋学期2前面讨论的总体的参数估计和假设检验都是假定总体分布类型已知,在实际应用时,总体的分布往往未知,首先应对总体分布类型进行推断,如何对总体的分布进行推断呢?不难想象,我们可以由子样作经验分布函数的提示,对总体分布类型作假设,然后再对所提的假设进行检验。由于所用的方法不依赖于总体分布的具体数学形式。在数理统计中,就把这种不依赖于分布的统计方法称为非参数统计法。非参数统计的内容十分丰富,在本节我们主要介绍非参数假设检验中最重要的一类——分布的拟合检验。3§7.4分布拟合检验一、总体分布取有限个值12,,,.kXkAAAn设总体分为类,记为现对总体作次12,,,.kknnn观测,个类出现的频数分别为0:(),1,2,,.iiHPApik要检验的假设为0,1.iipp其中41、诸pi均已知如果H0成立,则对每一类Ai,其频率ni/n与概率pi应较接近。即观测频数ni与理论频数npi应相差不大。据此,英国统计学家K.Pearson提出如下检验统计量:0:(),1,2,,.iiHPApik221kiiiinnpnp并证明在H0成立时,对充分大的n,该检验统计量近似服从自由度为k-1的分布。22211Wk拒绝域为5例1为募集社会福利基金,某地方政府发行福利彩票,中彩者用摇大转盘的方法确定最后中奖金额.大转盘均分为20份,其中金额为5万、10万、20万、30万、50万、100万的分别占2份、4份、6份、4份、2份、2份。假定大转盘是均匀的,则每一点朝下是等可能的,于是摇出各个奖项的概率如下:概率0.10.20.30.20.10.1额度5万10万20万30万50万100万现20人参加摇奖,摇得5万、10万、20万、30万、50万和100万的人数分别为2、6、6、3、3、0,由于没有一个人摇到100万,于是有人怀疑大转盘是不均匀的,那么该怀疑是否成立呢?这就需要对转盘的均匀性作检验。6解:这是一个典型的分布拟合优度检验,总体共有6类,其发生概率分别为0.1、0.2、0.3、0.2、0.1和0.1,2215,这里k=6,检验拒绝域为:20.95511.07.查表得:2222222264663432023.75246422221kiiiinnpnp23.75,W故接受原假设,没有理由认为转盘不均匀。H0:大转盘是均匀的7补充说明:在分布拟合检验中使用p值也是方便的。本例中,以T记服从的随机变量,则使用2(5)统计软件可以算出3.750.5859.pPT这个p值就反映了数据与假设的分布拟合程度的高低,p值越大,拟合越好。82、诸pi不完全已知12,1,2,,(),,,irpikrrk若由个未知参数确定,12(,,,),1,2,,.iirppik即221ˆ()ˆkiiiinnpnp则有检验统计量,21).kr且近似服从(2211.Wkr——Fisher定理9例2卢瑟福在2608个等时间间隔内观测一枚放射性物质放射的粒子数X,表7.4.1是观测结果的汇总,其中ni表示2608次观测中放射粒子数为i的次数。ni572033835255324082731394527106i01234567891011试利用该组数据检验该放射物质在单位时间内放射出的粒子数是否服从泊松分布。解:本例中,要检验总体是否服从泊松分布。观测到0,1,…,11共12个不同取值,这相当于把总体分成12类。这里有一个未知参数,采用极大似然估计,.x似其中,10112032383...1163.8702608!iipei.iipp将代入可以得到其估计值x似22()/.iiinnpnp再代入,可以得到的值20.95212.10896718.307.=0.05,=取211kr20.951018.307.故接受原假设。注:用统计软件可算出此处检验的p值是0.2295.2()/0570.020954.50.114712030.0807210.50.267223830.1562407.41.461435250.2015525.50.000545320.1950508.61.076654080.1509393.50.534362730.0973253.81.452571390.0538140.30.01208450.026067.8iiiiiiinpnpnnpnp27.66739270.011229.20.165810100.004311.20.12581160.00225.70.015826081.0000206812.8967=合计12列联表是将观测数据按两个或更多属性(定性变量)分类时所列出的频数表。例如,对随机抽取的1000人按性别(男或女)及色觉(正常或色盲)两个属性分类,得到如下二维列联表,又称2×2表或四格表。二、列联表的独立性检验男53565女38218性别视觉正常色盲13一般地,若总体中的个体可按两个属性A与B分类,11,,,,.rcAABBArcB;类个类有个有从总体中抽取大小为n的样本,.ijijijnABn其中有个个体既属于类又属于类,为频数.ijrcnrcrc将个排列为一个行列的二维列联表,简称表11111111\11jciijicirrjrcrjcABjcnnnninnnnrnnnnnnnn和和14列联表分析的基本问题是:考察各属性之间有无关联,即判别两属性是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?,,ijijrcppp在表中,以分别表示总体中的个体仅,,.ijijABAB属于及同时属于的概率可得一个二维离散分布表,则“A、B两属性独立”的0:,1,,,1,,ijijHpppirjc假设可以表述为补充说明:15表7.4.4二维离散分布表11111111\111jciijicirrjrcrjcABjcppppipppprppppppp行和列和这就变为诸不完全已知时的分布拟合检验。ijp约束条件:111,1rcijijppr+c-2个独立参数16列联表的独立性检验0:,1,,,1,,ijijHpppirjc检验统计量:2211ˆ()ˆrcijijijijnnpnp在H0成立时,上式服从自由度为rc-(r+c-2)-1的分布。2其中诸是在H0成立下得到的的极大似然估计.ijpijpjiijijnnpppnn即有对给定的显著性水平,检验的拒绝域为:221{((1)(1))}.Wrc17例3为研究儿童智力发展与营养的关系,某研究机构调查了1436名儿童,得到如表7.4.5的数据,试在显著性水平0.05下判断智力发展与营养有无关系。表7.4.5儿童智力与营养的调查数据营养良好营养不良合计智商合计34236726632913045640201321642338228634514368080909099100解:用A表示营养状况,它有两个水平:A1表示营养良好,A2表示营养不良;B表示儿童智商,它有四个水平,分别表示表中四种情况。1234,,,BBBB18H0:营养状况与智商无关联,即A与B独立的。0..:,1,2,1,2,3,4.ijijHpppij或表示为:12ˆˆ1304/14360.9081,132/14360.0919,pp1234ˆˆ423/14360.2946,382/14360.2660,ˆˆ286/14360.1992,345/14360.2403,ppppˆˆˆijijnpnpp的计算如下表.ˆip营养良好384.1677346.8724259.7631313.35880.90810.29460.26600.19920.2403营养不良38.877935.103626.288131.71200.0919.jp8080909099100192211ˆ()ˆrcijijijijnnpnp2222(367384.1677)(342346.8724)(1631.7120)384.1677346.872431.7120代入样本数据计算得19.2785此处r=2,c=4,(r-1)(c-1)=3,取=0.05.20.95(3)7.815查表得:由于19.27857.815,故拒绝原假设,认为营养状况对智商有影响。注:本例中检验的p值为0.0002。20三、正态性检验正态分布是最常用的分布,用来判断总体分布是否为正态分布的检验方法称为正态性检验,它在实际问题中大量使用。1、正态概率纸正态概率纸可用来作正态性检验,方法如下:利用样本数据在概率纸上描点,用目测方法看这些点是否在一条直线附近,若是的话,可以认为该数据来自正态总体,若明显不在一条直线附近,则认为该数据来自非正态总体。21例4随机选取10个零件,测得其直径与标准尺寸的偏差如下:(单位:丝)9.48.89.610.210.17.211.18.28.69.6在正态概率纸上作图步骤如下:(1)首先将数据排序:(2)对每一个i,计算修正频率(i-0.375)/(n+0.25),i=1,2,…,n,7.28.28.68.89.49.69.810.110.211.1;()(,(0.375)/(0.25)),1,2,,(3)ixinin将点逐一点在正态概率纸上;(4)观察上述n个点的分布:是否在一条直线附近22从图7.4.2可以看到,10个点基本在一条直线附近,故可认为直径与标准尺寸的偏差服从正态分布。232、夏皮洛-威尔克(Shapiro-Wilk)检验夏皮洛-威尔克检验也简称W检验。这个检验当8n50时可以利用。过小样本(n8)对偏离正态分布的检验不太有效。W检验是建立在次序统计量的基础上。检验统计量为:2()122()11()()()()niiinniiiiaaxxWaaxx其中系数ai可查附表6,拒绝域为:{WW}.分位数可查附表7.24系数具有如下几条性质:1,,naa1121(1),1,2,,[/2].(2)0.(3)1.ininiiniiaainaa2[/2](1)()12()1()()niniiiniiaxxxx2()122()11()()()()niiinniiiiaaxxWaaxx25例5某气象站收集了44个独立的年降雨量数据,资料如下(已排序):52055656161663566968669270470771171371471972773574074474575077677778678679179482182282683483785186287387988990090492292695296310561074我们要根据这批数据作正态性检验。442()1785.114,()630872.43.iixxx将计算W的过程列于表7.4.9中26表7.4.9某一气象站收集的年降雨量152010745540.3872255610565000.266735619634020.232346169523360.207256359262910.186866699222530.169576869042180.1542k()kx(1)nkxkdka27k()kx(1)nkxkdka86929002080.140597048891850.1278107078791720.1160117118731620.1049127138621490.094313

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功