分布拟合检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

在实际问题中,有时不能预知总体服从什么类型的分布,则需要根据样本来检验关于分布假设.本讲我们学习c2检验法和“偏度、峰度检验法”。(一)c2检验法在总体分布为未知时,根据样本x1,x2,…,xn来检验关于总体分布假设H0:总体x的分布函数为F(x),(1)H1:总体x的分布函数不是F(x),若总体x为离散型,则假设(1)相当于H0:总体x的分布律为P{x=ti}=pi,i=1,2,…(2)若总体x为连续型,则假设(1)相当于H0:总体x的概率密度为f(x).(3)在用c2检验法检验假设H0时,若在假设H0下F(x)的形式已知,但其参数值未知,这时需要先用极大似然估计法估计参数,然后再作检验.c2检验法的思想:将随机试验可能结果的全体分为k个互不相容的事件A1,A2,…,Ak(Ai=,AiAj=.,ij,i,j=1,2,…,k).于是在假设H0下,我们可以计算pi=P(Ai),i=1,2,…,k.在n次试验中,事件Ai出现的频率fi/n与pi往往有差异,但一般来说,若H0为真,且试验的次数又较多时,则这种差异不应很大.基于这种想法,皮尔逊使用kiiiinpnpf122)(c(4))ˆ)ˆ((122kiiiipnpnfc或作为检验假设的统计量,并证明了以下定理定理若n充分大(n50),则当H0为真时(不论H0中的分布属什么分布),统计量总是近似地服从自由度为k-r-1的c2分布。其中r是被估计参数的个数。于是,在假设H0下计算(4),有.c2ca2(k-r-1),则在显著性水平a下拒绝H0,否则接受H0。使用时必须注意n要足够大,以及npi不太小。n不小于50,以及每个npi都不小于5,而且npi最好在5以上,否则应适当地合并Ai,以满足这个要求。kiiiinpnpf122)(c例1在一实验中,每隔一定时间观察一次由某种铀所放射的到达计数器上的a粒子数,共观察了100次,得结果如下表所示:其中fi是观察到有i个a粒子的个数。从理论上考虑x应服从泊松分布i01234567891011≥12fi15161726119921210AiA0A1A2A3A4A5A6A7A8A9A10A11A12问(6)式是否符合实际(a=0.05)?即在水平0.05下检验假设H0:总体服从泊松分布,2,1,0,!}{iieixPi解因在H0中参数未具体给出,所以先估计.由极大似然估计法得.可将试验可能结果的全体分2.4ˆx为两两不相容的事件A0,A1,···,A11,A12,则P{x=i}有估计,2,1,0,!}{iieixPi(6).,1,0i,!2.4}{ˆˆ2.4ieixPpii,015.0}0{ˆˆ2.40exPp,185.0!32.4}3{ˆˆ32.43exPp例如.002.0ˆ1}12{ˆˆ11012iipxPp例1的c2检验计算表iiiiiiiiipnpnfpnfnppfAˆ/)ˆ(ˆˆ2A010.0151.5-1.80.415A150.0636.3A2160.13213.22.80.594…………………………A690.11411.4-2.40.505A790.0696.92.10.639A820.0363.6……………-0.50.0385A1200.0020.26.2185得每组均有的组予以适当合并,使其中有些5ˆipn计但因在计算概率时,估此处并组后,8.5ˆkpni。的自由度为,故了一个参数61182c故在水因,281.6592.12)6()1(205.02ccark平0.05下接受H0。即认为样本来自泊松分布总体。也就是说认为理论上的结论是符合实际的。例2自1995年1月1日至1971年2月9日共2231天中,全世界记录到里氏震级4级和4级以上地震计162次,统计如下0--45--910--1415--1920--2425--2930--3435--39≥4050312617108668相继两次地震相隔天数x出现的天数试检验相继两次地震的天数x服从指数分布(a0.05).解需检验假设H0:x的概率密度为.0,0,0,1)(/xxexfx先由极大似然估计法求得的估计为.77.131622231xx为连续型随机变量,将[0,∞)分为k=9个互不重叠的子区间[ai,ai+1),i=1,2,,····,9。如表所列,取Ai={ai≤x≤ai+1},i=1,2,,····,9。若H0为真,x的分布函数的估计为.0,0,0,1)(ˆ77.13/xxexFx由上式可得概率pi=P(Ai)的估计).(ˆ)(ˆ}{ˆ)(ˆˆ11iiiiiiaFaFaxaPAPp}5.95.4{ˆ)(ˆˆ22xPAPp例如.2196.0)5.4(ˆ)5.9(ˆFF.0568.0)(ˆ1)(ˆˆ8199iiAPAPp而结果列表如下例2的c2检验计算表iiiiiiiiipnpnfpnfnppfAˆ/)ˆ(ˆˆ2A1:0≤x4.5500.278845.1656-4.8440.5176A2:4.5≤x9.5310.219635.57524.57520.5884A3:9.5≤x14.5260.152724.7374-1.26260.0644……...………...A7:29.5≤x34.560.03585.7996-0.20040.0069A8:34.5≤x39.560.02484.0176A9:39.5≤x∞80.05689.2016Σ0.05633因为c0.052(k-r-1)=c0.052(8-1-1)=c0.052(6)=12.5920.5633,故在水平0.05下接受H0,认为x服从指数分布。0.04617808.0例3下面列出了84个伊特拉斯坎人男子的头颅的最大宽度(mm),试检验这些数据是否来自正态总体(取a=0.1).141148132138154142150146155158150140147148144150149145149158·····························································································142149142137134144146147140142140137152145解先作直方图:1.把样本值x1,x2,····,xn进行分组。①找出最小值,最大值分别为126,158。②取a,b,得[124.5,159.5],并7等分区间,小区间长度Δ=(b-a)/m=5,Δ称为组距,小区间端点称为组限。③用唱票方法,数出样本值落在每个区间(ti,ti+1)中的频数,记为fi。1)(iittdxxf2.计算ri=fi/n,(n=84,I=1,2,···,7).详见下页表。由于n个样本独立,则ri近似于样本落入区间(ti,ti+1)的概率。即ri≈P{tixi≤ti+1}i=0,1,2,····,m.问题是如何去估计f(x).组限频数fi频率fi/n积累频率124.5~129.510.01190.0119129.5~134.540.04760.0595134.5~139.5100.11910.1786139.5~144.5330.39290.5715144.5~149.5240.28570.8572149.5~154.590.10710.9524154.5~159.530.035713.在xoy平面上,从左自右依次做以(fi/n)/Δ为高的小矩形,即得直方图。易见,这种小矩形的面积等于数据落在该小区间的频率fi/n.因频率近似于概率,因而一般来说每一个小区间上的小矩形面积接近于概率密度曲线之下该小区间上的曲边梯形的面积,故直方图的外廓曲线接近于总体x的概率密度曲线f(x).从本例看,单峰对称,近似正态总体。作c2检验如下,检验假设:H0:x的概率密度为.,21)(222)(xexfx个分为由极大似然估计法得7.0.6ˆ,8.143ˆ22x的概率密度的估计为为真若如下表取小区间xHAi,..0,621)(ˆ2262)8.143(xexf按上式查标准分布表可得p(Ai)的估计.如}5.1345.129{ˆ)(ˆˆ22xPAPp)65.1435.129()68.1435.134()38.2()55.1(例3的c2检验计算表iiiiiiiiipnpnfpnfnppfAˆ/)ˆ(ˆˆ2A1:x129.510.00870.73A2:129.5≤x134.540.05194.36A3:134.5≤x139.5100.175214.72-4.721.51A4:139.5≤x144.5330.312026.216.791.76A5:145.5≤x149.5240.281123.610.390.01A6:149.5≤x154.590.133611.22A7:154.5≤x∞30.03753.15Σ3.67.0519.00.0009.00.3937.2)1(21.0rkc因故在水平0.1下接受H0,即认为数据来自正态分布总体.二偏度、峰度检验随机变量的偏度、峰度指的是x的标准化变量)()(xDxEx的三阶中心矩和四阶中心矩]))()([(31xDxExEv]))()([(42xDxExEv)125(21.0c605.4)2(21.0c,67.3,))((]))([(2/33xDxExE,))((]))([(24xDxExE当随机变量x服从正态分布时,v1=0且v2=3.设x1,x2,···,xn是来自总体x的样本,则v1,v2的矩估计分别为./,/22422/3231BBgBBg其中Bk(k=2,3,4)是样本k阶中心矩,分别称g1,g2为样本偏度和样本峰度。若总体x为正态变量,则可证当n充分大时,近似地有),)3)(1()2(6,0(~1nnnNg).)5)(3()1()3)(2(24,163(~22nnnnnnnNg设x1,x2,····,xn是来自总体x的样本,现在来检验假设H0:x为正态总体.,)3)(1()2(61nnn记,)5)(3()1()3)(2(2422nnnnnn./)(,/,16322221112gugun当H0为真且n充分大时,近似地有u1~N(0,1),u2~N(0,1).由第六章知样本偏度g1、g2分别依概率收敛于总体偏度v1和总体峰度v2.因此当H0为真且n充分大时,一般来说,g1与v1=0的偏度不应太大,而g2与v2=3的偏离不应太大.故从直观来看当|u1|或|u2|过大时就拒绝H0.取显著水平为a,H0的拒绝域为|u1|≥k1或|u2|≥k2,其中k1,k2由下式确定...2}|{|;2}|{|221100aakuPkuPHH即有k1=Za/4,k2=Za/4.于是拒绝域为|u1|≥Za/4或|u2|≥Za/4下面验证当n充分大时,上述检验近似满足显著性水平a的要求。事实上,n充分大时有}|{00为真拒绝HHP.22}|{|}|{|4/24/100aaaaazuPzuPHH)}|(|)|{|4/24/10aazuzuPH例4试用偏度、峰度检验法检验例3中的数据是否来自正态总体(取a=0.1).解检验假设H0:数据来自正态总体..4892.0)5)(3()1()3)(2(2422nnnnnn,2579.0)3)(1()1(61nnnα=0.1,n=84,μ2=3-6/(n+1)=2.27294,阶中心矩计算得为由kxnAnikik11.3840,5.28,2246.35432

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功