•1兰州大学信息科学与工程学院主讲:路永刚E-mail:ylu@lzu.edu.cn非正态总体的区间估计§7.6非正态总体的区间估计前面两节讨论了正态总体分布参数的区间估计。但是在实际应用中,我们有时不能判断手中的数据是否服从正态分布,或者有足够理由认为它们不服从正态分布。但是,只要样本大小n比较大,总体均值μ的置信区间仍可用正态总体情形的公式或,znXznX22,.,2/2/znSXznSXσ2已知时σ2未知时所不同的是:这时的置信区间是近似的。这是求一般总体均值的一种简单有效的方法,其理论依据是中心极限定理,它要求样本大小n比较大。因此,这个方法称为大样本方法。设总体均值为μ,方差为σ2,X1,X2,…,Xn为来自总体的样本。因为这些样本独立同分布的,根据中心极限定理,对充分大的n,下式近似成立(1),)1,0(~/1NnnXnXnii因而,近似地有于是,μ的置信系数约为1-α的置信区间为.1/2/znXP.22znXznX,当σ2未知时,用σ2的估计S2来代替σ2,得(2).22znSXznSX,只要n很大,(2)式所提供的置信区间在应用上是令人满意的。那么,n究竟多大才算很大呢?显然,对于相同的n,(2)式所给出的置信区间的近似程度随总体分布与正态分布的接近程度而变化,因此,理论上很难给出n很大的一个界限。但许多应用实践表明:当n≥30时,近似程度是可以接受的;当n≥50时,近似程度是很好的。例1:某公司欲估计自己生产的电池寿命。现从其产品中随机抽取50只电池做寿命试验。这些电池寿命的平均值为2.261(单位:100小时),标准差S=1.935。求该公司生产的电池平均寿命的置信系数为95%的置信区间。解:查正态分布表,得zα/2=z0.025=1.96,由公式(2),得电池平均寿命的置信系数为95%的置信区间为2.802].[1.73096.150935.1261.296.150935.1261.2,,设事件A在一次试验中发生的概率为p,现在做n次试验,以Yn记事件A发生的次数,则Yn~B(n,p)。依中心极限定理,对充分大的n,近似地有7.6.1二项分布(3)).1,0(~)1(/)1(NpnpnpYnpppXn(3)式是(1)式的特殊情形。ˆ/(3)npXYn记,式变为(4).)/ˆ(1ˆˆ)/ˆ(1ˆˆ22nppzpnppzp,(4)式就是二项分布参数p的置信系数约为1-α的置信区间。例2:商品检验部门随机抽查了某公司生产的产品100件,发现其中合格产品为84件,试求该产品合格率的置信系数为0.95的置信区间。解:n=100,Yn=84,α=0.05,zα/2=1.96,将这些结果代入到(4)式,得p的置信系数为0.95的近似置信区间为[0.77,0.91]。7.6.2泊松分布=DX1XX参估计,利用,得到的置信系数约为的并用数置信区间:设X1,X2,…,Xn为抽自具有泊松分布P(λ)的总体的样本,因为E(X)=D(X)=λ,由:(5).//22nXzXnXzX,.22znXznX,例4:公共汽车站在一单位时间内(如半小时,或1小时,或一天等)到达的乘客数服从泊松分布P(λ),对不同的车站,不同的仅是参数λ的取值不同。现对某城市某公共汽车站进行100个单位时间的调查。这里单位时间是20分钟。计算得到每20分钟内来到该车站的乘客数平均值为15.2人。试求参数λ的置信系数为95%的置信区间。解:n=100,α=0.05,zα/2=1.96,将这些结果代入到(5)式,得λ的置信系数为0.95的近似置信区间为[14.44,15.96]。,2.15X要对非正态分布的参数进行区间估计,主要需要哪些条件?•14参数估计:样本的概率密度函数P(x,i)的形式已知,去推断概率密度函数中的某些未知的参数i。非参数估计:样本的概率密度函数P(x,i)的形式未知,去推断概率密度函数。参数估计的两种类型当密度函数的形式未知时,只能用非参数方法。它能处理任意的概率分布。在参数估计中,密度函数的参数形式是单模的(单个局部极大值),然而在现实中,所遇到的却常常是多模的情况。基于直方图的概率密度估计就是一种典型的非参数估计最简单的非参数估计基本思想:设有样本x的概率密度函数为p(x),则x落在区域R中的概率为:(1)'dx)'x(pP(2))1(knkkPPknP设n个抽取样本为独立同分布样本,其概率密度函数为p(x),则其中k个样本落在区域R的概率为:二项式分布(BinomialDistribution)k的期望值为:E(k)=nP)1(knkkPPknPnPkE)(()(1)DknPPPictireFrom:即比值k/n就是概率P的一个很好的估计.若概率密度p(x)是连续的,并且区域R足够小,以致于在这个区间中p几乎没有变化,那么近似地有:(')'()(4)PpxdxpxV对概率P,用最大似然估计,设参数向量为=概率P,)|P(Maxk)3(ˆnkP其中x为R中的一个点,V是区域R所包含的体积•从式(1),(3),(4)可得:Vn/k)x(p由二项式分布的性质得:当knP时Pk最大,所以这种情况毫无意义!区域R中含有样本:fixed)n(if0)x(plim0k,0V)x(plim0k,0V收敛条件其实是p(x)的空间平均.对有限的n,如果希望得到p(x),那么要求V的值趋于0。这时会出现两种情况:•区域R中不含有任何样本:在这种情况下,估计的结果就变成无穷大:也毫无意义!所以要求:n为有限值,V不能趋于零Vn/k)x(p0n/klim)3klim)20Vlim)1nnnnnn)()(xpxpnn当下面3个条件成立时,pn(x)收敛到p(x):有两种经常采用的满足以上三种条件的途径:(1)体积Vn是N的确定函数,比如VN=,来逐渐收缩一个给定的初始区间——“Parzen窗法”N/1•24(2)kn是N的一个确定函数,比如kN=,这样体积VN就必须逐渐生长,直到最后能包含进x的kN个相邻点.——“K-近邻估计”NParzen窗法K-近邻估计根据某一个确定的体积函数,比如,来逐渐收缩一个给定的初始区间。Vnkxp/)(NVVN/1Parzen窗方法估计概率密度函数,我们假设区间Vn是一个d维的超立方体其中hn为Vn的边长令窗函数为:dnnVh如果xi落在中心为x的超立方体Vn中,那么((x-xi)/hn)=1,否则为0.j11uj1,...,d(u)20otherwiseniininhxxk1niniinnhxxVnxp111)(将kn代入pn(x)=(kn/n)/Vn,得:p(x)的估计pn(x)是一系列关于x和{xi}(i=1,…,n)的函数的平均.推广:窗函数可以是满足概率容许条件的任意函数考虑一维N(0,=1)正态概率密度函数令(h1:随意选取的一个参数)则:表示Pn(x)就是以各个样本点xi为中心的正态概率密度函数的平均。举例说明211()exp(),(1)22nuunhhnnini1innhxxh1n1)x(p如果n=10、h=0.1,那么每个样本点各自的贡献能够清楚的观察到。)1,()()(1)(211121xNexxxpxx21数值计算结果:如果n=1、h1=1nini1innhxxh1n1)x(ph1=1h1=0.5h1=0.1在二维情况下有类似的结果:KNearestNeighborDensityEstimation在Parzen窗法中:体积由先确定体积内的点数不确定◦在K-近邻估计中:体积内的点数kN先确定体积再由包含kN个最近邻点来确定VN基本公式仍然为:1/NVVNNNNVkxp)(ˆK-近邻估计如果设,随着N增大,KN增大,所以体积也就增大。如果x点附近密度低,体积增大速度就快;如果x点附近密度高,体积增大速度就慢。可以克服Pazzen窗对于初值V1的依耐性NKN基本公式:NNNVkxp)(ˆK-近邻估计0n/klim)3klim)20Vlim)1nnnnnn假设条件:一个较好的确定kN的方法:NkkN1K-近邻估计举例用直方图估计概率密度函数,和用Parzen窗估计概率密度函数有什么联系和区别?