§6.2经验分布函数和频率直方图分布函数是随机变量的一个重要特征,既然总体可以用随机变量来表示,而样本又可对总体的信息进行提取。因此,怎样用样本(X1,…,Xn)估计总体X的分布函数F(x)?任意给定自变量x,则F(x)=P(Xx).用事件{Xx)发生的频率作为其估计即可。这就引出了下面所谓经验分布函数的概念。即().nxFxxRn样本中小于的观测值的个数,(1)()(1)()0,(),,=1,,-11,nkknxxkFxxxxknnxx设X1,…,Xn是抽自总体X的一个样本,观察值为x1,…,xn,次序观测值x(1)≤…≤x(n),则总体X的经验分布函数定义为x一、经验分布函数x(1)x(2)例总体X,样本观察值1,2,2,2,3,3,3,4,则经验分布函数为80,1;1/8,12;()4/8,23;7/8,34;1,4;xxFxxxx经验分布函数如右图所示:关于经验分布函数,我们要注意一下几点:•经验分布函数是利用样本得到的,而样本是随机向量,所以经验分布函数也是随机的。同一个总体,即使是在相同的样本容量下,不同的样本也会给出不同的经验分布函数;•对于给定的x,Fn(x)是一个随机变量,是事件{Xx}在n重贝努里试验中发生的频率;•给定样本值后,经验分布函数就成为一个普通的跳跃函数,而且恰好是一个离散型随机变量的分布函数,该离散型随机变量的分布列为Pi=1/n,i=1,2,,n定理6.2.1(格列汶科定理或Glivenko-Cantelli定理)设F(x)是总体X的分布函数,Fn(x)是总体X的经验分布函数,01limnnPD则所以,我们有必要研究随着样本的不同经验分布函数会发生什么变化。也就是研究经验分布函数和总体分布函数之间的关系。()()supnnxRDFxFx记二、频率直方图如果总体X的分布函数F(x)有密度函数p(x),怎样利用样本(X1,X2,…,Xn)来刻画这个密度函数?任意给定x[a,b),则当[a,b)区间比较短,而且p(u)在[a,b)区间变化不大时,有再次利用频率近似概率的思想,用Rn(a,b)表示样本(X1,X2,…,Xn)中落在[a,b)的个数,那么这就引出了频率直方图。[,)()()()baPXabpudupxba[,)(,)()()nPXabRabpxbanba依次给定m+1个实数t0t1…tm,其中t1-t0=t2-t1=t3-t2=…=tm-tm-1=h0.令111[,)00(,)()[,)()0iimniittminRttIxxttfxnh其它用fn(x)作为密度函数p(x)的估计,这就是频率直方图法。(1)找出x(1),x(n),选择适当的ax(1),bx(n).(例如将x(1)缩小半个刻度作为a,将x(n)放大半个刻度作为b)取m-1个分点a=t0…tm=b,得到m个等分区间[ti-1,ti)(i=1,…,m)。ti-1称为第i组的下组界;ti称为第i组的上组界;h=ti-ti-1称为组距或步长。则每个数据都落在其中的一个小区间上。(2)统计落在每一组上的频数ni=Rn(ti,ti+1);计算fi=ni/nh,i=0,1,…,m-1.(3)以[ti-1,ti)(i=1,…,m)为底,fi为高作矩形,即频率直方图。设(x1,…,xn)是得到的样本观测值,在实际使用时,我们往往用以下步骤具体给出频率直方图例下表为我国大陆各省、直辖市2001年人均国民生产总值(万元),试做出频率直方图,从中判断数据大概是来自什么样的总体?北京25523天津20154河北8362山西5460内蒙古6463辽宁12041吉林7640黑龙江9349上海37382江苏12922浙江14655安徽5221福建12362江西5221山东10465河南5924湖北7813湖南6054广东13730广西4668海南7135重庆5654四川5250贵州2895云南4866西藏5307陕西5024甘肃4163青海5735宁夏5340新疆7913解:最小值为2895,最大值为37382,取a=2894.5,b=37382.5,将区间分成6等分,统计频数计算频率,得下表:分组频数频率频率/组距[2894.5,8642.5)210.6774190.000118[8642.5,14390.5)60.1935480.0000337[14390.5,20138.5)10.0322580.00000516[20138.5,25886.5)20.0645160.0000112[25886.5,31634.5)000[31634.5,37382.5)10.0322580.00000516频率直方图如下图所示:初步判断数据是来自什么样的总体?这个例子中数据量相对来说比较少,一般情况下数据量最好大于100,分组的个数根据数据量来确定,一般介于[n/10,n/5]之间,最多不能超过20组。定理6.2.2密度函数p(x)在点x[t0,tm)处连续,样本容量为n,且0,0limlimnnhnh,则对任给,有由(1-3)可知,结论成立。()()0(()())limPnnnPfxpxfxpx即证明:由p(x)在点x[t0,tm)处连续知其局部有界,即存在0,K0,使得对y[x-,x+]有p(y)≤K。由已知条件知,样本容量n充分大时,h≤。设x[tk,tk+1),对任给的0,221()()()()nnPfxpxEfxpx2222()()()()(1)nnnEfxEfxEfxpx由于Rn(a,b)~B(n,pk),其中11[,)()kktkkktpPXttpydyKh2211221222222(,)(,)()()(,)(1)0(2)kkkknnkkkkkERttERttnEfxEfxnhDRttnppnpKnhnhnhnh所以当时,11(,)()()()()()()()()()0(3)kkkknttERttEfxpxpxnhpydyphpxpxpxxpxhhnp由()在点连续还知,当时,作业2:习题六的第2,3,4,5,6题,其中第6题还有求使用软件来完成。