第1页一、经验分布函数二、频数频率分布表三、样本数据的图形显示§6.2样本数据的整理与显示第2页6.2.1经验分布函数设x1,x2,…,xn是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为x(1),x(2),…,x(n),则称x(1),x(2),…,x(n)为有序样本.用有序样本定义如下函数(1)()(1)()0,()/,,1,2,...,11,kknnxxFxknxxxknxx则Fn(x)是一非减右连续函数,且满足Fn()=0和Fn()=1可见,Fn(x)是一个分布函数,称Fn(x)为经验分布函数。(1)(2)()nxxx)(1)(或xsnxFn.的随机变量的个数中不大于,,,表示)(21xxxxxsn第3页Fn(x)的图形是累积频率曲线。它是跳跃上升的一条阶梯曲线。若观测值不重复,跃度为1/n,若重复,按1/n的倍数跳跃上升。Fn(x)x当时,依概率收敛于总体的分布函数n)(xFn)(xF第4页例1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重(单位:克)351347355344351x(1)=344,x(2)=347,x(3)=351,x(4)=351,x(5)=355这是一个容量为5的样本,经排序可得有序样本:其经验分布函数为0,x3440.2,344x347Fn(x)=0.4,347x3510.8,351x3551,x355由伯努里大数定律:只要n相当大,Fn(x)依概率收敛于F(x)。第5页更深刻的结果也是存在的,这就是格里纹科定理。定理1(格里纹科定理)格里纹科(1933)定理表明:当n相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。.10)()(suplim,)(1)(,,xFxFPxFxFnxnxnn即一致收敛于分布函数以概率时当对于任一实数.)(,)()(,使用来从而在实际上可当作只有微小的差别与总体分布函数数的任一个观察值经验分布函时充分大当对于任一实数xFxFxFnxn第6页1601961641481701751781661811621611681661621721561701571621546.2.2频数--频率分布表样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。例2为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品的数量,数据如下第7页(1)对样本进行分组:作为一般性的原则,组数通常在5~20个,对容量较小的样本;(2)确定每组组距:近似公式为组距d=(最大观测值最小观测值)/组数;(3)确定每组组限:各组区间端点为a0,a1=a0+d,a2=a0+2d,…,ak=a0+kd,形成如下的分组区间(a0,a1],(a1,a2],…,(ak-1,ak]对这20个数据(样本)进行整理,具体步骤如下:其中a0略小于最小观测值,ak略大于最大观测值.第8页(4)统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表。表1例2的频数频率分布表组序分组区间组中值频数频率累计频率(%)1(147,157]15240.20202(157,167]16280.40603(167,177]17250.25854(177,187]18220.10955(187,197]19210.05100合计201第9页6.2.3样本数据的图形显示一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。当取得一组样本值后,一般先根据样本取值作频率直方图,对总体的分布情况有一个几何直观上的粗略了解,然后再进一步分析.第10页10设对总体X作n次观测,其样本值nxxx,,,21.作频率直方图可分为以下几个步骤:(1)找出这n个数的最小和最大值:iniXX1)1(min,ininXX1)(max.(2)取区间],[ba,使得a略小于)(iX,b略大于)(nX;从中插入1k个分点baaaak10,直方图第11页11把],[ba分成k个小区间],(10aa,],(21aa,…,],(1kkaa,称1iiiaaa为第i组组距,21iiaa为第i组组中值.各组距可以相等,也可以不等.子区间的个数不易太多或太少.需要注意的是,a的取值可比观测值多一位小数,这样可避免观测值落在每组的分点上.第12页12(3)记in为落在小区间],(1iiaa中观察值的个数(频数),计算频率nnfii,ki,,2,1.列表分别记下各小区间的频数、频率.(4)在直角坐标系的横轴上,标出kaaa,,,10各点,分别以],(1iiaa为底边,作高为if的矩形(ki,,2,1),即得频率直方图.第13页13•例3某工厂用自动包装机包装产品,为了考察每袋产品重量的波动情况,选取100袋产品测得其重量如下:(单位:kg),根据测得的数据作出频率直方图.•97.894.698.9100.999.8102.797.9•95.599.0101.199.6102.997.795.7•99.5101.299.9103.198.295.899.1•101.3100.0103.898.196.099.0101.4•100.198.396.399.2101.5100.2104.5•98.596.699.3101.4100.397.898.4•96.799.4101.1100.496.999.5101.0•100.198.597.099.1101.2100.298.0•97.299.2101.6100.298.197.499.0•101.6100.498.197.599.4101.8100.5•98.797.199.3102.1100.398.899.9•98.9102.0100.298.999.7100.6102.1•100.498.899.6100.6102.3100.198.6•99.7100.7102.498.899.8102.2100.8•99.8100.9第14页14解(1)在全部数据中找出最小值6.94m,最大值5.104M.(2)取55.94a,55.104b,并确定组数、组距本例分为10k组,因99.0kmM,组距可取1d,并采用等距分组法.第15页15(3)作出频数、频率分布表,如下表所示.组序组区间频数频率累积频率194.55~95.5520.020.02295.55~96.5540.040.06396.55~97.5580.080.14497.55~98.55130.130.27598.55~99.55210.210.48699.55~100.55230.230.717100.55~101.55150.150.868101.55~102.5590.090.959102.55~103.5530.030.9810103.55~104.5520.021.00第16页16(4)作出频率及累积频率直方图,如图1,2.图1图2第17页把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:二、茎叶图数值分开茎和叶11211|211和2第18页例4某公司对应聘人员进行能力测试,测试成绩总分为150分。下面是50位应聘人员的测试成绩(已经过排序):64677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图,见下页。第19页图3测试成绩的茎叶图64770246698012235689112333566779100024667881122468991223568133茎叶图的外观很像横放的直方图,但茎叶图中叶增加了具体的数值,使我们对数据的具体取值一目了然,从而保留了数据中全部的信息。第20页在要比较两组样本时,可画出它们的背靠背的茎叶图。见附录。甲车间62056乙车间87775554211667788877664421722455556668898766532801133344466778732109023585300107注意:茎叶图保留数据中全部信息。当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。第21页三、箱线图---样本分位数与样本中位数更一般地,样本p分位数mp可如下定义:([1])()(1),1(2nppnpnpxnpmxxnp若不是整数),若是整数通常,样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。设x(1),…,x(n)是有序样本,则样本中位数m0.5定义为为偶数为奇数)(21)12()2()21(5.0nnxxxmnnn21譬如,若n=5,则m0.5=x(3),n=6,则m0.5=(x(3)+x(4))。第22页注:次序统计量设x1,x2,…,xn是取自总体X的样本,x(i)称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。其中x(1)=minx1,x2,…,xn称为该样本的最小次序统计量,称x(n)=maxx1,x2,…,xn为该样本的最大次序统计量。样本中位数是次序统计量的函数,第23页五数概括与箱线图次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值:最小观测值xmin=x(1),最大观测值xmax=x(n),中位数m0.5,第一4分位数Q1=m0.25,第三4分位数Q3=m0.75.五数概括是指用这五个数:xmin,Q1,m0.5,Q3,xmax来大致描述一批数据的轮廓。第24页附录:1、背靠背茎叶图举例。2、次序统计量。3、一本关于“统计图”的好书。《现代统计图形》谢益辉、箱线图举例。第25页1、背靠背茎叶图举例。例下面的数据是某厂两个车间某天各40名员工生产的产品数量,为对其进行比较,我们将这些数据放到一个背靠背茎叶图上。第26页甲车间乙车间505256616162566667676868646565656767727274757575676871727474757676767678767677777882787980818183838587889091838384848486869286939397868787889292100100103105939598107第27页甲车间乙车间6205687775554211667788877664421722455556668898766532801133344466778732109223585300107两车间产量的背靠背茎叶图第28页在上图中,茎在中间,左边表示甲车间的数据,右边表示乙车间的数据。从茎叶图可以看出,甲车间员工的产量偏于上方,而乙车间员工的产量大多位于中间,乙车间的平均产量要高于甲车间,乙车间各员工的产量比较集中,而甲车间员工的产量则比较分散。第29页2)、次序统计量及其分布设x1,x2,…,xn是取自总体X的样本,x(i)称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。其中x(1)=minx1,x2,…,xn称为该样本的最小次序统计量,称x(n)=maxx1,x2,…,xn为该样本的最大次序统计量。样本中位数也是一个很常见的统计量,它也是次序