概率论与数理分析第六章样本及抽样分布§1随机样本§2直线图和箱线图§3抽样分布引言随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。§1随机样本例如:某公路上行驶车辆的速度服从什么分布是未知的;电视机的使用寿命服从什么分布是未知的;产品是否合格服从两点分布,但参数——合格率p是未知的;数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。§1随机样本一、总体与个体1.总体试验的全部可能的观察值称为总体.2.个体总体中的每个可能观察值称为个体.例1在研究2000名学生的年龄时,这些学生的年龄的全体就构成一个总体,每个学生的年龄就是个体.§1随机样本3.容量总体中所包含的个体的个数称为总体的容量.4.有限总体和无限总体容量为有限的称为有限总体.容量为无限的称为无限总体.产的灯泡寿命.某工厂10月份生产的灯泡寿命所组成的总个体的总数就是10月份生产的灯泡数,个有限总体;例2体中,这是而该工厂生产的所有灯泡寿命所组成的总体是一个无限总体,它包括以往生产和今后生§1随机样本所形成的总体中共含2000个例3在考察某大学一年级男生的身高这一试试验中,若一年级男生共2000人,每个男生的身高是一个可能观察值,可能观察值,是一个有限总体.总体也是有限总体.例4考察某一湖泊中某种鱼的含汞量,所得§1随机样本我们可以认为有些有限总体,它的容量很大,它是一个无限总体.例5考察全国正在使用的某种型号灯泡的寿可以认为是无限总体.命所形成的总体,由于可能观察值的个数很多,就§1随机样本因此在理论上可以把总体与概率分布等同起来.我们关心的是总体中的个体的某项指标(如人的身高、灯泡的寿命,汽车的耗油量…).由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性.从而可以把这种数量指标看作一个随机变量X,因此随机变量X的分布就是该数量指标在总体中的分布.总体就可以用一个随机变量及其分布来描述.§1随机样本5.总体分布例如:研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用随机变量X表示,或用其分布函数F(x)表示.某批灯泡的寿命总体寿命X可用一概率(指数)分布来刻划鉴于此,常用随机变量的记号或用其分布函数表示总体.如说总体X或总体F(x).体寿命总体是指数分布总§1随机样本类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数F(x,y)来表示.统计中,总体这个概念的要旨是:总体就是一个随机变量(向量)或一个概率分布.§1随机样本X的分布函数和数字特征就称为总体的分布函数和数字特征.今后将不区分总体与相应的随机变量.参数为p的(0-1)分布:例如,我们检验自生产线出来的零件是次品还是正品,以0表示产品是正品,以1表示产品为次品.的随机变量.设出现次品的频率为p(常数),那么总体是由一些“0”和一些“1”所组成,这一总体对应于一个具有}{xXP,1)1(xppx1,0x§1随机样本根据获得的数据来对总体分布得出在数理统计中,人们都是通过从总体中抽取一部分个体,被抽出的部分个体叫做总体的一个样本.判断的.所谓从总体抽取一个个体,就是对总体X进行一次观察并记录其结果..称为样本值次观察一经完成,当n我们就得到一组实数,1x,1X它们依次是随机变量,2X,的观察值,,nx,,2xnX§1随机样本二、随机样本的定义1.样本的定义的简单得到的容量为、或总体或总体nXF)(,,,,21称为样本值它们的观察值nxxx又称.个独立的观察值的为nX,的随机变量是具有分布函数设FX,1X若,2X,、是具有同一分布函数FXn相互独立的,随机变量FXXXn为从分布函数则称,,,21,随机样本.简称样本§1随机样本.)(),,,(121*niinxFxxxF的一个样本,为,若FXXXn,,21,,,则21XX相互独立,nX,且它们的分布函数都是F所以的分布函数为,),,(21nXXX,具有概率密度又若fX的,则),,(21nXXX概率密度为.)(),,,(121*niinxfxxxf2.简单随机抽样的定义获得简单随机样本的抽样方法称为简单随机抽样.§1随机样本解的概率密度为总体X,0,0,0,e)(xxxfx,,,,21相互独立因为nXXX的概率密度为所以),,,(21nXXX),,,(21nnxxxf.,0,0,e1其他ixnxnii,)0(的指数分布服从参数为设总体X,),,,(21是来自总体的样本nXXX求样本.),,,(21的概率密度nXXX,有相同的分布且与X)(1niixf例7§1随机样本解的分布律为总体X,,,,21相互独立因为nXXX}{iXP)1,0(i,有相同的分布且与X的分布律为所以),,,(21nXXX),,1(pBX服从两点分布设总体,),,,(21是来自总体的样本nXXX,,(21XX求样本.),的分布律nXiipp1)1(,10p其中例8§1随机样本},,,{2211nnxXxXxXP}{}{}{2211nnxXPxXPxXPniiniixnxpp11)1(.}1,0{,,,21中取值在集合其中nxxx§1随机样本三、小结个体总体有限总体无限总体基本概念:统称为总体X.说明2随机样本一个总体对应一个随机变量X,说明1我们将不区分总体和相应的随机变量,在实际中遇到的总体往往是有限总体,它个数很大时,在理论上可认为它是一个无限总体.对应一个离散型随机变量;当总体中包含的个体的§1随机样本男子的头颅的最大宽度(mm),141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145一、直方图例1下面给出了84个伊特拉斯坎(Etruscan)人数据的“频率直方图”.现在来画这些§2直方图和箱线图步骤:1.找出最小值126,最大值158,现取区间[124.5,159.5];2.将区间[124.5,159.5]等分为7个小区间,3.小区间的端点称为组限,数出落在每个小区./nfi算出频率,if间的数据的频数,小区间的长度记成称为组距;7/)5.1245.159(,5§2直方图和箱线图列表如下:组限频数频率累计频率124.5—129.510.01190.0119129.5—134.540.04760.0595134.5—139.5100.11910.1786139.5—144.5330.39290.5715144.5—149.5240.28570.8572149.5—154.590.10710.9524154.5—159.530.03571.0000nfi个小区间上作以现在自左向右依次在各,为高的小矩形这样的图形叫频率直方图.§2直方图和箱线图§2直方图和箱线图频率直方图二、箱线图定义,21n,x,,xxn的样本观察值设有容量为;xpP个观察值小于或等于至少有)(n1.xp(np)个观察值大于或等于至少有)(12.得分位数可按以下法则求样本p,,21,将xx.)()2()1(nnxxxx成按从小到大的顺序排列不是整数,若npo1中的两点要求,义则只有一个数据满足定的最小整数这一数据位于大于np样本它具有以下的性质:,1)0(pxpp记为分位数§2直方图和箱线图处,是整数,若npo2综上,.1][处的数即为位于np处的和就取位于1][][npnp.中位数],[21)1()(npnpxx,)1]([npxpx不是整数,当np.是整数当np§2直方图和箱线图特别,称为上四分位数,分位数25.025.0x称为下四分位数,分位数75.057.0x即有称为样本中位数,M或也记为分位数2505.0Qx.时,当5.0p;又记为1Q.3Q又记为],[21)12()2(nnxx,)1]2([nx5.0x不是整数,当np.是整数当np§2直方图和箱线图例2设有一组容量为18的样本如下(已经排过序)122126133140145145149150157.5.025.02.0xxx,,求样本分位数:解处,位于第41]6.3[2.0xnp因为)1(2.0x即有处,位于第51]5.4[25.0xnp因为)2(16216617517717718318819921225.0x即有2.018,6.3)(4x.14025.018,5.4.145§2直方图和箱线图是这组数中间两5.0xnp因为)3(5.018,9§2直方图和箱线图个数的平均值,0.5x即有)162157(21.5.159数据集的箱线图是由箱子和直线组成的图形,它是基于以下五个数的图形概括:,最小值Min它的作法如下:,第一四分位数1Q,中位数M和第三四分位数3Q.Max最大值画一水平数轴,)1(.Max下侧平行于数在数轴上方画一个上、轴的矩形箱子,,于箱子的左右两侧分别位1Q,在轴上标上Min,3Q,1Q,M3Q.的上方§2直方图和箱线图.内部;线自箱子左侧引一条水平Min)2(在同一水平高度自箱子右侧引一条水平线直至最大值..段点的上方画一条垂直线在M线段位于箱子§2直方图和箱线图以下是8个病人的血压(收缩压,mmHg)数解np因为故1Q例3试作出箱线图.据(已经过排序),10211011711812212313215025.08,2)117110(21.5.113§2直方图和箱线图np因为故,45.085.0x)122118(21.1202Qnp因为故75.0xMinMax作出箱线图如图所示.75.08,6)132123(21.5.1273Q,102,150§2直方图和箱线图例4量(以升计.数据应经过排序)女子组2.72.82.93.13.13.13.23.43.4男子组4.14.14.34.34.54.64.74.84.8试分别画出这两组数据的箱线图.下面分别给出了25个男子和25个女子的肺活3.43.43.43.53.53.53.63.73.73.73.83.84.04.14.24.25.15.35.35.35.45.45.55.65.75.85.86.06.16.36.76.7§2直方图和箱线图解女子组MinMaxMnp因.2.31Qnp因3Q男子组np因.7.41Qnp因.8.53Q作出箱线图如(教材P134)图6-4所示.25.052,25.675.052,75.18.7.325.052,25.675.052,75.18,7.2,2.4,5.3,1.4Min,7.6Max,3.5M§2直方图和箱线图在数据集中,之间的距离:与第三四分数第一四分位数31QQIQRQQ13称为四分位数间距.,或大于若数据小于IQRQIQRQ5.15.131.则认为它是疑似异常值某一个观察值不寻常地大于或小于该数据集中的其他数据,称为疑似异常值.疑似异常值§2直方图和箱线图修正箱线图;)1(同,计算13QQIQR则认为它是