统计学-ch5suyl1第6章统计量与抽样分布总体和样本的分布统计量抽样分布及抽样分布定理统计学-ch5suyl2§6.1总体和样本的分布§6.1.1统计推断中的总体及总体分布要了解研究对象的整体情况,最理想的方法似乎是进行普查,但实际上这样做往往是不必要、不可能或不允许的.如,要研究灯泡寿命,由于寿命试验是破坏性的,逐个试验是不允许的.数理统计的方法:从所研究的全体对象中,抽取一小部分来进行试验(称为抽样),根据这一小部分所显示的统计特性,来推断整体的统计特性.统计学-ch5suyl3※总体是根据一定的目的确定的所要研究的事物的全体,它是由客观存在的、具有某种共同性质的众多个别事物构成的整体。总体是研究对象的全体。在具体的统计推断中,我们感兴趣的是总体单位的某个或某些数量特征。例如研究某种型号灯泡的寿命这一数量特征。总体的含义抽象为所感兴趣的变量的所有取值,我们可以想象,这些值的出现有不同的频率,假设这批灯泡有无限多个,那么频率就收敛到了概率,从而有了使用寿命这个随机变量的概率分布。这个分布称为总体或总体分布。总体(总体分布)是对客观对象变量取值情况的数学描述。总体所含个体的数目称为总体容量.这样要研究的总体实质上是某个概率分布,因此我们将总体定义为一个随机变量X.数理统计学中“总体”这个基本概念从本质上讲:总体就是一个随机变量。我们对总体的研究,就是对相应的随机变量X的研究.统计学-ch5suyl4从社会统计到数理统计总体的演化实物总体数字总体分布总体组成元素具体对象组成元素重复数字组成元素数字的取值及其概率:分布研究的标志数字的取值和重复的频率例:研究班级同学的身高班级的同学的集合(全体同学)组成元素:每位同学(具体对象)同学身高的集合组成元素:身高的数字(重复数字)身高的取值及其概率组成元素:身高的分布统计学-ch5suyl5对所研究的对象,我们常常关心某一项或几项指标.总体:研究对象的某项变量值的全体.个体:组成总体的每一个基本元素.例如:①某工厂生产的灯泡的使用寿命的全体是一个总体,而每一个灯泡的使用寿命是一个个体.而每个男生的身高是一个个体.②我校男生的身高的全体是一个总体,总体所含个体的数目称为总体容量.统计学-ch5suyl6一般地,我们是从总体中抽取一部分,比如说n个进行观测,再根据这n个观测值去推断总体的性质.在总体X中,抽取n个个体12,,...,,nXXX这n个个体称为总体X的一个样本.抽样就是抽取样本的过程.样本中所含个体的数目n称为样本容量.由于是从总体X中随机抽取出来的可能结果,12,,...,nXXX是n个随机变量,但是在一次抽取之后,它们都是具体的数值,样本—通过观测或试验的方法,获得的总体中一部分个体的集合,称为样本,每个个体的取值称为样本点。§6.1.1统计推断中的样本及样本分布统计学-ch5suyl7如随机抽取n只灯泡,试验得到其使用寿命(x1,x2,…xn),称这n个确定的数值(x1,x2,…xn)是灯泡使用寿命总体的一个样本。但是,当灯泡样本点的使用寿命还未观测出来时,只能将每个样本点看作与总体同分布的随机变量,这是因为每个样本点的可能取值范围和某个值出现的可能性与总体是一样的,这时样本记为(X1,X2…Xn)。统计学-ch5suyl8在相同的条件下对总体X进行n次重复独立的观察。将n次观察结果按试验的次序记为X1,X2,…,Xn(大写英语字母表示)。由于X1,X2,…,Xn是对随机变量X观察的结果,且各次观察是在相同的条件下独立进行的,所以有理由认为X1,X2,…,Xn是相互独立的,且都是与总体X具有相同分布的随机变量。这样得到的X1,X2,…,Xn称为来自总体X的一个简单随机样本,n称为这个样本的容量。以后无另外说明,所得的样本都是指简单随机样本统计学-ch5suyl9n次观察一经完成,我们就得到一组实数x1,x2,…,xn(小写英语字母表示),它们依次是随机变量X1,X2,…,Xn的观察值,称为样本观测值。对于有限总体,采用放回抽样就能得到简单随机样本,但放回抽样使用起来不方便,当个体的总数N比样本的容量n大得多时,在实际中可将不放回抽样近似地当作放回抽样来处理.统计学-ch5suyl10简单随机样本的两个最基本的特性:(1)独立性12,,...,nXXX是相互独立的随机变量.12,,...,nXXX即中各个随机变量的取值互不影响,这时称(2)代表性(同分布性)即样本中的每个样本点都与总体同分布;即中每一个随机变量都与总体X有相同的概率分布.12,,...,nXXX6.1.2统计推断中的样本及其性质统计学-ch5suyl11总体和样本的关系数理统计中,样本和总体具有相同的分布取值1概率0.2取值2:概率0.4取值3:取值0.1…分布总体样品X1总体的分布:总体中重复数字取各值的概率•分布总体总体各个值的概率可以认为是有相应比重的个体取该值。•随机样本由于每一个体都有均等被抽中的概率,因而样本取总体各个值的概率即样本分布与总体分布相同。样品X2样品Xn。。。统计学-ch5suyl12总体样本样本观察值理论分布统计是从手中已有的资料——样本观察值,去推断总体的情况——总体分布.总体分布决定了样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体.样本是联系两者的桥梁.总体、样本、样本观察值的关系如下:统计学-ch5suyl13§6.2统计量统计量统计量分布的概念在统计推断中,总体信息是未知的,但从总体中抽取的样本中含有总体的信息,统计推断就是利用样本的信息来推测总体的信息。然而样本的信息是隐蔽的,不明显的,必须要经过必要的加工处理才能用来推断总体信息,构造样本统计量是加工样本提出总体信息的有效手段之一。统计学-ch5suyl14§6.2.1统计量及统计量的分布如果样本X1,…,Xn的函数T(X1,…,Xn)不含未知参数,则称T(X1,…,Xn)是总体X的一个统计量。统计量有以下两个特征:统计量是样本的函数;统计量不能含有未知的总体参数。统计学-ch5suyl15判断下列是否为统计量1,,nXX21()niiTX2211()1niiSXXn0XZ1211nniiXXXXXnn(1)(),,nXX12XX0.5m是是是是是是统计学-ch5suyl16?,,,,),(,,22321哪些不是些是统计量判断下列各式哪为未知为已知其中样本的一个是来自总体设NXXX,11XT,3212XeXXT),(313213XXXT),,,max(3214XXXT,2215XXT.是不是.),,,(),,,(,,,,,,,21212121的观察值是则称的样本值是相应于样本设nnnnXXXfxxxfXXXxxx222612321()TXXX是是是是统计学-ch5suyl17nikiknikikXXnBXnA11,)(11中心矩原点矩2.样本k阶矩,1.11niiXnX样本均值,)()(112122SSXXnSnii标准差样本均方差样本方差§6.2.2几个常用的统计量统计学-ch5suyl18样本均值和方差的性质1.均值的性质2.方差的性质bxaybaxyii则设,)(1)(),()(XDnXDXEXE22211()nniiiiXXXnX)()(2XDsE统计学-ch5suyl19证明:)(1)(),()()1(XDnXDXEXEununEXnXEnXnEXEnii1)(1)(1)1()(1nnnXDnXnDXDniinii2221211)(1)1()(niiniiXnXXX1212)()2(22222222221212221)()()(2)(222)(XnXnXXnXnXXnXnXnXXXnXXXXXXXXXiiiiiniiniiinii统计学-ch5suyl20)()()3(2XDsE)(111)(2222XnXnnXXSii22222222222222222)1(11)(11)(11)())()((11)()((11)(11)(nnnununnunnnunnXnEEXXDnXnEEXnXnXEnSEii统计学-ch5suyl213.顺序统计量)()2()1(nXXX顺序统计量:对于样本X1,X2,…,Xn,如果按照升幂排列,得到称X(1),X(2),…,X(n)为顺序统计量。统计学-ch5suyl22利用顺序统计量可以计算一些常用的统计量:(1)最大顺序统计量和最小顺序统计量(2)样本中位数(3)样本极差(4)样本的p分位数(5)样本的切尾均值统计学-ch5suyl23统计量的分布统计量分布的概念统计量既然是随机变量的函数,那么它也应该是随机变量,并有其概率分布,统计量的分布也称为抽样分布。抽样分布和统计推断有着密切的联系。统计量提出以后,必须要知道其分布才能在统计推断中使用,因为只有知道了统计量的分布,才能利用概率论对总体的特征进行推断,并得到相应的推断的置信度。所以在统计推断中,一项重要的工作就是寻找统计量和导出统计量的分布。我们从一个简单的例子来讨论统计量分布的概念。统计学-ch5suyl24[例6.3]设有一总体N=3(2,4,6)。以样本容量n=1、n=2、n=4及n=8,从总体中进行复置抽样,抽出全部可能的样本于表6.1。表6.1中列出这些不同样本容量的抽样分布,并在图4.1用方柱形图表示其分布形状。由表中第一列当N=3,n=1的总体平均数和方差为:y当样本容量依次为2、4、8时,其相应为4、4、4;其相应为4/3、2/3、1/3。即,。y2yyny22383])46()44()42[()(222122//NμyσNii43123)642(1//NyμNii统计学-ch5suyl25n=1n=2n=4n=8yffff24611123456123212.02.53.03.54.04.55.05.56.0141016191610412.002.252.502.753.003.253.503.754.004.254.504.755.005.255.505.756.001836112266504784101611071016784504266112368139816561平均数4444方差8/34/32/31/3yy表6.1各种不同样本容量的样本平均数()的抽样分布yy统计学-ch5suyl26n=1n=2图6.1各种不同样本容量的分布方柱形图y统计学-ch5suyl27图6.1各种不同样本容量的分布方柱形图yn=4n=8统计学-ch5suyl28从这个例子我们可以了解关于样本均值的分布,即所有可能样本计算出的均值所服从的分布(直方图验证了中心极限定理)。但是在实际工作中,总体的容量远不止3,总体的分布也是十分复杂的,统计量也各有不同,象这样一一列举给出统计量的分布是行不通的,我们必须借助于总体分布的类型来讨论统计量的分布的情况。后面我们将集中讨论正态总体的统计量分布的问题,通常称为样本的精确分布。统计学-ch5suyl29统计学-ch5suyl30§6.3抽样分布及抽样分布定理主要内容2—分布t—分布F—分布抽样分布的重要定理统计学-ch5suyl31为了讨论统计量的分布,本节首先介绍数理统计中的三个著名分布,它们是t分布,2分布和F分布。参数估计和假设检验等统计推断问题中这三个分布有广泛的应用。统计学-ch5suyl32§6.3.12分布21,,nXX2221nXX22~()n分布的定义为独立同分布于标准正态总体N(0,1)的随机变量列,则称随机变量:所服