第六章样本分布数理统计学:运用概率论的基础知识,对要研究的随机现象进行多次观察或试验,研究如何合理地获得数据资料,建立有效的数学方法,根据所获得的数据资料,对所关心的问题作出估计与检验。§1总体、个体与样本对某一问题的研究对象全体称为总体。组成总体的某个基本单元,称为个体。总体可以是具体事物的集合,如一批产品。也可以是关于事物的度量数据集合,如长度测量。总体可以包含有限个个体,也可以包含无限个个体。有限总体在个体相当多的情况下,可以作为无限总体进行研究。总体中的个体,应当有共同的可观察的特征。该特征与研究目的有关。例如:总体个体特征一批产品每件产品等级一批灯泡每个灯泡寿命一年的日平均气温每天日平均气温度数数轴上某一线段线段中每一点坐标一批彩票每张彩票号码人们感兴趣的是总体的某一个或几个数量指标的分布情况。每个个体所取的值不同,但它按一定规律分布。以随机变量代表总体的特征。当总体数量很大时,只能从中抽取部分个体进行研究。从总体中取出的若干个体,称为样本。样本中所含个体的个数,称为样本容量。选取样本是为了从样本的特征对总体特征做出估计和推断。抽样必须尽可能多地反映总体的特征。要求随机抽取:(1)独立性:抽样时互不影响。(2)代表性:样本的分布与总体相同。通常有两种抽样方式:(1)不重复抽样(不放回)(2)重复抽样(放回)重复抽样所得的样本,称为简单随机样本。对总体进行n次独立试验或n次独立观察,即是从总体中抽取容量为n的样本,1n以随机变量X,...,X代表i每个X应与总体有相同的分布。1n每次具体抽样所得的数据,是这个样本的一组观察值,记为(x,...,x)一般也称为样本。样本(X1,…,Xn)的函数f(X1,…,Xn)称为统计量,其中f(X1,…,Xn)不含有未知参数。统计量一般是样本的连续函数,也是随机变量。常用的统计量如:nii11XXn样本平均值n22ii11S(XX)n1样本方差*kX顺序统计量***nn1DXX极差顺序统计量:*k1nXX,...,Xk为的取值由小到大的第个值。1n即:x,...,x重新排列***12nxx...x**kkXx的取值为*11nXmin{X,...,X}称为最小项统计量。*n1nXmax{X,...,X}称为最大项统计量。***nn1DXX反映了观察值的波动幅度。15X,...,X对样本做例1了三次观察。12345XXXXX13110562267283839105次数i**5那么顺序统计量X与极差D的观察值为******123455XXXXXD11356109222678633589107次数§2样本分布函数(一)分组数据的统计表简单表:依数据出现先后或大小列成表。若要更清楚地了解数据的分布,进行分组。每一组数据看成是相同的,它们等于组中值。一般采用等区间分组,区间长度称为组距。20288024402700350036003080386032003500310031803200330030403020342029003440300012620名新生婴儿的体重的观察值为例将上述数据分成五组:12345分组编号组限2400-27002700-30003000-33003300-36003600-3900组中值25502850315034503750组频数23852组频率(%)1015402510累积频率(%)10256590100其中频率是频数除以总频数。累积频率是指相应的组频率之和。为了直观,一般用直方图表示:频率直方图:ikk1第个长方形高度为频率的倍,为组距。体重24003900015300频数(%)累积频率直方图:第i个长方形的面积表示累积频率。024001100300110300体重3900(二)样本分布函数总体是一个随机变量,的分布就是总体的分布。1n(x,...,x)...***12n设是总体的一个样本观察值,按大小排列为:xxx*2n**kk1*n0xx...F(x)kxxxn...1xx*1*1当xx1当xn令=当当的分布函数F(x)是总体分布函数。Fn(x)的图形是累积频率曲线。它是跳跃上升的一条阶梯曲线。若观测值不重复,跃度为1/n若重复,按1/n的倍数跳跃上升。n当时,nF(x)F(x)的极限为总体分布函数称Fn(x)为样本分布函数或经验分布函数。103.22.542.50322.542F(x2)随机观察总体,得10个数据如下:,,,,,,,,,求样本分布函数例解:将数据由小到大排列为-402=22.5=2.5=2.533.24其样本分布函数为:100x414x01020x21042x2.510F(x)72.5x31083x3.21093.2x4101x4当当当当当当当当§3样本分布的数字特征(一)样本平均值对于样本(X1,…,Xn)nii11XXn样本平均值为对于具体样本值(x1,…,xn)nii11xxn若样本观察值已整理成分组数据,分成k组。'iixm属于同一组的数据以组中值代表,组频数为则样本平均值的计算公式为k'iii11xmxn若观察值为5,6.5,7,4,5.4,6.3,5.8,6.91x(56.5745.46.35.86.9)8146.98则=5.8625再如婴儿的体重2550285031503450375023852组中值组频数1x(2255032850831505345023750)203180则(二)样本方差对于样本(X1,…,Xn)n22ii11S(XX)n1样本方差为n2ii11S(XX)n1样本标准差为实际计算时,n222iii11S(X2XXX)n1nn22iii1i11X2XXnXn1n22ii11XnXn1若(x1,…,xn)为样本观察值n222ii11sxnxn1若数据已分成k组k22'2iii11sm(x)nxn1如观察值为5,6.5,7,4,5.4,6.3,5.8,6.9i82222i1x56.5...6.9=282.35221s(282.3585.8625)71.057又如婴儿体重25502850315034503750组中值组频数238525222222iii1mx2255032850831505345023750=204390000221s(204390000203180)112736.84192222221s2(25503180)3(28503180)8(31503180)195(34503180)2(37503180)或=112736.84(三)样本平均值与样本方差的简单公式设(x1,…,xn)为样本的n个观察值对任意常数a及非零常数ci1,...,nii(x-a)记z=ciixcza即nii11x(cza)nnii11czancza2n2xii11s(xx)n1n2ii11(czcz)n1n22ii11c(zz)n122zcsa与c选取应使z尽可能简单。ii(x3150)z3003在婴儿体重数据中,令例ii25502850315034503750z21012m23852组中值组频数mizi-4-3054zi241014mizi2830581z220故=0.122z1s(24200.1)19123.819x3000.13150=318022x1s30023.819=112736.84§4几个常用统计量的分布1n2X,...,XXS数理统计中,较多使用正态总体,其样本的统计量与及其函数的分布很重要。21n2X,...,XN(,)(1)XN(,)nn(2)(X)N(0,1)推论设是取自正态总体的样本,则21niiiniiii1nn22iiiii1i11X,...,XXN(,)aX(a)Ea,Da定理设相互独立,服从正态分布,则它们的线性函数不全为零也服从正态分布,且1nXX,...,X这是因为是的线性函数X故是正态分布标准化可得nii11EXEXnni11nni2i11DXDXnn22i11n2n2XN,n故XN(0,1)n1n2ii12X,...,XXnn222定理设相互独立,都服从标准正态分布,则=服从具有个自由度的分布,记为(n)2iXN(,)若不是标准正态分布,而是iiXYN(0,1)-则=nn22ii2i1i1X1Y,(YY)(XX)-1nnn2iii1i1n23X,...,X1XX(XX)n(n1)2ii=1定理设相互独立,都服从标准正态分布,则=与相互独立,并且(X-X)iY3对应用定理得到21nn22ii1n2ii1X,...,XN(,)(XX)(n1)X(XX)2推论设是取自正态总体的样本,则有1(1)(2)与相互独立Tt(n)记为24N(0,1),(n)Tnnt定理设两个随机变量与相互独立,且,则服从具有个自由度的分布1nX,...,X若是取自正态总体的样本,XN(0,1)n则=2n22i22i11(n1)S(XX)(n1)4且与独立,应用定理22X(n1)S(n1)n(n1)XSnt(n1)1nX,...,X,XTt(n1)Sn2推论1设是取自正态总体N()的样本则即122122,t(mn2)(m1)S(n1)S11mn2mn1m1n22212推论设X,...,X和Y,...,Y分别是来自两个独立正态总体N()及N(,),则X-Y-(-)T=21XN,m由于22YN,n21211XYN,mn12XY()N(0,1)11mn故=2m21i22i1(m1)S1(XX)(m1)而2n222i22i1(n1)S1(YY)(n1)222122(m1)S(n1)S(mn2)故=42对与应用定理得到推论112225nFF(n,n)n122211221定理设有两个随机变量和相互独立,且(n),(n),则1212F(n,n)n,nF是第一个自由度为第二个自由度为的分布121n1n22221122122211122222X,...,XY,...,YN(,)N(,)S,SSFF(n1,n1)S推论设和是分别取自两个独立正态总体与的样本,分别为它们的样本方差,则由定理4的推论可知1n222111i122i1111(n1)S(XX)(n1)2n222222i222i1221(n1)S(YY)(n1)12总体独立,故与也独立。12对与用定理5得到推论。