第七章样本分布总体与样本样本分布函数样本分布的数字特征几个常用统计量的分布引言随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。例如:某公路上行驶车辆的速度服从什么分布是未知的;电视机的使用寿命服从什么分布是未知的;产品是否合格服从两点分布,但参数——合格率p是未知的;数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。从第七章开始,我们学习数理统计的基础知识。数理统计的任务是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性作出合理的推断.数理统计所包含的内容十分丰富,本书介绍其中的样本分布、参数估计、假设检验等内容.第七章主要介绍数理统计的一些基本术语、基本概念、重要的统计量及其分布,它们是后面各章的基础。学习的基本内容总体与样本总体与样本在数理统计中,把研究对象的全体称为总体(population)或母体,而把组成总体的每个单元称为个体。总体与个体的关系,即集合中集合与元素的关系;总体与个体是相对而言的,同一个事物,在某些情况下被看作总体,而在另一种情况下可能被看作个体.数量指标属性性质的数量化抽样要了解总体的分布规律,在统计分析工作中,往往是从总体中抽取一部分个体进行观测,这个过程称为抽样。在抽取过程中,每抽取一个个体,就是对总体X进行一次随机试验,每次抽取的n个个体,称为总体X的一个容量为n的样本(sample)或子样;其中样本中所包含的个体数量称为样本容量。12,,,nXXX随机抽样方法的基本要求独立性——即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽样结果的影响。满足上述两点要求的样本称为简单随机样本.获得简单随机样本的抽样方法叫简单随机抽样.iXX从简单随机样本的含义可知,样本是来自总体、与总体具有相同分布的随机变量.12,,,nXXXXX代表性------每次抽样都在同一条件下,即每个个体都与总体服从同一概率分布XX简单随机抽样例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中,则这是一个简单随机抽样。但实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成是简单随机抽样。实际问题中常用抽签法获得简单随机样本12,,...,nXXX12,,...,nxxx12,,...,nXXX12,,...,nxxx12,,...,nXXX12,,...,nxxx12,,...,nXXX12,,...,nxxx12,,...,nXXX当一次抽样完成后,得到n个具体的数据称为样本的一个样本观测值.样本的所有可能取值的全体称为样本空间.12,,...,nxxx12,,...,nxxx12,,...,nxxx12,,...,nxxx12,,...,nxxx样本也可以是多维的.例如某个人群的身高和体重,所考虑的总体就是二维的,样本的观测值就是(,)XY1122(,,,,...,,,)nnXYXYXY总体、样本、样本观察值的关系总体样本样本观察值理论分布统计是从手中已有的资料——样本观察值,去推断总体的情况——总体分布。样本是联系两者的桥梁。总体分布决定了样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体来自总体X的随机样本X1,…,Xn可记为1,...,~...(),(),...nXXXfxFx显然,样本联合分布函数或密度函数为niinxFxxxF121*)(),,,(或niinxfxxxf121*)(),,,(统计量则例如:设是从正态总体中抽取的一个样本,其中为已知参数,为未知参数,123(,,)XXX2(,)N1233XXX21233XXX123XXX2123XXX是统计量不是统计量定义:称样本(X1,…,Xn)的函数f(X1,…,Xn)是总体X的一个统计量,如果f(X1,…,Xn)不含任何未知参数几个常用的统计量样本均值(samplemean)11niiXXn样本方差(samplevariance)22111niiSXXn设是总体的一个样本,12(,,,)nXXXX样本均方差或标准差它们的观测值用相应的小写字母表示.反映总体X取值的平均,或反映总体X取值的离散程度。几个常用的统计量niiXXnS1211设是总体的一个样本,12(,,,)nXXXX样本的K阶(原点)矩几个常用的统计量设是总体的一个样本,12(,,,)nXXXX11nkkiiAXn样本的K阶中心矩11nkkiiBXXn性质样本的所有偏差之和为零,10niiXX2211minnniiiiXcXX注:由此立即可以得到2211min1niiXcSn样本方差的另一个计算公式222111niiSXnXn2222112211122212211121112112111nniiiiinnniiiiiniiniiSXXXXXXnnXXXXnXnXnXnXnXn统计量是样本的不含任何未知数的函数,它是一个随机变量12(,,...,)nfXXX12,,...,nXXX统计量的分布称为抽样分布。由于正态总体是最常见的总体,因此这里主要讨论正态总体下的抽样分布.由于这些抽样分布的论证要用到较多的数学知识,故在本节中,我们主要给出有关结论,以供应用.正态总体样本均值的分布211~,niiXXNnn2~,XN定理1设总体,是的一个样本,则样本均值服从正态分布X12,,...,nXXX11~0,1niiXXnUNnnU—分布概率分布的分位数(分位点)使P{X≥x}=,定义对总体X和给定的(01),若存在x,则称x为X分布的上侧分位数或上侧临界值.如图.xoyxP{X≥x}=()xfxdx若存在数1、2,使P{X≥1}=P{X≤2}2则称1、2为X分布的双侧分位数或双侧临界值.oyx212212x2x双侧分位数或双侧临界值的特例2{},PXx当X的分布关于y轴对称时,则称为X分布的双侧分位数或双侧临界值.2x如图.2,x若存在使yxO2x2x22U—分布的上侧分位数对标准正态分布变量U~N(0,1)和给定的,上侧分位数是由:P{U≥u}=2212tudte即P{Uu}=1-(u)=1-确定的点u.如图.(x)xOu例如,=0.05,而P{U≥1.645}=0.05所以,u0.05=1.645.U—分布的双侧分位数的点u/2为标准正态分布的双侧分位数或双侧临界值.如图.u/2可由P{U≥u/2}=/2对标准正态分布变量U~N(0,1)和给定的,称满足条件P{|U|≥u/2}=即(u/2)=1-/2反查标准正态分布表得到,P{U≥1.96}=0.05/2例如,求u0.05/2,得u0.05/2=1.96(x)Ou/2/2-u/2/2x2——分布~0,1XN定义设总体,是的一个样本,则称统计量服从自由度为n的分布,记作X12,,...,nXXX222212nXXX222~()n自由度是指独立随机变量的个数,dfn2()n分布的密度函数为21221,022()0,0nynyeynfyy(1)!nn01357911131517x0.50.40.30.20.1n=1n=4n=10图5-4f(y)其图形随自由度的不同而有所改变.2分布表(附表五(P264)).22()()Pnn分布密度函数的图形2()n满足222()()()()nPnnfydy的数为2分布的上分位数或上侧临界值,2()n其几何意义见图5-5所示.其中f(y)是2-分布的概率密度.f(y)xO2()n图5-5显然,在自由度n取定以后,的值只与有关.2()n例如,当n=21,=0.05时,由附表可查得,20.05(21)32.7即2(21)32.70.05.P2分布的上分位数2分布的双侧分位数把满足2222122()()2PnPn的数22122(),()nn称为2分布的双侧分位数或双侧临界值.见图.f(x)xO22()n图6-4212()n22显然,22()n为2分布的上分位数.2212()n为2分布的上分位数.12如当n=8,=0.05时,220.97512()(8)n220.0252()(8)n2.1817.52分布的数学期望与方差设2~2(n),则E(2)=n,D(2)=2n.2分布的可加性设22221122~(),~(),nn且2212,相互独立,则2221212~()nn定理2设(X1,X2,…,Xn)为取自正态总体X~N(,2)的样本,则2212(~)()niiXn证明由已知,有Xi~N(,2)且X1,X2,…,Xn相互独立,则~(0,1)iXN且各iX相互独立,2221212(~)().nniiiiXXn定理3设(X1,X2,…,Xn)为来自正态总体X~N(,2)的样本,则(1)样本均值与样本方差S2相互独立;X222122()(1)~(1)niiXXnSn(2)(*)(*)式的自由度为什么是n-1?从表面上看,21()niiXX是n个正态随机变量的平方和,iXX但实际上它们不是独立的,它们之间有一种线性约束关系:11()nniiiiXXXnX=0这表明,当这个n个正态随机变量中有n-1个取值给定时,剩下的一个的取值就跟着唯一确定了,故在这n项平方和中只有n-1项是独立的.所以(*)式的自由度是n-1.定理3设(X1,X2,…,Xn)为来自正态总体X~N(,2)的样本,则(1)样本均值与样本方差S2相互独立;X222122()())11~(niiXnSXn(2)(*)与以下补充性质的结论比较:性质设(X1,X2,…,Xn)为取自正态总体X~N(,2)的样本,则2212(~)()niiXnt分布定义设随机变量X~N(0,1),Y~2(n),且X与Y相互独立,则称统计量XtYn服从自由度为n的t分布分布,记作t分布的概率密度函数为t~t(n).1221()2()(1),()()2nntfttnnn其形状类似标准正态分布的概率密度的图形.当n较大时,t分布近似于标准正态分布.定理4设(X1,X2,…,Xn)为来自正态总体X~N(,2)的样本,则统计量~(1)XttnSn证由于与S2相互独立,且X~(0,1),XUNn222(1)~(1)nSn22~(1)(1)(1)XnXttnSnnSnt分布的上分位数对于给定的(01),称满足条件()()()tnPTtnftdt的数t(n)为t分布的上分位数或上侧临界值,其几何意义见图f(t)tOt(n)图t分布的双侧分位数由于t分布的对称性,称满足条件2()PTtn的数t/2(