第六章 样本与抽样分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第六章样本及抽样分布本章转入课程的第二部分———数理统计数理统计的特点是应用面广,分支较多。社会的发展不断向统计提出新的问题。从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作。但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断。到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科。数理统计学是一门应用性很强的学科。它是研究怎样以有效的方式收集、整理和分析受随机影响的数据,并对所考察的问题作出推断和预测,直至为采取决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。数理统计的任务就是研究怎样有效地收集、整理、分析所获得的有限的、局部的资料,对所研究问题的整体,尽可能地作出精确而可靠的结论。在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。由于推断是基于抽样数据,抽样数据又不能包括研究对象的全部信息。因而由此获得的结论必然包含不肯定性。所以,在数理统计中必然要用到概率论的理论和方法。由此也可以说:概率论是数理统计的基础,而数理统计是概率论的重要应用。但它们是并列的两个学科,并无从属关系。需要强调说明一点:统计方法具有“部分推断整体”的特征。因为我们是从一小部分样本观察值去推断该全体对象(总体)情况,即由部分推断全体。这里使用的推理方法是“归纳推理”。这种归纳推理不同于数学中的“演绎推理”。它在作出结论时,是根据所观察到的大量个别情况,“归纳”起来所得,而不是从一些假设、命题、已知的事实等出发,按一定的逻辑推理去得出来的。但此时还应记住毕竟是由“局部”推断“整体”,因而仍可能犯错误,结论往往又是在某个“可靠性水平”之下得出的。§6.1随机样本1.总体与个体一个统计问题总有它明确的研究对象。研究对象的全体称为总体(母体),总体中每个成员称为个体。然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况。这时,每个个体具有的数量指标的全体就是总体。该批灯泡寿命的全体就是总体某品牌轿车百公里耗油量的全体就是总体某批灯泡的寿命某品牌轿车百公里耗油量由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性。从而可以把这种数量指标看作一个随机变量,因此随机变量的分布就是该数量指标在总体中的分布。这样,总体就可以用一个随机变量及其分布来描述。统计的任务,是根据从总体中抽取的样本,去推断总体的性质。由于我们关心的是总体中的个体的某项指标(如人的身高、体重,灯泡的寿命,汽车的耗油量…),所谓总体的性质,无非就是这些指标值的集体的性质。而概率分布正是刻划这种集体性质的适当工具。因此在理论上可以把总体与概率分布等同起来。在数理统计中,总体这个概念的要旨是:———总体就是一个概率分布。-500050010001500200005101520252.样本为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本。样本中所包含的个体数目称为样本容量。从某品牌轿车中抽5辆进行耗油量试验样本容量为5容量为n的样本(也称为子样)可以看作n维随机变量:(X1,X2,…,Xn)但是,一旦取定一组样本,得到的是n个具体的数(x1,x2,…,xn),称为样本的一次观察值,简称样本观察值。由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法。最常用的一种抽样方法叫作“简单随机抽样”,它要求抽取的样本满足下面两点:1.代表性:X1,X2,…,Xn中每一个与所考察的总体有相同的分布。2.独立性:X1,X2,…,Xn是相互独立的随机变量。由简单随机抽样得到的样本(子样)称为简单随机样本(子样)。用(X1,X2,…,Xn)表示。简单随机样本是应用中最常见的情形,今后,当说到(X1,X2,…,Xn)是取自某总体的样本时,若不特别说明,就指简单随机样本。3.总体、样本、样本值的关系总体(理论分布)样本样本值总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体。§6.2抽样分布一、样本数据的处理办法1、频数频率分布表;2、图形显示:直方图(频率)、箱线图3、计算经验分布函数来近似总体的分布函数4、构造统计量),,(21nXXXgT获得对总体各种参数的认识3、经验分布函数设nXXX21,为取自总体X的一个样本,分布函数F(x)未知若将样本观测值由小到大进行排列为)()2()1(nxxx则)()2()1(nxxx用有序样本定义如下函数:xxxxxnkxxxXPxFnkkn)()1()()1(10})(当当当称为有序样本则)(xFn是一非负又连续函数,且满足1)(0)(nnFF称)(xFn为经验分布函数。说明:对每一个x,)(xFn是样本中事件xxi发生的频率当n固定时,)(xFn样本的函数,它是一个随机变量*由伯努利达数定理:只要n相当大,)(xFn以概率收敛于F(x)Glivenko定理:设)(xFnnXXX21,是取自总体X分布函数为F(x)的样本,是其经验分布函数1}0|)()(|{nnxxFxFSupP表明:当n相当大时,来自样本的经验分布函数是总体分布函数F(x)的一个良好近似,故经典统计学中一切统计推断都已样本为依据。例某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得净重为(单位g)351、347、355、344、351,经排序得容量为5的有序样本:344、347、351、351、355,其经验分布函数为xxxxxxXPxFn3551553553515251513513475151347344513440}{)(4、统计量由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来。这种不含任何未知参数的样本的函数称为统计量。它是完全由样本决定的量。统计量的分布称为抽样分布。例如}{)(21121nnniiniiXXXMaxxFXX、、、、是统计量当2、未知时,11XX、等均不是统计量二、常见统计量极其抽样分布1.样本均值niiXnX11反映了总体均值的信息niixx1相应观察值为样本中数据与样本均值的偏差之和为00)(1niixx定理:设是来自某总体的样本,为样本均值。nXXX,,,21X(1)若总体分布为N(μ,σ2),则的精确分布为N(μ,σ2/n);X(2)若总体分布未知或不是正态分布,则的极限分布为N(μ,σ2/n);X2.样本方差与样本标准差n222ii11S(XX),SSn1n222ii11S(XX)SSn2nnnn2222iiiii1i1i1i11(xx)xXxnxn定理设总体X具有二阶矩,EX=μ,DX=σ2+∞,设X1,X2,…,Xn是从该总体得到的样本,则:EX2DXn22Es22*1)(nnSE3.样本k阶原点矩nikikXnA11它反映了总体k阶矩的信息4.样本k阶中心矩nikikXXnB1)(1k=1,2,…它反映了总体k阶中心矩的信息统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”.三大抽样分布2分布1、定义:设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的分布.nXXX,,,21222212nXXX2)(~22n记为:Person2分布的密度函数为:000)2(21);(2122xxexnnxfxnn来定义.其中伽玛函数通过积分tx10(x)etdt,x0(x)2由分布的定义,不难得到:),,(2N1.设相互独立,都服从正态分布nXXX,,,21则n222i2i11(X)~(n))(~21221nnXX),(~),(~222121nXnX2.设且X1,X2相互独立,则这个性质叫分布的可加性.2),(~2nX若则可以求得,EX=n,DX=2n应用中心极限定理可得,若,则当n充分大时,2X~(n)Xn2n的分布近似正态分布N(0,1).2、t分布定义:设X~N(0,1),Y~,且X与Y相互独立,则称变量XTYn所服从的分布为自由度为n的t分布。)(2n记为:T~t(n).StudentT的密度函数为:n122[(n1)2]xf(x;n)(1)n(n2)n具有自由度为n的t分布的随机变量T的数学期望和方差为:E(T)=0;D(T)=n/(n-2),对n2不难看到,当n充分大时,t分布近似N(0,1)分布。但对于较小的n,t分布与N(0,1)分布相差很大。3、F分布),(~),(~2212nYnX定义:设X与Y相互独立,则称统计量服从自由度为n1及n2的F分布,n1称为第一自由度,n2称为第二自由度,记作:F~F(n1,n2).12XnFYn由定义可见,21Yn1FXn~F(n2,n1)若X~F(n1,n2),X的概率密度为0001))(()()()(),;(222221212112121212121xxxxnnxfnnnnnnnnnnnnnX的数学期望为:2)(22nnXE若n22即它的数学期望并不依赖于第一自由度n1.分位点0.05z1.6450.01z2.3260.990.01zz-2.3260.025t(6)2.44690.9750.025t(6)t(6)-2.446920.025(6)14.44020.975(6)1.2370.025F(6,4)9.200.975F(6,4)?一般地,112211F(n,n)F(n,n)0.975F(6,4)0.0251F(4,6)16.23=0.1605四、几个重要的抽样分布定理定理1(样本均值的分布)设X1,X2,…,Xn是取自正态总体2N(,)的样本,则有:2X~N(,)nX~N(0,1)nnii11E(X)E(X)n2nii11D(X)D(X)nnn取不同值时样本均值的分布X定理2(样本方差的分布)设X1,X2,…,Xn是取自正态总体2N(,)的样本,2Xs和分别为样本均值和样本方差,则有:222s(n1)(1)~(n1)2(.X)s2和相互独立n22ii11S(XX)n122ni22i1(XX)(n1)S2ni2i1(X)2~(n)2~(n-1)说明:n取不同值时的分布22(n1)S定理3设X1,X2,…,Xn是取自正态总体2N(,)的样本,2Xs和分别为样本均值和样本方差,则有:X~t(n1)SnX~N(0,1)n222(n1)S~(n1)22(n1)s/nnX(1)~t(n1)XSn证明:独立定理4(两总体样本均值差的分布),,设),(~),(~2221NYNXYX和分别是这两个样本的且X与Y独立,X1,X2,…,1nX是取自X的样本,取自Y的样本,分别是这两个样本的样本方差,均值,2212ss和则有:Y1,Y2,…,2nY是样本1212w12XY()~t(nn2)11Snn221w12212(n1)S(n1)Sn2Sn其中X

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功