统计量与点估计一个统计问题总有它明确的研究对象.1.总体研究对象的全体称为总体(母体),一、总体和样本总体可以用一个随机变量及其分布来描述.例如:研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用随机变量X表示,或用其分布函数F(x)表示.某批灯泡的寿命总体鉴于此,常用随机变量的记号或用其分布函数表示总体.如说总体X或总体F(x).为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量.2.样本样本是随机变量.容量为n的样本可以看作n维随机变量.但是,一旦取定一组样本,得到的是n个具体的数(x1,x2,…,xn),称为样本的一次观察值,简称样本值.2.独立性:X1,X2,…,Xn是相互独立的随机变量.最常用的一种抽样方法叫作“简单随机抽样”,它要求抽取的样本满足下面两点:1.代表性:X1,X2,…,Xn中每一个与所考察的总体有相同的分布.由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布的n个相互独立的随机变量X1,X2,…,Xn表示.若总体的分布函数为F(x),则其简单随机样本的联合分布函数为F(x1)F(x2)…F(xn)由样本值去推断总体情况,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.二、统计量和抽样分布1.统计量这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.几个常见统计量样本均值样本方差niiXnX11niiXXnS122)(11它反映了总体均值的信息它反映了总体方差的信息样本k阶原点矩样本k阶中心矩nikikXnA11nikikXXnB1)(1k=1,2,…它反映了总体k阶矩的信息它反映了总体k阶中心矩的信息总体样本统计量描述作出推断随机抽样这类问题称为参数估计.参数估计问题的一般提法X1,X2,…,Xn要依据该样本对参数作出估计,或估计的某个已知函数.)(g现从该总体抽样,得样本设有一个统计总体,总体的分布函数向量).为F(x,),其中为未知参数(可以是)1.0,(2N(假定身高服从正态分布)设这5个数是:1.651.671.681.781.69估计为1.68,这是点估计.这是区间估计.估计在区间[1.57,1.84]内,假如我们要估计某队男生的平均身高.现从该总体选取容量为5的样本,我们的任务是要根据选出的样本(5个数)求出总体均值的估计.而全部信息就由这5个数组成.参数估计点估计区间估计使用什么样的统计量去估计?可以用样本均值;当然还可以用别的统计量.我们来看点估计。问题是:,)(XE我们知道,服从正态分布,),(2XN的自然想到把样本体重的平均值作为总体平均体重的一个估计.22估计S类似地,用样本体重的方差.,11niiXnXniiXXnS122)(11样本均值是否是的一个好的估计量?(2)怎样决定一个估计量是否比另一个估计量“好”?样本方差是否是的一个好的估计量?2这就需要讨论以下几个问题:(1)我们希望一个“好的”估计量具有什么特性?(3)如何求得合理的估计量?那么要问:1.无偏性2.有效性3.相合性这里我们重点介绍前面两个标准.二、估计量的优良性准则估计量是随机变量,对于不同的样本值会得到不同的估计值.我们希望估计值在未知参数真值附近摆动,而它的期望值等于未知参数的真值.这就导致无偏性这个标准.1.无偏性)ˆ(E则称为的无偏估计.ˆ),,(ˆ1nXX设是未知参数的估计量,若用样本均值作为总体均值的估计时,它是无偏估计。样本方差是总体方差的无偏估计。证明这一点见书P182.而且这一点与总体的分布无关。所以无偏估计以方差小者为好,这就引进了有效性这一概念.的大小来决定二者21)ˆ(E和2ˆ1ˆ一个参数往往有不止一个无偏估计,若和都是参数的无偏估计量,比较我们可以22)ˆ(E谁更优.211)ˆ()ˆ(ED由于222)ˆ()ˆ(ED2.有效性D()D()2ˆ1ˆ则称较有效.2ˆ1ˆ都是参数的无偏估计量,若有),,(ˆ11nXX),,(ˆˆ122nXX1ˆ设和1.矩估计法其基本思想是用样本矩估计总体矩.理论依据:或格列汶科定理(见教材177页)它是基于一种简单的“替换”思想建立起来的一种估计方法.是英国统计学家K.皮尔逊最早提出的.大数定律记总体k阶矩为)(kkXE样本k阶矩为nikikXnA11用相应的样本矩去估计总体矩(从而解出相应参数)的估计方法就称为矩估计法.设总体的分布函数中含有k个未知参数k,,1都是这k个参数的函数,记为:k,,1,那么它的前k阶矩一般),,(1kiigi=1,2,…,k从这k个方程中解出j=1,2,…,k那么用诸的估计量Ai分别代替上式中的诸,即可得诸的矩估计量:iij),,(1kjjh),,(ˆ1kjjAAhj=1,2,…,k解:dxxxXE)1()(10121)1(110dxx由矩法,21X样本矩总体矩从中解得,112ˆXX的矩估计.即为数学期望是一阶原点矩例2设总体X的概率密度为其它,010,)1()(xxxf是未知参数,其中1X1,X2,…,Xn是取自X的样本,求参数的矩估计.解:由密度函数知例3设X1,X2,…Xn是取自总体X的一个样本为未知参数其它,,0,1)(~)(xexfXx其中0,求的矩估计.,X具有均值为的指数分布故E(X-)=2D(X-)=即E(X)=2D(X)=XˆniiXXn12)(1ˆ解得niiXXn12)(1令XniiXXn122)(1用样本矩估计总体矩即E(X)=2D(X)=.,ˆ,ˆ的矩估计即为参数3.抽样分布统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”.三.统计三大分布)(~22n记为2分布1、定义:设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的分布.nXXX,,,21222212nXXX22分布是由正态分布派生出来的一种分布.2分布的密度函数为000)2(21);(2122xxexnnxfxnn来定义.其中伽玛函数通过积分0,)(01xdttexxt)(x2由分布的定义,不难得到:),,(2N1.设相互独立,都服从正态分布nXXX,,,21则)(~)(121222nXnii)(~21221nnXX),(~),(~222121nXnX2.设且X1,X2相互独立,则这个性质叫分布的可加性.2则可以求得,E(X)=n,D(X)=2n),(~2nX若T的密度函数为:212)1()2(]2)1[();(nnxnnnnxf记为T~t(n).定义:设X~N(0,1),Y~,且X与Y相互独立,则称变量nYXT所服从的分布为自由度为n的t分布.)(2n2、t分布具有自由度为n的t分布的随机变量T的数学期望和方差为:E(T)=0;D(T)=n/(n-2),对n2当n充分大时,其图形类似于标准正态分布密度函数的图形.0);(nxfLimxt分布的密度函数关于x=0对称,且不难看到,当n充分大时,t分布近似N(0,1)分布.但对于较小的n,t分布与N(0,1)分布相差很大.由定义可见,3、F分布),(~),(~2212nYnX定义:设X与Y相互独立,则称统计量服从自由度为n1及n2的F分布,n1称为第一自由度,n2称为第二自由度,记作F~F(n1,n2).21nYnXF121nXnYF~F(n2,n1)即它的数学期望并不依赖于第一自由度n1.0001))(()()()(),;(222221212112121212121xxxxnnxfnnnnnnnnnnnnnX的数学期望为:2)(22nnXE若n22若X~F(n1,n2),X的概率密度为当总体为正态分布时,教材上给出了几个重要的抽样分布定理.这里我们不加证明地叙述.除定理2外,其它几个定理的证明都可以在教材上找到.四、几个重要的抽样分布定理定理1(样本均值的分布)设X1,X2,…,Xn是取自正态总体),(2N的样本,则有),(~2nNX)1,0(~NnXn取不同值时样本均值的分布X定理2(样本方差的分布))1(~)1()1(222nSn设X1,X2,…,Xn是取自正态总体),(2N的样本,2SX和分别为样本均值和样本方差,则有.)(相互独立和22SXn取不同值时的分布22)1(Sn定理3设X1,X2,…,Xn是取自正态总体),(2N的样本,2SX和分别为样本均值和样本方差,则有)1(~ntnSX定理4(两总体样本均值差的分布))2(~112)1()1()(21212122221121nntnnnnSnSnYX,,设),(~),(~2221NYNXYX和分别是这两个样本的且X与Y独立,X1,X2,…,1nX是取自X的样本,取自Y的样本,分别是这两个样本的样本方差,均值,2221SS和则有Y1,Y2,…,2nY是样本定理5(两总体样本方差比的分布))1,1(~2122222121nnFSS,设),(~),,(~222211NYNXYX和分别是这两个样本的且X与Y独立,X1,X2,…,1nX是取自X的样本,取自Y的样本,分别是这两个样本的样本方差,均值,2221SS和则有Y1,Y2,…,2nY是样本上前三个抽样分布定理很重要,要牢固掌握.