现代高等工程数学电子教案第7章估计理论与假设检验数学学院应用数学系王国富2014年9月问题提出某厂有一批产品,须经检验后方可出厂。按规定标准,次品率不得超过1%。今在其中随机抽取100件进行检查,结果发现有2件次品,问这批产品的次品率是多少?能否出厂?引进变量X,当抽取一件产品是次品,记为X=1,当抽取一件产品不是次品,记为X=0;P{X=1}=p,P{X=0}=1-pP就是产品的次品率。这批产品的次品率是多少就是对p的取值作出一个推断,称为估计。能不能出厂,就看p的值是超过1%还是没有超过1%,这就是检验。•数理统计其实质就是利用样本对总体进行统计推断,而总体可以看作是一个随机变量,要知道一个随机变量的取值规律性就是要对它的分布作出一个推断。当我们对总体一无所知的时候,可以利用样本对分布作出估计,通常可以用频率分布表来估计离散型总体的分布率;用直方图估计连续性总体的分布密度;用经验分布函数估计总体的分布函数。当我们对总体的分布类型有了一定的了解,但分布中含有未知参数时,可以利用参数估计方法对参数的取值作出估计,其中包括点估计和区间估计。当我们对总体已经有了比较全面的了解,但实际中可能出现一些大的改变,这些改变会不会影响总体的分布,那就需要进行假设检验了。估计理论与假设检验是数理统计中两个最基本和最重要的内容•总体与个体我们把所研究对象的全体称为总体或母体。组成总体的每个单元称为个体总体X可看作一个随机变量,称X的概率分布为总体分布,称X的数字特征为总体的数字特征,对总体进行研究就是对总体的分布或对总体的数字特征进行研究.•样本从总体中抽取的一部分个体称为样本或者子样,其中所含个体的个数称为样本容量.样本具有二重性:随机性和确定性•简单随机样本:设总体X的样本满足⑴独立性:每次观测结果既不影响其它结果,也不受其它结果的影响;即相互独立;⑵代表性:样本中每一个个体都与总体X有相同分布。则称此样本为简单随机样本。进行有放回抽样就是简单随机样本,无放回抽样就不是简单随机样本。但N很大,n相对较小时无放回抽样得到的样本可以近似看作简单随机样本.•统计量•统计量的定义定义1.2设为总体X的一个样本,为的连续函数,且不含有任何未知参数,则称T为一个统计量。注:1.统计量是完全由样本确定的一个量,即样本有一个观测值时,统计量就有一个唯一确定的值;2.统计量是一个随机变量,它将高维随机变量问题转化为一维随机变量来处理,但不会损失所讨论问题的信息量.12(,,,)nXXX12(,,,)nTTXXXnXXX,,21•常见的统计量1.样本均值2.样本方差3.k阶原点矩4.k阶中心矩5.顺序统计量6.样本极差与中位数(1)(n)(k)最小顺序统计量:X最大顺序统计量:X第K顺序统计量:X•抽样分布我们称统计量的分布为抽样分布,不同的统计量其分布不一定相同.常见的分布类型有:正态分布伽玛分布卡方分布t分布F分布•伽玛分布定义1.4如果连续型随机变量X的密度函数为其中为函数,则称X为服从参数是的伽玛分布,记为,0,00,)()(1xxexxfx0,001)(dxexx,),(~X•伽玛分布的性质(1)由此可得10()()()()kkxkxkEXxedx2(),()EXDX•(2)如果,并且X和Y相互独立,容易求得这个性质称为可加性,即伽玛分布具有可加性.12~(,),~(,)XY),(~21YX•卡方分布用构造性的方式定义是定义1.5设为相互独立的随机变量,且均服从,则它们的平方和也是一个随机变量,它所服从的分布称为自由度为n的分布,记为12,,,nXXX)1,0(N222212nXXX)(~22n2•它的密度函数为其密度函数与参数n有关,它的图形也有一定差异.0,00,)21)(2122(2xxexxfxnnn•卡方分布的性质若,则即卡方分布是一种伽玛分布,因此具有伽玛分布的性质(1)(2)如果,并且X和Y相互独立,有卡方分布也具有可加性)(~22n)21,2(~2n2()EnnD2)(22212~(),~()XnYn)(~212nnYX•t分布构造性的方式定义定义1.6设,,且X与Y相互独立,记则T也是一个随机变量,它所服从的分布称为自由度为n的t分布,记为)1,0(~NX)(~2nYnYXT)(~ntT•它的密度函数为与参数n有关,不同的n其图形也有差异.1221()2()(1),()2nnxfxxnnn•性质若则(1)当时,t分布是柯西分布,柯西分布不存在数学期望和方差.参数为2的t分布也不存在数学期望和方差.(2)时,)(~ntT1n2n()0,()2nTDTn•(3)可以证明这是标准正态分布的分布密度,即当n充分大时,T近似服从标准正态分布221lim()2xnfxe•F分布构造性的方式定义定义1.7设,,且X与Y相互独立,记则F也是一个随机变量,它所服从的分布称为自由度为(m,n)的F分布,记为2~()Xm)(~2nYXmFYn~(,)FFmn•它的密度函数为它与m,n有关,其图形也有一定差异.0,00,)1()()2()2()2()(2122xxxnmxnmnmnmxfnmmm•容易得到若,则),(~nmFF1~(,)FnmF•分位数:定义1.6设X为连续型随机变量,其分布函数为,对,如果存在数满足则称为此分布的分位数分位数的几何意义可用图形表示,它的值可查表得到,不同的分布有不同的分位数,有不同的表可查.)(xf10xdxxfxXP)()(xx•常见的分位数有它们的值可以通过附表1、附表2、附表3、附表4查得2,(),(),(,)ZntnFmn•分位数具有性质(1)(2)(3)当n足够大时(一般n45)有近似公式)()(,11ntntZZ),(1),(1mnFnmF2(),2tnZnnZ•例1:查表求下列分位数的值0.050.9752220.050.990.050.050.990.050.050.99,(10),(10),(50)(10),(10),(100)(9,10),(9,10),ZZtttFF•抽样分布定理定理7.2.1设总体,为X的一个简单随机样本,为样本均值与样本方差,则有:(1)(2)),(~2NX12(,,,)nXXX2,XS2~(,)~(0,1)XXNNnn或);1(~)1(222nsn(3)相互独立;(4)2XS与)1(~ntnSX•定理7.2.2设有两个总体X与Y,,从两个总体X与Y中分别独立抽取容量为m,n的简单随机样本记为样本的样本均值与方差,为样本的样本均值与方差,则(1)),(~211NX),(~222NY),,(21mXXX),,(21nYYY2,XSX),,(21mXXX),,(21nYYY2,YSY)1,0(~)()(222121NnmYX(2)(3)若则其中)1,1(~222212nmFSSYX21)2(~11)()(21nmtnmSYXw2)1()1(222nmSnSmSYXw•定理7.2.3设总体X为任意总体,存在有限的数学期望与方差,为X的一个样本,当n充分大时(称之为大样本),有(1)(2)2)(,)(XDXE),,(21nXXX)1,0(~/NnX近似)1,0(~/NnSX近似•定理7.2.4设事件A发生的概率为p,在n次重复试验中事件A发生的次数为m,当n充分大时,近似地有(1)(2)~(0,1)(1)mnpNmmn近似~(0,1)(1)mnpNnpp近似•定理7.2.5设总体X服从参数为的指数分布,为X的一个简单随机样本,为样本均值,则12(,,,)nXXXX22~(2)nXn•例2设总体,分别从X中抽取容量为10与15的两个独立样本,求它们的均值之差的绝对值大于0.3的概率)3,20(~NX•例3设总体,是从总体中抽取的简单随机样本,选取常数c,d使得并求出n.~(0,1)XN),,,(521XXX)(~)()(22542321nXXdXXXc一、估计理论经验分布函数分布估计直方图非参数估计估计理论矩法估计点估计极大似然估计参数估计区间估计1.参数点估计参数点估计是对参数取哪一个值作出估计.定义:设总体的分布已知,但其中含有未知参数(可以是一个向量),点估计就是依据某种原理,根据样本来构造统计量(可以是一个向量)作为的估计量,记为T12ˆ(,,,)nTXXX•当样本取定一个观察值时,估计量也有一个值,这个值称为估计值,不同的抽样,有不同的估计值,它与真值会有差异,这种差异除了抽样带来的误差外,与估计量的形式有关.因此,选取统计量也是非常重要的.我们介绍两种统计量的方法:矩法与极大似然法•矩法估计假设样本为简单随机样本,则由大数定律,有12,,,kkkknXXXX独立同分布,且与总体的分布相同11lim()nkkiniXEXn•其中当n比较大时11nkiiXkn为样本阶原点矩()kEXk为总体阶原点矩11()nkkiiXEXn•利用这种近似相等关系的思想,得到矩法估计的定义.定义:用样本原点矩去代替总体相应的原点矩得到的参数的估计量的方法称为矩法,称这种估计为矩法估计量.•例4总体X的分布密度为其中为未知参数,现从中抽取一个样本,试求的矩法估计量.解:1||(;)exp()2xfx•由于故令得到估计量通常我们是采用下面的方法22()0()2EXEX与参数无关,222A2ˆ2A•另解我们可认为而由矩法,我们令得到12(||,||,,||)||nXXXX为的一个样本(||)EX11||(||)niiXEXn11ˆ||niiXn•极大似然估计极大似然估计是利用小概率原理作出估计的.小概率原理:一个概率非常小的一个事件在一次试验中几乎是不可能发生的;也就是说,如果一个事件在一次试验中居然发生了,那么这个事件发生的概率不可能很小,而应认为其概率会尽可能地大.•例5设总体,现从中抽取一个样本观察值(500,300,600,400,700),试估计的值.解:~()XP•这里,n是5,设为样本,在一次试验中事件发生了,而125(,,,)XXX125{500,300,,700}XXX1255003007005007005{500,300,,700}500!300!700!500!700!PXXXeeee是参数的函数,由小概率原理,这个概率不会太小,应尽可能大,即求这个概率的最大值.利用求导可得到当时,这个概率达到最大.因此,我们有理由认为参数为500.这就是极大似然估计.500•一般地,当总体为离散型总体,其分布中含有未知参数(可以是向量),为一个样本,为一次观察值,称为似然函数.12(,,,)nXXX12(,,,)nxxx121122(,,,;){,,,}nnnLxxxPXxXxXx•称对数似然函数.称满足的为极大似然估计值,记为1212(,,,;)ln(,,,;}nnlxxxLxxx1212ˆ(,,,;)max(,,,;}nnLxxxLxxxˆ12ˆ(,,,)nxxx而称为极大似然估计量.简称ML估计.上例的一般情况是12ˆ(,,,)nXXX例6:设总体X服从参数为的泊松分布,求的极大似然估计.解:总体X的分布为似然函数为{}!xPXxex1212112(,,,;)