数理统计引言上一讲,我们介绍了总体、样本、简单随机样本、统计量和抽样分布的概念,介绍了统计中常用的三大分布,给出了几个重要的抽样分布定理.它们是进一步学习统计推断的基础.数理统计总体样本统计量描述作出推断随机抽样数理统计现在我们来介绍一类重要的统计推断问题参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数的某些函数.参数估计估计废品率估计新生儿的体重……估计降雨量在参数估计问题中,假定总体分布形式已知,未知的仅仅是一个或几个参数.数理统计这类问题称为参数估计.参数估计问题的一般提法X1,X2,…,Xn要依据该样本对参数作出估计,或估计的某个已知函数.)(g现从该总体抽样,得样本设有一个统计总体,总体的分布函数为F(x,),其中为未知参数(可以是向量).数理统计参数估计点估计区间估计数理统计)1.0,(2N(假定身高服从正态分布)设这5个数是:1.651.671.681.781.69估计为1.68,这是点估计.这是区间估计.估计在区间[1.57,1.84]内,例如我们要估计某队男生的平均身高.现从该总体选取容量为5的样本,我们的任务是要根据选出的样本(5个数)求出总体均值的估计.而全部信息就由这5个数组成.数理统计一、点估计概念随机抽查100个婴儿,…得100个体重数据10,7,6,6.5,5,5.2,…呢?据此,我们应如何估计和而全部信息就由这100个数组成.例1已知某地区新生婴儿的体重,2~,XNμσ(,)μσ未知数理统计二、寻求估计量的方法1.矩估计法2.极大似然法数理统计1.矩估计法矩估计法是英国统计学家K.皮尔逊最早提出来的.由辛钦定理,若总体的数学期望有限,EXμX则有11niiXXn()PEXμ11nkkiiAXn()(1,2,)PkkEXμk数理统计这表明,当样本容量很大时,在统计上,可以用样本矩去估计总体矩.这一事实导出矩估计法.定义用样本原点矩估计相应的总体原点矩,这种参数点估计法称为矩估计法.理论依据:大数定律数理统计例2设总体服从上的均匀分布,是未知参数,是取自总体的样本,求的矩估计量.X],0[0nXX,,1X,2)(XEX2解因为令,即得的矩估计量:X2ˆ数理统计例1设总体X的概率密度为其它,010,)1()(xxxf其中是未知参数,X1,X2,…,Xn是取自X的样本,1α求参数的矩估计数理统计2.最大似然法它首先是由德国数学家高斯在1821年提出的.后来由英国统计学家费歇于1922年重新提出,并证明了一些性质。因此,这个方法常归功于他。GaussFisher数理统计最大似然法的基本思想先看一个简单例子:一只野兔从前方窜过.是谁打中的呢?某位同学与一位猎人一起外出打猎.如果要你推测,你会如何想呢?只听一声枪响,野兔应声倒下.数理统计你就会想,只发一枪便打中,猎人命中的概率一般大于这位同学命中的概率.看来这一枪是猎人射中的.这个例子所作的推断已经体现了极大似然法的基本思想.数理统计最大似然估计原理:当给定样本X1,X2,…Xn时,定义似然函数为:这里x1,x2,…,xn是样本的观察值.111221122()(;,,)(;,,,)(;)(;)(;)nnnnnLPxxPXxXxXxPXxPXxPXx112()(;,,)(;)(;)(;)nnLfxxfxfxfx数理统计联合分布与似然函数从形式上看确实是一回事,但是就变量之间的关系上看却又有实质上的不同:前者是固定参数而看成是nxxx,,,21的函数,而后者则是固定nxxx,,,21(因为它是已经出现的一组样本观察值)而看成是的函数.在似然函数中可以看成是“原因”,而),,,(21nxxx则被看成是“结果”.导致结果),,,(21nxxx发生的所有原因的集合就是取值的可能范围○H.因此似然函数可以看成是有了结果),,,(21nxxx后,这个结果是由原因导致的可能性的一种度量(离散型时就是概率而在连续型时就是密度).数理统计现在,因为试验结果),,,(21nxxx确实出现了,因此依据上面提到的极大似然原理,导致该结果出现的原因应该是使),,,;(21nxxxL达到最大值的.于是当固定样本观察值),,,(21nxxx时,在取值的可能范围○H内,找一个使似然函数),,,;()(21nxxxLL达到最大值的点),,,(ˆ21nxxx,则这个),,,(ˆ21nxxx是取值的可能范围○H内与的真值“看起来最像”(这正是“极大似然”这四个字在字面上的意思)的那个值,因此,一个自然的想法就是用),,,(ˆ21nxxx作为的估计值.数理统计)(max)ˆ(LL最大似然估计法就是用使达到最大值的去估计.)(Lˆ称为的最大似然估计值.ˆ看作参数的函数,它可作为将以多大可能产生样本值x1,x2,…,xn的一种度量.)(L而相应的统计量称为的最大似然估计量.1(,,)nθXXθ数理统计例2设总体X服从参数为的指数分布,试求的极大似然估计值。解设是一组样本观测值,则似然函数为nxxx,,,21112,0,1,,()()()()0,inxiinexinLfxfxfxelseelsenixeixnnii,0,,1,0,1数理统计niixnL1ln)(ln令0)(ln1niixnL解得的极大似然估计值为xxnnii1ˆ1所以当时,取对数),,1(0nixi0)(L数理统计L(p)=P(X=x1,…,X=xn)设X1,X2,…Xn是取自总体X~B(1,p)的一个样本,求参数p的最大似然估计量.nixxiipp11)1(解:似然函数为:ppXi110~niiniixnxpp11)1(数理统计对p求导并令其为0,0)(111)(ln11niiniixnpxpdppLdxxnpnii11ˆ即为p的最大似然估计值.)1ln()()ln()(ln11pxnpxpLniinii对数似然函数为:数理统计(4)在最大值点的表达式中,用样本值代入就得参数的最大似然估计值.求最大似然估计(MLE)的一般步骤是:(1)由总体分布导出样本的联合分布率(或联合密度);(2)把样本联合分布率(或联合密度)中自变量看成已知常数,而把参数看作自变量,得到似然函数L();(3)求似然函数L()的最大值点(常常转化为求lnL()的最大值点),即的MLE;数理统计设总体X的概率密度为其它,010,)1()(xxxf其中是未知参数,X1,X2,…,Xn是取自X的样本,1α求参数的极大似然估计。数理统计例6设总体X~N(),未知.是来自X的样本值,试求的最大似然估计量.1,,nxx2,μσ2,μσ2,μσ似然函数为解X的概率密度为xexfx,21)(222)(222()211(,)2ixμnσiLμσeπσ数理统计222()211(,)2ixμnσiLμσeπσ2222211(2)()exp[()]2nnniiπσxμσ于是22211ln(2)ln()222niinnLnLπσxμσ令211()0niiLnLxnμμσ2222211()022()niinLnLxμσσσ数理统计11niiμxxn2211()niiσxxn解得的最大似然估计量为2,μσ,μX2211()niiσXXn数理统计第二节估计量的评选标准无偏性有效性相合性数理统计样本均值是否是的一个好的估计量?(2)怎样决定一个估计量是否比另一个估计量“好”?样本方差是否是的一个好的估计量?2这就需要讨论以下几个问题:(1)我们希望一个“好的”估计量具有什么特性?(3)如何求得合理的估计量?X~N()2,μσ数理统计常用的几条标准是:1.无偏性2.有效性3.相合性这里我们重点介绍前面两个标准.数理统计估计量是随机变量,对于不同的样本值会得到不同的估计值.我们希望估计值在未知参数真值附近摆动,而它的期望值等于未知参数的真值.这就导致无偏性这个标准.一、无偏性)ˆ(E则称为的无偏估计.ˆ),,(ˆ1nXX设是未知参数的估计量,若数理统计例如,用样本均值作为总体均值的估计时,虽无法说明一次估计所产生的偏差,但这种偏差随机地在0的周围波动,对同一统计问题大量重复使用不会产生系统偏差.无偏性是对估计量的一个常见而重要的要求.无偏性的实际意义是指没有系统性的偏差.数理统计例1设总体X服从参数为的指数分布,其概率密度为1,0,0,xθexfxθ其它,0θ其中为未知,θX1,X2,…Xn是取自总体的一个样本,试证和谁是参数的无偏估计量1min(,,)nXZXXθ数理统计证,EXθEXθ所以是参数的无偏估计量.θX而1min(,,)nZXX具有概率密度min,0,;0,nxθnexfxθθ其它,故知,θEZnEnZθ即也是参数的无偏估计量.θnZ数理统计所以无偏估计以方差小者为好,这就引进了有效性这一概念.的大小来决定二者谁更优.21)ˆ(E和2ˆ1ˆ一个参数往往有不止一个无偏估计,若和都是参数的无偏估计量,我们可以比较22)ˆ(E211)ˆ()ˆ(ED由于222)ˆ()ˆ(ED数理统计二、有效性D()≤D()2ˆ1ˆ则称较有效.2ˆ1ˆ都是参数的无偏估计量,若对任意,),,(ˆ11nXX),,(ˆˆ122nXX1ˆ设和θ且至少对于某个上式中的不等号成立,θ数理统计例2(续例1)试证当n1时的无偏估计量较哪个更有效.θ证2,DXθ221111()()nniiiiθDXDXDXnnn故有22,θDZn而故有2.DnZθ当n1时,(),DnZDXXnZ故较有效.XnZ数理统计三、相合性任意,当时依概率收敛于,则称为的相合估计量.设θn是参数的估计量,若对于1(,,)nθXX1(,,)nθXXθθθθ为的相合估计量θθ0ε对于任意,有lim{||}1,nPθθεθ数理统计第三节区间估计置信区间定义置信区间的求法数理统计引言前面,我们讨论了参数点估计.它是用样本算得的一个值去估计未知参数.但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大.区间估计正好弥补了点估计的这个缺陷.数理统计一、置信区间定义满足设是一个待估参数,给定,0X1,X2,…Xn确定的两个统计量若由样本{}1Pθθθα12(,,,)nθθXXX12(,,,)nθθXXX()θθ和分别称为置信下限和置信上限.θθ则称区间是的置信水平(置信度)为的置信区间.1(,)θθ数理统计这里有两个要求:可见,对参数作区间估计,就是要设法找出两个只依赖于样本的界限(构造统计量).一旦有了样本,就把估计在区间内.12(,,,)nθθXXX12(,,,)nθθXXX()θθ(,)θθ数理统计可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.1.要求以很大的可能被包含在区间内,就是说,概率要尽可能大.即要求估计尽量可靠.(,)θθ{}Pθθθ2.估计的精度要尽可能的高.如要求区间长度尽可能短,或能体现该要求的其它准则.θθ数理统计在求置信区间时,要查表求分位点.二、置信区间的求法()1PaXbα()()1PXbPXaα()1,2αPXb()2αPXa设,对随机变量X,称满足的点