第四章参数估计•估计就是根据你拥有的信息来对现实世界进行某种判断。•你可以根据一个人的衣着、言谈和举止判断其身份•你可以根据一个人的脸色,猜出其心情和身体状况•统计中的估计也不例外,它是完全根据数据做出的。•如果我们想知道南充人认可某饮料的比例,人们只有在南充人中进行抽样调查以得到样本,并用样本中认可该饮料的比例来估计真实的比例。•从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽样过程中永远也不知道;但可以知道估计出来的比例和真实的比例大致差多少。•从数据得到关于现实世界的结论的过程就叫做统计推断(statisticalinference)。•上面调查例子是估计总体参数(某种意见的比例)的一个过程。•估计(estimation)是统计推断的重要内容之一。•统计推断的另一个主要内容是下一章要引进的假设检验(hypothesistesting)。§4.1用估计量估计总体参数•人们往往先假定某数据来自一个特定的总体族(比如正态分布族)。•而要确定是总体族的哪个成员则需要知道总体参数值(比如总体均值和总体方差)。•人们于是可以用相应的样本统计量(比如样本均值和样本方差)来估计相应的总体参数§4.1用估计量估计总体参数•一些常见的涉及总体的参数包括总体均值(m)、总体标准差(s)或方差(s2)和(Bernoulli试验中)成功概率等(总体中含有某种特征的个体之比例)。•正态分布族中的成员被(总体)均值和标准差完全确定;•Bernoulli分布族的成员被概率(或比例)p完全决定。•因此如果能够对这些参数进行估计,总体分布也就估计出来了。§4.1用估计量估计总体参数•估计的根据为总体抽取的样本。•样本的(不包含未知总体参数的)函数称为统计量;而用于估计的统计量称为估计量(estimator)。•由于一个统计量对于不同的样本取值不同,所以,估计量也是随机变量,并有其分布。•如果样本已经得到,把数据代入之后,估计量就有了一个数值,称为该估计量的一个实现(realization)或取值,也称为一个估计值(estimate)。§4.1用估计量估计总体参数•这里介绍两种估计,一种是点估计(pointestimate),即用估计量的实现值来近似相应的总体参数。•另一种是区间估计(intervalestimate);它是包括估计量在内(有时是以估计量为中心)的一个区间;该区间被认为很可能包含总体参数。•点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不像点估计那么绝对。§4.2点估计•用什么样的估计量来估计参数呢?•实际上没有硬性限制。任何统计量,只要人们觉得合适就可以当成估计量。•当然,统计学家想出了许多标准来衡量一个估计量的好坏。每个标准一般都仅反映估计量的某个方面。•这样就出现了按照这些标准定义的各种名目的估计量(如无偏估计量等)。•另一些估计量则是由它们的计算方式来命名的(如最大似然估计和矩估计等)。§4.2点估计•最常用的估计量就是我们熟悉的样本均值、样本标准差(s)和(Bernoulli试验的)成功比例(x/n);•人们用它们来分别估计总体均值(m)、总体标准差(s)和成功概率(或总体中的比例)。这些在前面都已经介绍过,大家也知道如何通过计算机(或公式)来计算它们。§4.2点估计•那么,什么是好估计量的标准呢?•评价一个统计量好坏的标准很多;本教材涉及到三个标准。无偏性(unbiasedness)•无偏性:估计量抽样分布的数学期望等于被估计的总体参数•所谓无偏性(unbiasedness)就是:虽然每个样本产生的估计量的取值不一定等于参数,但当抽取大量样本时,那些样本产生的估计量的均值会接近真正要估计的参数。有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效因为方差小说明反复抽样产生的许多估计量差别不大,因此更加精确。一致性(consistency)•一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P()ˆˆ§4.3区间估计•当描述一个人的体重时,你一般可能不会说这个人是76.35公斤•你会说这个人是七八十公斤,或者是在70公斤到80公斤之间。这个范围就是区间估计的例子。区间估计(intervalestimate)1.在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量–比如,某班级平均分数在75~85之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限区间估计的图示mx95%的样本m-1.96sxm+1.96sx99%的样本m-2.58sxm+2.58sx90%的样本m-1.65sxm+1.65sxxsxzxsm21.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平2.表示为(1-)为总体参数未在区间内的比例3.常用的置信水平值有99%,95%,90%–相应的为0.01,0.05,0.10置信水平(confidencelevel)1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值–我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个–总体参数以一定的概率落在这一区间的表述是错误的置信区间(confidenceinterval)置信区间(95%的置信区间)重复构造出m的20个置信区间m点估计值关于置信区间的注意点•不要认为由某一样本数据得到总体参数的某一个95%置信区间,就以为该区间以0.95的概率覆盖总体参数。•置信度95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率;•也就是说,无穷次重复抽样所得到的所有区间中有95%包含参数。总体均值的区间估计(大样本)1.假定条件–总体服从正态分布,且方差(s2)已知–如果不是正态分布,可由正态分布来近似(n=30)2.使用正态分布统计量z)1,0(~Nnxzsm3.易见,Z对于给定的置信度1-,可以查正态分布双侧临界值得出相应的临界值z/2,使得sm1)/(22znxzp4。故总体均值m在1-置信水平下的置信区间为)(22未知或ssnszxnzx利用不等式变形可得sms1)(22nzxnzxp总体均值的区间估计(大样本,s2已知)【例】从某高校的14500名学生中随机不重复抽取100名学生进行月生活费支出调查,总体方差为455.68元2,经计算样本均值为546元,要求以95%的置信度估计该校全体学生的人均月生活费支出额。解:由题意知,N=14500,n=100,1-=95%,z/2=1.96)85.58715.504(85.4154635.2196.154610068.45596.15462,nzxs全校学生人均月生活费支出额的95%的置信区间为(504.15,587.85)元。68.455,5462sx总体均值m在1-置信水平下的置信区间为总体均值的区间估计(例题分析)【例】从200名学生中随机抽取的50名学生的数学平均分为75分,总体标准差为10分,(1)200名学生数学平均分的95%的置信区间是多少?(2)我们可以在多大置信水平上说200名学生的平均分是75±1分?解:(1)因为总体容量相对于样本容量来说并不是很大,总体均值m在1-置信水平下的置信区间为21.9611020050751.96200150752.4xNnxzxNnss•(2)置信区间可表示为:22221102005075200150751.23xNnxzxzNnzzss227511.23=10.81,00.81zzzz而它必须等于,则即正态曲线下和之间的面积为0.2910,因此要求的置信水平为20.2910=0.582或58.2%【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间36个投保人年龄的数据2335392736443642464331334253455447243428393644403949383448503439454845325.39x77.7s总体均值的区间估计(大样本,s2未知)解:已知n=36,1-=90%,z/2=1.645。根据样本数据计算得:总体均值m在1-置信水平下的置信区间为63.41,37.3713.25.393677.7645.15.392nszx投保人平均年龄的95%的置信区间为35.37岁~41.63岁5.39x77.7s总体均值的区间估计(小样本)•1.假定条件–总体服从正态分布,但方差(s2)未知–小样本(n30)2.使用t分布统计量3.总体均值m在1-置信水平下的置信区间为)1(~ntnsxtmnstx2t分布t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z总体均值的区间估计(例题分析)【例】某时装专卖店的管理人员想估计其顾客的平均年龄,随机抽取了16位顾客进行了调查,得到样本均值为32岁样本标准差s为8岁,假定顾客的年龄近似服从正态分布,试求该店全部顾客平均年龄置信度为95%的置信区间。解:因为总体近似服从正态分布,s2未知,所以已知X~N(m,s2),n=16,1-=95%,t/2=2.13128322.13116324.263sxtn也即有95%的把握估计全部顾客平均年龄在27.737~36.263岁之间。32x岁8s岁总体均值m在1-置信水平下的置信区间为总体比例的区间估计总体比例的区间估计•1.假定条件–总体服从二项分布–可以由正态分布来近似2.使用正态分布统计量z)1,0(~)1(Nnpz3.总体比例在1-置信水平下的置信区间为nppzp)-1(2总体比率的区间估计(例题分析)【例】对某一选举区内随机抽取的100位选民的民意调查表明他们中的55%支持某位候选人,求所有选民中支持这位候选人的比例的(a)95%,(b)99%,(c)99.73%置信度下的置信区间。解:已知n=100,p=55%,(a)1-=95%,z/2=1.962(1)55%(155%)55%1.9610055%9.75%pppzn所有选民中支持这位候选人的比例的95%的置信度下的置信区间为45.25%~64.75%样本容量的确定样本容量n的确定待估计参数已知条件样本数的确定正态总体,σ2已知总体均值(μ)2222xZn△s有限总体,不放回抽样,σ2已知2222222ssZNNZnx△2ˆ22pPqZn△总体比率()服从正态分布Pˆxxs2ppˆ2ˆs总体均值的区间估计(例题分析)【例】生理学家在测量反应时间,估计的标准差是0.05秒,为了有(1)95%,(2)99%的把握保证允许误差不超过0.01秒,他必须要抽取多大的样本?解:已知1-=95%,z/2=1.96。σ=0.05秒总体均值m在1-置信水平下的置信区间为20.051.96xzxnns允许误差是0.051.960.01n1.960.05/0.019.8即所以=96.04nn因此,我们可以有95%的把握确定,如果样本容量为97或更