本章内容一、抽样推断的基本概念与原理二、参数估计中的点估计三、正态总体均值的区间估计四、一般总体均值的大样本区间估计五、正态总体方差的区间估计六、样本容量的确定第一节抽样推断的基本概念与原理一、抽样推断的特点和作用二、重复抽样与不重复抽样三、抽样误差与抽样平均误差四、抽样推断的理论基础(大数法则、中心极限定理)五、参数估计的基本步骤第二节参数估计中的点估计一、总体参数的点估计二、点估计量的优良标准第三节正态总体均值的区间估计一、单正态总体均值的区间估计二、两正态总体均值之差的区间估计三、正态总体均值的单侧区间估计第四节一般总体均值的大样本区间估计一、非正态总体均值的大样本区间估计二、总体成数的大样本区间估计三、总体成数的大样本单侧区间估计第五节正态总体方差的区间估计一、单正态总体方差的区间估计二、两正态总体方差的区间估计一、总体均值估计的必要样本容量二、总体成数估计的必要样本容量三、影响必要样本容量的因素第六节样本容量的确定抽样推断方法与其它统计调查方法相比,具有省时、省力、快捷的特点,能以较小的代价及时获得总体的有关信息。1.根据样本资料对总体的数量特征作出具有一定可靠性的估计和推断2.按照随机性原则从全部总体中抽取样本单位3.抽样推断必然会产生抽样误差特点1.某些现象不可能进行全面调查,为了解其全面资料就必须采用抽样推断方法2.某些理论上可以进行全面调查的现象,采用抽样推断可以达到事半功倍的效果3.抽样推断可以对全面调查的结果进行评价和修正4.抽样推断可用于工业生产过程中的质量控制5.利用抽样推断的原理,可以对某些总体的假设进行检验,来判断假设的真伪,为决策提供依据作用重复抽样又叫有放还抽样或重置抽样。它是每抽出一个样本单位后,把结果记录下来,随即将该单位放回到总体中去,使它和其余的单位在下一次抽选中具有同等被抽中的机会。在重复抽样过程中,总体单位数始终保持不变,并且同一个单位有多次被抽中的可能性。重复抽样不重复抽样又叫无放还抽样或不重置抽样。它是每抽出一个样本单位后,把结果记录下来,该单位就不再放回到总体中去参加以后的抽选。在不重复抽样过程中,总体单位数逐渐减少,并且每个单位至多只有一次被抽中的可能性。不重复抽样用样本指标来代表总体指标时就会产生一定的误差,这种误差是抽样推断方法本身所固有的,所以叫抽样误差,属于代表性误差。抽样误差主要包括样本平均数与总体平均数的差数,样本成数与总体成数的差数。抽样误差愈小,表示样本的代表性愈高;反之,代表性就愈低。抽样误差的大小决定于以下几个因素:1.样本容量n的多少。2.总体被研究标志的变异程度。3.抽样方法的选择。抽样误差抽样平均误差就是抽样平均数或成数的标准差。抽样平均误差MxUMix12)(MpUMip12)(大数法则(大数定律)大数法则从数量关系角度阐明了样本和总体之间的内在联系,证明了随着抽样容量n的增加,能够以接近1的概率期望抽样平均数与总体平均数的偏差为任意小。大数法则1)1(lim1niinXnP中心极限定理图示各种分布的图示参数估计的基本步骤1.按照一定的抽样方式抽取适当的样本进行调查,针对该种抽样方式选择总体参数的最优样本估计量,计算估计值,以此作为总体参数的点估计;2.根据该种抽样方式的抽样平均误差公式计算出抽样误差,我们往往要先计算样本标准差以替代未知的总体标准差;3.根据所要求的置信水平,查正态分布表、t分布表或其他分布表获得对应的概率度,然后再计算出抽样极限误差,最后对总体参数作出区间推断。点估计点估计,也称定值估计,就是以样本估计量直接代替总体参数的一种推断方法。点估计常用方法:矩估计法、极大似然估计法。点估计量的优良标准1.无偏性2.一致性3.有效性)(;)(pExE1;1limlimpPxPnnˆˆ1如果对于事先给定的(通常是大于0小于1之间的一个较小的数,如0.05,0.01等),存在两个统计量),,(1nLXX和),,(1nUXX使得1)),,(),,((11nUnLXXXXP则称),(UL为参数的置信度为1的置信区间(confidenceinterval),这类置信区间也称为双侧置信区间,L和U分别称为置信水平1的置信下限和置信上限;1称为置信水平(confidencelevel)或置信系数(confidencecoefficient)。区间估计的概念置信区间越小,说明估计的精度越高,即我们对未知参数的了解越多、越具体;置信水平越大,估计可靠性就越大。在样本容量一定的前提下,精度与置信度往往是相互矛盾的。若要同时提高置信度和精度,只能增加样本容量。区间估计和假设检验(下章)有着对偶的关系,有一种假设检验就可根据该检验构造相应的置信区间。置信区间的构建往往要借助于未知参数点估计或其函数的抽样分布来进行。区间估计的概念直观含义:在大量多次抽样下,由于每次抽到的样本一般不会完全相同,用同样的方法构造置信水平为1的置信区间,将得到许多不同区间)),,(),,,((11nUnLxxxx,这些区间中大约有)%1(100的区间包含未知参数的真值,大约有%100的区间不包含参数的真值。但是在实际问题中,往往只有一个具体的样本,即样本的一次观测值,根据这个实际样本数据做区间估计,代入置信区间公式得到一个具体的、固定的区间)),,(),,,((11nUnLxxxx,比如)506,495(,不再是随机区间,其两个端点是两个具体的数,这个区间要么包含参数的真值,要么不包含的真值,根本不存在这个具体区间“可能包含的真值”“可能不包含的真值”问题,因此不能说“某具体区间)),,(),,,((11nUnLxxxx包含参数的概率是1”;但这个具体区间到底包含还是不包含参数,我们无法知道;然而根据大数定律,我们宁愿相信这个区间是包含未知参数的那)%1(100区间中的一个。直观含义1.寻找样本nXX,1的一个函数);,(1nXXu,通常称为枢轴量(pivotal),它只含待估的未知参数,不含其它任何未知参数,并且);,(1nXXu的分布要已知但不含任何未知参数(当然也不包含待估参数),在很多情况下,);,(1nXXu可以从的点估计经过变换获得;2.对给定的置信水平1,由);,(1nXXu的抽样分布确定分位点。由于枢轴量);,(1nXXu的分布已知(多数情况下都是常见分布)且不含任何未知参数,因此它的分位点可以计算出来(通过查表或利用统计分析软件);3.通过不等式变形,即可求出未知参数的置信水平为1的置信区间。一般步骤设样本nXX,,1来自正态总体),(2N,这里2已知,总体均值未知,如何求总体均值的置信水平为1的置信区间?构造枢轴量nXZ,服从标准正态分布)1,0(N,给定置信水平1,有1)(2znXP,即1)(22nzXnzXP;所以总体均值的置信水平为1的(双侧)置信区间),(22nzXnzX;得到样本观测值后,对该样本观测值,总体均值的置信水平为1的(双侧)置信区间为),(22nzxnzx,它是一个具体的区间。nzx2nzx2x单正态总体均值的区间估计(方差已知)例题【例5.4】某灯具生产厂家生产一种60W的灯泡,假设其寿命为随机变量X,服从正态分布)1296,(N。现在从该厂生产的60W的灯泡中随机地抽取了27个产品进行测试,直到灯泡烧坏,测得它们的平均寿命为1478小时。请计算该厂60W灯泡的平均寿命的置信水平为95%的置信区间。【解】问题实际上就是求总体均值(60W灯泡的平均寿命)的置信区间,由已知条件可得,总体方差12962,样本容量为27n,样本均值1478x。因为置信水平为95.01,所以查标准正态分布表可得96.1025.02zz,42.146458.13147827/129696.114782nzx,58.149158.13147827/129696.114782nzx,因此该厂60W灯泡的平均寿命的置信水平为95%的置信区间为)58.1491,42.1464(),(22nzxnzx。枢轴量nSXt,服从自由度为n-1的t分布)1(nt;可得1))1(())1(|(|22ntnSXPnttP,即1))1()1((22nSntXnSntXP。正态总体方差2未知时,总体均值的置信水平为1的(双侧)置信区间为))1(,)1((22nSntXnSntX;总体均值的置信水平为1的(双侧)置信区间的观测值为))1(,)1((22nsntxnsntx。单正态总体均值的区间估计(方差未知时)例题【例5.5】某饮料公司生的一种瓶装软饮料,其包装上标明净容量是500ml,在市场上随机抽取了25瓶,测得到其平均容量为499.5ml,标准差为2.63ml。试求该公司生产的这种瓶装饮料的平均容量的置信水平为99%的置信区间(假定饮料的容量服从正态分布),(2N)。【解】以表示瓶装饮料的平均容量,由已知可得,样本容量为25n,样本均值5.499x,样本标准差为63.2s,因为置信水平99.01,查自由度为241n的t分布表得分位数797.2)24()1(005.02tnt,所以03.4984712.15.49925/63.2797.25.499)1(2nsntx,97.5004712.15.499)1(2nsntx,因此该公司生产的这种瓶装饮料的平均容量的置信水平为99%的置信区间为(498.03,500.97)。由于该区间包含了500,故该公司的这种瓶装饮料的容量符合其包装上的标准,不存在容量不足欺骗消费者的行为。t分布与标准正态分布的比较不论样本容量n是大还是小,只要总体为正态分布,总体方差未知,总体均值的置信水平为1的(双侧)置信区间都可以用(5.13)式进行计算。但是由于在自由度较大时(比如大于或等于30或50),t分布和标准正态分布极为接近(见下图),所以也可以用标准正态分布的分位数2z来近似t分布的分位数)1(2nt。实际上,也可以证明当样本容量n充分大时,枢轴量nSXt近似服从标准正态分布,这也可以解释当n较大时,用标准正态分布的分位数2z来近似t分布的分位数)1(2nt的合理性。t分布与正态分布例题【例5.6】为研究某内陆湖的湖水的含盐量,随机地从该湖的32个取样点采了32个湖水样本,测得它们的含钠量(单位:ppm)分别为:13.018.516.414.819.417.323.224.920.819.318.823.115.219.919.118.125.116.820.417.425.223.115.319.416.021.715.221.321.516.815.617.6假设湖水中钠的含量为随机变量X,服从正态分布),(2N,试求湖水钠的平均含量的95%置信区间。【解】由已知可得,样本容量为32n,样本均值0688.19x,样本标准差为2555.3s,因为置信水平95.01,查自由度为311n的t分布表得分位数04.2)31()1(025.02tnt,所以90.171737.10688.1932/2555.304.20688.19)1(2nsntx,24.201737.10688.19)1(2nsntx,因此湖水钠的平均含量的95%置信区间为(17.90,20.24)。如果用正态分布近似,96.1)31(05.0z,则湖水钠的平均含量的95%近似置信区间为