•教学目的:通过本章的学习使学生掌握抽样推断的基本原理和方法,理解抽样分布的理论和样本容量的确定方法。•教学重点:重点介绍抽样误差的概念、抽样平均误差的计算方法、参数估计的基本方法、必要样本容量的确定和抽样组织形式等。•教学学时:本章将用12个学时介绍。第一节抽样推断的一般问题一、抽样推断的概念和应用场合1、抽样推断的概念和特点抽样推断是指根据随机原则,从总体中抽取一部分单位进行观察,并依据所获得数据的处理结果,对总体的数量特征做出具有一定可靠程度的估计和判断,从而达到对总体的分布状况及其数量特征认识的目的。抽样推断的特点:(1)遵循随机原则;(2)由部分推断总体的一种研究方法;(3)抽样推断的误差可以事先计算并加以控制。2、抽样推断的应用场合(1)用于无法采用或不必采用全面调查的现象;(2)对全面调查的结果进行复核;(3)生产过程的质量控制;(4)对总体的假设进行检验。二、抽样推断中的几个基本概念1、全及总体和样本总体(1)全及总体全及总体又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。总体单位数用N表示。(2)样本总体样本总体又称子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用小写英文字母n来表示。通常将样本单位数不少于30个的样本称为大样本,不及30个的称为小样本。社会经济统计的抽样调查多属于大样本调查。对于一次抽样调查,全及总体是唯一确定的,而样本总体则不是这样,样本是不确定的,一个全及总体可能抽出很多个样本总体,样本的个数和样本的容量有关,也和抽样的方法有关。2、总体参数和样本统计量(1)总体参数总体参数又称为全及指标,根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指标。常用的全及指标有总体平均数(或总体成数)、总体标准差(或总体方差)。总体平均数:NiiXNX11总体方差:NiiXXN122)(1总体标准差:NiiXXN12)(1设总体中具有某一标志的单位数为1N则总体成数为:NNP1总体成数的方差为:)1(2PPP2、样本统计量样本统计量又称样本指标,由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标(抽样指标)。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差)。样本平均数:niixnx11样本方差:niixxns122)(11样本标准差:niixxns12)(11样本成数:nnp1样本成数的方差:)1(2ppsp对于一个问题全及总体是唯一确定的,所以全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的不同而发生变化。•3、抽样方法和样本的可能数目•1、抽样方法•(1)根据取样方式不同,可分为重复抽样和不重复抽样•重复抽样是从N个总体单位中抽取一个单位进行观察、纪录后,再放回总体中,然后再抽取下一个单位,这样连续抽取n个单位组成样本的方法。•不重复抽样是从N个总体单位中抽取一个单位进行观察、纪录后,不放回总体中,在余下的总体中抽取下一个单位,这样连续抽取n个单位组成样本的方法。•(2)根据对样本的要求不同,分考虑顺序的抽样和不考虑顺序的抽样•考虑顺序的抽样,是从总体N个单位中抽取n个单位构成样本,不但要考虑各单位的不同性质,而且还要考虑不同性质各单位的中选顺序。相同构成成分的单位,由于顺序不同,也作为不同的样本。•不考虑顺序的抽样,是从总体N个单位中抽取n个单位构成样本,只考虑样本各单位的组成成分如何,而不问各单位的抽选顺序。如果样本的成分相同,不论顺序有多大不同,也作为一种样本。•2、样本的可能数目•(1)考虑顺序的不重复抽样,样本的可能数目为:•(2)考虑顺序的重复抽样,样本的可能数目为:•(3)不考虑顺序的不重复抽样,样本的可能数目为:•(4)不考虑顺序的重复抽样,样本的可能数目为:)!(!)1()2)(1(nNNnNNNNAnNnnNNB)!(!!!)1()2)(1(nNnNnnNNNNCnNnnNnNCD1•三、抽样误差•1、统计误差的种类•统计误差是指统计数据与客观实际数量之间的差距。有两种情况:•(1)登记性误差。指在调查、整理过程中,由于各种主客观原因引起的误差。•(2)代表性误差。指由于样本单位的结构情况不足以代表总体所产生的误差。又分两种:•①系统性误差。由于违反了抽样调查的随机原则而产生的误差。•②随机性误差。由于遵守抽样的随机原则,但可能抽到不同的样本而产生的误差。又分两种:•实际误差:某一样本指标与总体指标之间的差异;•平均误差:所有可能出现的样本指标与总体指标的平均离差。•2、抽样平均误差•(1)抽样平均误差的概念•指由于抽样随机性所产生的所有可能出现的样本指标与总体指标的平均离差。反映了抽样误差的一般水平,其实质含义是抽样平均数(或成数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。样本的可能数目样本的可能数目22)()(xxXxx样本的可能数目样本的可能数目22)()(ppPpp(2)抽样平均误差的计算①样本平均数的抽样平均误差重复抽样:nx不重复抽样:)1(2NnNnx)1(2Nnnx或②样本成数的抽样平均误差重复抽样:nppp)1(不重复抽样:)1()1(Nnnppp)1()1(NnNnppp或•(3)影响抽样误差的因素•①样本单位数;•②总体各单位标志值的差异程度;•③抽样方法;•④抽样调查组织形式。第二节参数估计•一、抽样估计的理论基础•1、正态分布•设连续型随机变量X的概率密度为:222)(21)(xexfx其中为常数,则称X服从参数为的正态分布。记为。0,,),(~2NX根据密度函数可以求出服从正态分布的随机变量X的分布函数:dtexFxt222)(21)(根据密度函数可以求出服从正态分布的随机变量X的分布函数:dtexFxt222)(21)(同时X在区间(a,b)内取值的概率为:dtebxaPbat222)(21)(正态分布的密度函数曲线象一个钟形,且是对称的。对正态分布的密度函数作进一步的分析可以发现正态分布的如下特征:①服从正态分布的随机变量,取值区域是整个x轴,曲线无论向左或向右延伸均以x轴为渐近线;②密度曲线在x轴的上方,它和x轴所围成的面积为1;③在处,曲线达到最大值。21)(f④曲线以为对称轴,在距离对称轴两边相同距离处,各有一个拐点。参数称为均值,称为方差。x2称=0,=1的正态分布为标准正态分布,,一般习惯用表示它的概率密度,表示它的概率分布函数,其公式为:)(x)(x2221)(xexdtexxt2221)(x),(~2NX标准化:若,则可以将其标准化。即服从标准正态分布。Xz•2、Chebyshev大数定律nXXX,,,21的数学期望和方差:设随机变量序列相互独立,且具有相同,2,1,)(,)(2iXDXEii01lim1niinXnP或11lim1niinXnP则对于任意小数有:0•3、中心极限定律(CentralLimitTheorem)•给出一个任意形式的总体,其平均值μ和方差为有限值,在对总体进行抽样时,随着样本容量n的增大,由这些样本算出的平均数的抽样分布将近似服从平均值μ和方差为的正态分布。或者说,若统计量,则Z近似标准正态分布。2xn2xz二、参数估计参数估计就是用样本统计量来估计总体参数。可分为点估计和区间估计两类。1、点估计方法点估计就是将样本指标直接作为未知的总体指标的估计值。假设在总体中,为未知参数(均值、方差、成数等)。由样本构造统计量,估计未知参数。称为的点估计量。XnXXX,,,21),,,(ˆˆ21nXXX点估计量的评价准则:(1)无偏性如果样本统计量的期望值等于总体的期望值,则称这个估计量为无偏估计。设总体的参数为,其估计量为,如,即估计量的数学期望等于被估计的总体参数,我们称估计量是参数的无偏估计量。ˆ)ˆ(Eˆˆ(2)一致性随着样本容量增大,估计量会越来越接近被估计的参数。即对任意的,有则称是参数的一致估计量。01}|ˆ{|limPnˆ•(3)有效性•是指估计量的离散程度。如果有两个估计量都是无偏的,其中方差较小的(对给定样本容量而言)就可以认为相对来说更有效。有效性可用下述比率决定:221221其中是较小的方差。2、区间估计设是从总体X中抽出的样本,是总体的未知参数。根据样本构造统计量和,且,如果对给定的常数,有:),,,(ˆ2111nXXXT),,,(ˆ2122nXXXT21ˆˆ1ˆˆ21P)10(nXXX,,,21则称区间()为的置信水平为的置信区间,称为估计的显著性水平。分别为上下置信限。21ˆˆ,121ˆ,ˆ评价区间估计的两个标准:(1)估计的可靠度置信度反映了区间估计的可信度。置信水平=0.95,说明估计区间()以95%的概率包含总体的参数。或者说,100个这样的估计区间中,平均有95个包含了总体参数;(2)估计的精确度区间的长度反映了区间估计的精确度。当区间的长度愈大,估计区间包含真值的可能性也就愈大,但是估计也愈不精确。可靠度和精确度是相互矛盾的。1121ˆˆ,12ˆˆ步骤:首先,构造一个与待估计参数有关的统计量T;其次,找出统计量的分布,在一定的置信水平下,给出临界值;最后,计算总体参数的置信区间。3、总体平均数的区间估计根据估计条件的不同,估计的公式也不一样,也就是说,要根据是否知道总体的分布、是否知道总体的方差、是大样本还是小样本,是重复抽样还是不重复抽样来确定。参数估计的基础是抽样分布理论。(1)样本取自总体方差已知的正态分布如果样本来自正态分布总体,即:则:),(~2NX),(~2nNx经变换,服从标准正态分布,即xxz)1,0(~Nxzx进行总体均值的置信区间估计,就是要求得,1)(21p对于标准正态分布,就是要求得,1)(22zxzpx由此可以推出,xxzxzx22在重复抽样的情况下,nx由此可以推出,nzxnzx22故所求的100(1-α)%的置信区间为),(22nzxnzx记表示以样本指标为中心向左、向右的最大误差,称为极限误差或允许误差。nZZxx22x在进行不重复抽样时,1NnNnx•例某保险公司欲了解某个险种投保人的平均年龄,随机抽取24人,计算出24人的平均年龄为39岁,总体标准差7.2岁。试以95%的置信度估计该险种投保人的平均年龄。已知投保人的年龄,且已知,是X的一个样本。•解:•由样本得样本均值,标准差=7.2对于给定的置信度95%,有=0.05查标准正态分布表确定临界值。所以有:•投保人的年龄以95%的可靠程度在35.894到42.106岁),(~2NXnXXX,,,21239X96.1025.0z242.796.139242.796.139,),866.239866.239()866.41,134.36((2)样本取自总体方差已知的非正态分布根据中心极限定理,对于非