教学目的和要求本章介绍抽样估计的基本理论和方法,具体要求:①理解抽样分布的含义及总体分布、样本分布和抽样分布三者的关系,掌握常用的抽样分布定理;②通过对抽样中误差构成的了解,正确理解抽样误差的含义及三种表现形式之间的关系,深刻领会抽样极限误差、抽样概率度与抽样标准误三者之间的关系;③了解优良估计量的评价标准,熟练掌握区间估计的基本原理;④掌握各种抽样组织形式下总体均值、总体成数的区间估计,尤其是掌握各自不同的抽样标准误公式及相应的估计方法;⑤掌握确定样本容量的一般方法。案例一:抽样推断在企业市场规划中应用例张先生是台湾某集团的企划部经理,在今年的规划中,集团准备在某地新建一家新的零售商店。张先生目前正在做这方面的准备工作,其中有一项便是进行市场调查。在众多信息中,经过该地行人数量是要考虑的一个很重要的方面。张先生委托他人进行了两个星期的观察,得到每天经过该地人数如下:544,468,399,759,526,212,256,456,553,259,469,366,197,178•以此数据作为样本,商店开张后经过该地的人数作为总体。在95%的置信度下,能否知道每天经过此地的人数?案例二:抽样推断在品牌认知度中应用例某食品厂准备上市一种新产品,并配合以相应的广告宣传,企业想通过调查孩子们对其品牌的认知情况来评估广告的效用,以制定下一步的市场推广计划。他们在该地区随机抽取350个小孩作访问对象,进行儿童消费者行为与消费习惯调查,其中有一个问句是“你听说过这个牌子吗?”,在350个孩子中,有112个小孩的回答是“听说过”。根据这个问句,可以分析这一消费群体对该品牌的认知情况。食品厂市场部经理要求,根据这些样本,给定95%的置信度,估计该地区孩子认知该品牌的比例。你准备如何估计?第一节抽样分布一、抽样分布的基本问题1.抽样估计:根据随机抽样的非全面调查资料得到的样本值去推算全面情况下总体值的一种统计研究方法。抽样估计包括两个部分:抽样调查——随机抽样地进行个体观察,并获得样本数据;抽样推断——运用数理统计的理论和方法,由样本资料对总体数量特征做出一定可靠程度的估计和判断达到对总体的认识。目标总体(被估计总体)抽样总体(样本)抽样调查计算样本参数(样本统计量)抽样估计总体参数(一)总体分布及其特征总体分布就是总体中所有个体关于某个变量(标志)的取值所形成的分布。反映总体分布特征的指标叫总体参数,一般用Θ来表示。总体参数:反映总体数量特征的指标,由总体全部单位的标志值计算而来。常用的总体参数有总体平均数(或总体成数)、总体标准差(或总体方差)。miimiiiNiiffXXNXX111或Nm22iiii1i1mii1XXXXfNf或对于特定的总体,总体参数值是唯一的。对于无限总体和非全面调查的有限总体,总体参数的值未知,只能通过样本来估计。PNNQNNP1,01PQPPP1(二)样本分布及其特征样本分布就是样本中所有个体关于某个变量(标志)的取值所形成的分布。•样本统计量,是反映样本数量特征的指标,是完全由样本决定的量。是样本统计量的值即为样本统计值,由样本单位的标志值计算而来,用来估计总体参数。•与总体参数相对应,常用的样本统计量有样本平均数(或抽样成数)、样本标准差(或样本方差)。miimiiiniiffxxnxx111或nm22iiii1i1mii1xxxxfssn1f1或样本统计量是随机变量,它的取值随样本的不同而发生变化。抽样估计是以可知但非唯一的样本统计量的值来估计未知但唯一的总体参数的值。pnnqnnp1,01pqnnppnnsp111(三)抽样分布及其特征1.抽样分布的概念及影响因素一般意义上说,抽样分布就是样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率所组成。实际的抽样分布形成取决于以下五个因素:(1)总体分布:集中程度决定抽样分布的集中程度(2)样本容量:决定抽样分布最关键的因素,越大越集中(3)抽样方法:重复与不重复、考虑顺序与不考虑顺序(4)抽样组织形式:简单随机、分层、整群、等距、多阶段(5)估计量构造:直接与间接估计量,常为样本统计量区分:重复抽样和不重复抽样(1)重复抽样从目标总体N个单位中要随机抽取容量为n的样本,每次从中抽取一个单位并登记结果后,又重新放回参加下一次抽取。例如,总体有A、B、C、D四个单位,要从其中重复随机抽取两个单位组成一个样本,则全部可能的样本数为16个(考虑顺序):AA、AB、AC、AD、BA、BB、BC、BD、CA、CB、CC、CD、DA、DB、DC、DD(2)不重复抽样:从目标总体N个单位中要随机抽取容量为n的样本,每次从中抽取一个单位并登记结果后,不放回参加下一次抽取。抽中的单位不可能再次被抽到。例如,总体有A、B、C、D四个单位,要从其中不重复随机抽取两个单位组成一个样本,则全部可能的样本数为12个(考虑顺序):AB、AC、AD、BA、BC、BD、CA、CB、CD、DA、DB、DC四种抽样方法在简单随机抽样下,从总体个N个体中抽取容量为n的样本,其样本个数m有以下四种情况:(1)考虑顺序的重复抽样,;(2)不考虑顺序的重复抽样,;(3)考虑顺序的不重复抽样,;(4)不考虑顺序的不重复抽样,。样本个数不同,抽样分布也就自然有别。一般情况下,抽样方法只指上述(1)和(4)这两种情况,抽样实践中(4)最为常用。nmN1nNnmCnNmCnNmP不考虑顺序的重复抽样不考虑顺序的重复抽样也就是可重复的组合。如果把从N个不同单位中每次抽取n个的允许重复的组合记为DnN,它就等于从N+n-1个不同单位每次抽取n个的不重复组合。即:为了帮助我们理解这一公式,我们推导如下:设有3个元素a1、a2、a3,今从中每次抽取2个,且允许重复,此时有以下6种组合,即:a1a1、a1a2、a1a3、a2a2、a2a3、a3a3。设想将上述各组合中的元素的下标均加上(0,1)则可以得到如下6种组合:a1a2、a1a3、a1a4、a2a3、a2a4、a3a4。不难看出这6种组合是从4个元素a1、a2、a3、a4里每次取出两个不同元素的组合,由组合数计算公式可知C24=6。这样,我们即可发现:从3个元素中每次取2个可以重复的组合数与从4个元素中每次取2个不同元素的组合数相等。即有D23=C24=C23+2-1。依此类推。则有DnN=CnN+n-1。1(1)!!(1)!nnNNnNnMDCnN2.抽样分布形式在抽样估计中,最基本的抽样分布是样本均值的抽样分布和样本成数的抽样分布,以此得到抽样分布的形式。由样本统计量与相应概率两部分构成。例如,从2、4、6三个数字中随机抽取两个数的抽样分布为:x1x2x3x4x5样本均值可能取值23456P1P2P3P4P5概率1/92/93/92/91/93.抽样分布特征•任一抽样分布都有自己的特征,这个特征就是样本统计量的数学期望和方差。数学期望(样本统计值的平均数):方差(样本统计值关于期望的方差):4916925934923912X1=++++上例中:=xEPxxEkiii221222221232124344454641.3399999kiiivxxxPnvx上例中:=-+-+-+-+-=(一)样本均值的抽样分布定理1.正态分布的再生定理如果某样本的n个个体完全随机地来自数学期望为、方差为的正态总体,则不论样本容量n多大,样本均值服从数学期望为、方差为(重复抽样时)或(有限总体且不重复抽样时)的正态分布。2.中心极限定理对于任一具有平均数和方差的有限总体,当样本容量n足够大时(例如或),样本均值的分布也趋于服从正态分布,其数学期望和方差与再生定理的相同。此即为中心极限定理。二、常用的抽样分布定理X2SX2()SVxn2()()NnSVxNnX2S30n50nxXX2Sx3.t分布定理当正态总体的方差未知且n较小,或任一方差为的总体但n较小,则样本均值的分布服从自由度为n-1的t分布。分布曲线与正态分布相近,其中数学期望相同。2Sx(二)样本成数的抽样分布定理1.二项分布定理从一个数学期望为p、方差为PQ的是非变量(0-1分布)总体中随机重复地抽取容量为n的样本,那么样本中含有n1个某类变量值的概率为:2.超几何分布定理从一个数学期望为p、方差为PQ的是非变量(0-1分布)总体中随机不重复地抽取容量为的样本,那么当N1≥n同时N0≥n时,样本中含有个某类变量值的概率为:1n1111()nnnnnnCPQ01101010(,,)nnNNnNCCnnNNC3.中心极限定理从任一数学期望为p、方差为PQ的是非变量(0-1分布)总体中随机抽取容量足够大的样本(一般要求同时nP5,nQ5),则样本成数p的分布趋于服从数学期望为p、方差为PQ/n(重复抽样时)或数学期望为p、方差(1-f)PQ/n(不重复抽样时)的正态分布。一般地,抽样中的总误差可以简单地分为两类,一类是抽样误差,一类非抽样误差。所谓抽样误差是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本不同所造成的误差。所谓非抽样误差是由随机抽样的偶然性因素以外的原因所引起的误差,是非抽样调查所特有的。一、抽样中的误差构成第二节抽样误差1.实质:指由于随机抽样的偶然性使样本结构不能完全代表总体结构而引起的样本统计量和总体参数之间的离差。抽样误差为一种代表性误差,但并非统计上的代表性误差均为抽样误差(如典型调查)。调查误差登记性误差代表性误差系统性误差偶然性误差抽样标准误实际误差统计推断中的抽样误差就是抽样标准误。它是抽样调查所固有的,是对抽样推断精确度的量度。2.影响因素①总体各单位标志值之间的差异程度(бx2、бp2):一定条件下,差异程度越大抽样误差越大②样本容量(即样本单位数n):一定条件下,n越大抽样误差越小③抽样方法:一般情况下,不重复抽样小于重复抽样误差④抽样组织方式:一定条件下,不同抽样组织方式抽样误差也不同第四个因素最为活跃,也是我们这章所要考虑的!(简单随机抽样、分层抽样、等距抽样、整群抽样、多阶段抽样)抽样误差的表现形式一般有三种:抽样实际误差、抽样标准误和抽样极限误差。(一)抽样实际误差抽样实际误差是指样本估计值与总体参数值之间的离差,表示为。抽样实际误差是随机变量,因为依据不同样本得到的估计值与总体参数值之间的离差是不同的。每一次的实际误差不可知,因Θ不可知。二、抽样误差的表现形式ˆ(二)抽样标准误差(抽样平均误差)反映抽样误差一般水平的指标,指样本统计量抽样分布的标准差,定义公式:21()kxiiiiiiSExPiP其中:第个样本配合的样本统计量 为参数真值 为出现的概率 以简单随机抽样为例说明的具体计算方法重复不重复平均数抽样成数抽样2()=xxSExn22()==11xxxNnSExfnNn-2()=PpSEpn22()==11PPpNnSEpfnNn-()SEx(三)抽样极限误差与抽样精度1、抽样极限误差:2、相对抽样极限误差:3、抽样精度:pxPpXx%100%100%100%100''pPxXpppxxx''11ppxxAA(四)概率度和置信度1、置信度:可靠性、把握程度,用表示。指估计总体参数(、)在某一区间的(可靠性)概率。2、概率度:用t表示,它与置信度是函数关系。是指单位抽样平均误差的允许误差XP()()pxttSEpSEx 或 =F(t)1-在估计总体参数时,一个很重要的问题是估计量的选择。所谓估计量,就是用以估计总体参数的量,或者说是根据样本结果来估计总体参数的规则或形式。在参数估计时,人们可以构造很