第六章抽样分布与参数估计学习目标:1、理解抽样分布的特点;2、理解抽样估计的概念、特点、作用以及几个基本概念;3、掌握抽样误差的含义和影响抽样误差的主要因素素;4、熟练掌握抽样平均误差的计算;5、熟练掌握总体均值和总体成数的区间估计方法;6、掌握必要抽样数目的确定方法;7、能够正确选择抽样组织方式。6.1抽样推断的概述6.1.1抽样推断的概念、特点和作用6.1.2抽样推断相关的几个基本概念6.1.3抽样误差6.1.4抽样调查的理论依据6.1.1抽样推断的概念、特点和作用1、抽样推断的概念抽样推断是按随机原则从全部研究对象中抽取一部分单位进行观察,根据样本资料计算样本的特征值,然后以样本的特征值,对总体的特征值做出具有一定可靠性的估计和判断,以反映总体的数量特征和数量表现的一种统计方法。所谓随机原则,即是在抽取样本时,排除人们主观意图的作用,使得总体中的各单位均以相等的机会被抽中。随机原则又称为等可能性原则。2、抽样推断的特点(1)调查单位的确定是按随机原则从全部总体单位中抽取的。(2)用部分单位的指标数值去推断和估计总体指标数值。(3)抽样调查中的抽样误差是不可避免的,事先是可以计算并加以控制的。6.1.1抽样推断的概念、特点和作用3、抽样推断的作用(1)有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。(2)从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难办到,也要采用抽样调查。(3)抽样调查的结果可以对全面调查的结果进行检查和修正。(4)抽样调查可以用于工业生产过程的质量控制。(5)利用抽样调查原理,可以对某些总体的假设进行检验,来判别这种假设的真伪,依决定行动的取舍。6.1.2.1全及总体和抽样总体1、全及总体也称为总体或母体,是指所要认识的研究对象的全体,它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。在本章用大写的字母N代表全及总体的单位数。2、抽样总体就是按随机原则从全及总体中抽取的一部分单位组成的小总体。抽样总体简称样本,它也是由许多性质相同的单位组成的。本章中用小写n代表样本的单位数,样本单位数n也称为样本容量,即一个样本中所包含的单位数。组成样本的每个单位称为样本单位。注意:作为抽样推断对象的全及总体是唯一确定的,但作为观察对象的样本就不是唯一的。从一个全及总体中可以抽取很多个样6.1.2.2全及指标和抽样指标1、全及指标又称总体指标或总体参数根据总体各单位的标志值或标志属性计算的反映总体数量特征的综合指标称为全及指标,又称总体指标。常用的全及指标主要有四个:全及平均数、全及成数、总体数量标志的标准差及方差、总体是非标志的标准差及方差。2、抽样指标又称样本指标或样本统计量根据样本总体各单位标志值计算的反映样本特征的综合指标称为抽样指标,又称样本指标或样本统计量。它是用来估计总体参数的。与总体参数相对应,常用的抽样指标也有四个指标:抽样平均数、抽样成数、样本数量标志标准差及方差、样本是非标志标准差及方差。6.1.2.3样本容量与样本个数1、样本容量样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n表示,它表明一个样本中所包含的单位数。样本容量大,样本误差会小,但调查费用必须增加,反之,样本容量过小,又将导致抽样误差增大,甚至失去抽样推断的价值。样本按照样本容量的大小可以分为大样本和小样本。一般地说,n≥30为大样本,n<30为小样本。在对社会经济现象进行抽样调查时,多数采用大样本。2、样本个数样本可能数目又称样本个数,是指从全及总体中可能抽取多少个样本。它既和每个样本的容量有关,也和抽样的方法有关。当样本容量给定时,样本的可能数目便由抽样方法决定。6.1.2.4重复抽样和不重复抽样1、重复抽样重复抽样是从全及总体中抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现以后,把它放回到全及总体中去,再从全及总体中随机抽取第二个单位,记录它有关标志表现以后,也把它放回全及总体中去,照此下去直到抽选n个样本单位。一般地说,从总体N个单位中,随机重复抽取n个单位构成样本,则共有样本个数为:N×N×N×…×N=Nn个。可见,重复抽样时全及总体单位数在抽选过程中始终没有减6.1.2.4重复抽样和不重复抽样2、不重复抽样不重复抽样是从全及总体中抽取第一个样本单位,记录该单位有关标志表现后,这个样本单位不再放回全及总体中参加下一次抽选。然后,从总体N-1个单位中随机抽选第二个样本单位,记录了该单位有关标志表现以后,该单位也不再放回全及总体中去,再从全及总体N-2单位中抽选第三个样本单位,照此下去直到抽选出n个样本单位。一般地说,要从总体N个单位中随机不重复抽取n个单位为:N(N-1)(N-2)…(N-n+1)=N!/(N-n)!由此可见,在相同的样本容量要求下,不重复抽样的样本总是比重复抽样的样本个数少.可见,不重复抽样时,总体单位数在抽选过程中是逐渐减少的,而且各单位没有重复被抽中可能。两种抽样方法会产生三个差别:①抽取的样本可能数目不同;②抽样误差的计算公式不同;③抽样误差的大小不同。6.1.3抽样误差1、抽样误差的一般概念抽样误差是指根据样本数据计算而得的样本统计量值与被它估计的未知的总体参数真值之间的偏差。具体地是指样本平均数与总体平均数的差(-),,样本成数p与总体成数P的差(p-P)。2、影响抽样误差的因素12)样本容量的大小,即样本单位数的多少。3)抽样的组织形式。4)抽样的方法。XxxX对一个全及总体进行抽样调查时,可以抽出很多个样本。而每一个样本都可以计算抽样的平均数和抽样成数,这样,样本的平均数与总体的平均数,样本的成数与总体的成数之间的误差,也有多种多样。因此,必须用抽样平均误差来反映抽样误差的一般水平。抽样平均误差为抽样平均数(或抽样成数)对总体平均数(或总体成数)的标准差。为了区别于通常的标准差,我们分别用表示抽样平均数的平均误差,用表示抽样成数的平均误差。用M表示样本的可能数目。则有:在实际中,作为总体的平均数和总体成数P是未知的。同时也不可能把所有样本的平均数和成数都计算出来。所以,按照上述计算抽样平均误差的方法,实际上也是办不到的。xpMPpMXxpx22)(,)(6.1.3.3抽样平均误差X6.1.3.3抽样平均误差A、抽样平均数的抽样平均误差a.在重复抽样的条件下nnx2(6-3)b.在不重复抽样条件下)1(2Nnnx(6-4)6.1.3.3抽样平均误差B、抽样成数的抽样平均误差a.在重复抽样的条件下nPPP)1((6-5)b.在不重复抽样的条件下)1()1(NnnPPp(6-6)6.1.3.4抽样极限误差抽样平均误差是所有可能样本指标与总体指标之间的平均离差。但是在进行抽样推断时,我们实际只抽取一个样本,用一个样本指标去推断总体指标。由于抽样是按随机原则进行的,所有不同的样本组合都可能抽到,这样所得到的每个样本实际误差可能大于抽样平均误差,也可能小于抽样平均误差,因此包括在抽样平均误差范围内的只有一部分样本,而不是所有的样本组合。但对于某一项调查来说,根据客观要求一般应有一个允许的误差范围,也就是说若抽样误差在这个范围之内就认为是可行的。这一允许的误差范围就称作抽样的极限误差。抽样极限误差是抽样指标与总体指标之间,在一定概率保证程度下的,抽样误差的最大可能范围。总体指标虽然是一个确定的量,但它是未知的,而样本指标是一个随机变量,其取值是不定的,它是围绕着总体指标左右变动的,因此,我们只能在一定的概率保证程度下,用一定的范围来控制误差。6.1.3.4抽样极限误差通常用Δ表示抽样极限误差,设Δx和Δp分别表示抽样平均数和抽样成数的可能误差范围,则有:Δx=|-(6-7)Δp=|p-P|(6-8)根据概率论数理统计原理,样本平均数和样本成数分别渐进地服从于N(X,)和N(P,p(1-p))的正态分布。因此有:P{|-|≤2·}=0.9545P{|p-P|≤2·}=0.9545即抽样极限误差在2倍的抽样平均误差范围内的可能性为95.45%。也就是说,我们有95.45%的可靠性程度来判断,样本指标与总体指标之间的误差不超过2或者2。xpxXpxxX2xu6.1.3.4抽样极限误差抽样极限误差的计算公式为:Δ=t·μ(6-9)Δx=t·(6-10)Δp=t·(6-11)式中的t表示极限误差范围为抽样平均误差的若干倍,t称为概率度xp6.1.3.5抽样估计的置信度抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。因为既然抽样误差是一个随机变量,我们就不能期望抽样平均数(成数)落在一个区间内是一个必然事件,而只能给予一定的概率保证程度。所以在进行抽样估计时,不但要考虑抽样误差的可能范围有多大,而且还必须考虑到落在这一范围内的概率有多少。前者我们称为抽样估计的精确程度,后者则是抽样估计的可靠程度,也是在概率上的保证程度问题。我们称之为抽样估计的置信度。抽样估计的置信度和抽样的极限误差有着密切联系。根据中心极限定理,当抽样误差范围增大时,抽样估计的置信度也增大,抽样估计的精确程度则降低,反之亦然。实质上,抽样估计的精确度与置信度是一对反方向运动的矛盾。科学的调查方法要合理地协调它们之间的矛盾。6.1.4抽样调查的理论依据抽样调查是建立在概率论大数定律基础上的。大数定大数定律是阐明大量随机现象平均结果的稳定性的一系列定理的总称。它说明如果被研究的总体是由大量的相互独立的随机因素所构成,而且每个因素对总体的影响都相对的小。那么将这些大量因素加以平均,因素的个别影响将相互抵消,而呈现出共同作用的影响,使总体具有稳定的性质。6.2抽样分布6.2.1样本空间6.2.2重复抽样分布6.2.3不重复抽样分布6.2.1样本空间样本分布就是样本统计量的概率分布,在一个抽样框里可以抽取多套样本,组成样本空间,每一个样本空间可以构造出多个统计量,如样本均值、样本成数、样本方差等。由随机抽样抽到的各个样本单位不同,其数据表现不同,统计量的取值也不同。在同一个总体中抽出样本容量相同的所有可能样本后,计算每个样本统计量的值和相应的概率,就组成样本统计量的概率分布,简称抽样分布。在进行随机抽样时,按样本抽取方法的不同,可分为放回的重复抽样和不放回的不重复抽样,从而形成重复抽样的样本分布和不重复抽样的样本分布。6.2.2重复抽样分布1、样本平均数的抽样分布样本平均数分布是由所有组合样本平均数的值与其相应的概率表示。[例6-5]某工作班组有4个工人,其小时工资分别为1、2、3、4元,则:总体平均数:总体方差:(元)5.244321NXXi(元)454)5.34()5.03()5.22()5.21()()(222222NXXXi现用重复抽样的方法从4人中随机抽取2人样本,用样本的平均工资来推断总体的平均工资。按重复抽样所组成的样本平均数的空间分布列表如下:表6-1重复抽样样本小时平均工资组合(单位:元)样本变量值123411.01.52.02.521.52.02.53.032.02.53.03.542.53.03.54.0根据上表整理的样本频数分布及样本统计量,计算如下:表6-2样本均值及频数分布样本均值()频数()111-1.52.252.251.523-112236-0.50.250.752.54100003390.50.250.753.5271124141.52.252.25合计1640——10xxxffxxx2)(xxfxx2)(根据以上资料,计算样本平均数的数学期望和抽样方差如下:抽样方差的开平方即为抽样误差,用符号μ表示,重复抽样的样本统计量与总体参数之间存在的关系:1、重复抽样的样本平均数的数学期望(样本总平均数)恒等于总体平均数。即2、随机变量的抽样方差等于总体方差的1/n,即即5.21640)(ffxxxEXxxE)(5.25.2XxnXx)()(228524585)(2x85161