第七章抽样调查第一节抽样调查的一般问题一、抽样的概念和特点(一)抽样调查的概念抽样调查是一种非全面的调查方法,是按随机原则从全部研究单位中抽取一部分单位进行观察,根据样本资料计算样本的特征值,然后以样本的特征值,对总体的特征值做出具有一定可靠性的估计和判断,以反映总体的数量特征和数量表现的一种统计方法。随机原则,即是在抽取样本时,排除人们主观意图的作用,使得总体中的各单位均以相等的机会被抽中。随机原则又称为等可能性原则。(二)1、用部分单位的指标数值去推断和估计总体2、调查单位的确定是按随机原则从全部总体单位中抽取的。3、抽样调查中的抽样误差是不可避免的,在事先是可以计算并加以控制的。二、抽样调查的作用1、有些现象是无法进行全面调查的,必须采用抽样调查的方法。例如对无限总体。另外,有些产品的质量检查所使用的测试手段对产品具有破坏性,不可能进行全面调查,只能采用抽样调查。如电视机使用寿命检验,罐头的防腐期限试验,轮胎的里程试验等。2、有些现象虽然可以进行全面调查,但实际上没有必要或很难办到。例如,要了解全国城乡人民的家庭生活状况,从理论上讲可以进行全面调查,但实际上难以办到,也没有必要。采用抽样调查可以节约时间、人力、物力和才力,提高调查结果的时效性,又能达3、抽样调查的结果可以对全面调查的结果进行检查和修正。全面调查涉及面宽,工作量大,参加人员多,调查结果容易出现差错。因此,在全面调查(如人口普查)之后进行抽样复查,根据抽查结果计算差错率,并依此为依据检查和修正全面4、抽样调查可以用于工业生产过程的质量控制。在工业产品成批或大量连续生产过程中,利用抽样调查可以检验生产过程是否正常,及时掌握信息,(一)全及总体也称为总体或母体,是指所要认识的研究对象的全体,它是由所研究范围内具有某种同质性的全体单位所组成的集合体。用字母N代表全及总体的单位抽样总体就是按随机原则从全及总体中抽取的一部分单位组成的小总体,简称样本,用n代表样本的单位数,也称为样本容量。组成样本的每个单位称为样本单样本按照样本容量的大小可以分为大样本和小样本。一般地说,n≥30(或者50)为大样本,n<30为小样本。对社会经济现作为抽样推断对象的全及总体是唯一确定的,但作为观察对象的样本就不是唯一的。从一个全及总体中可以抽取很多个样本,每次抽到哪个样本是不确定的。(二)1、全及指标又称总体指标,是根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标。由于全及总体是唯一确定的,根据全及总体计算的全及指标也是唯一确定的。全及指标主要有:全及平均数、全及成数、总体数量标志的标准差及方差、总体是非标志的标准差及方差。2s2、抽样指标又称样本指标,是由抽样总体各个标志值或标志特征计算的综合指标。和全及指标相对应抽样指标有:抽样平均数、抽样成数p、样本标准差s和样本方差、样本是非标志标准差及方差。样本统计量是样本的函数。由于样本是从总体中随机地抽出来的,因此,样本统计量也是随机变量。可利用样本统计量来估计或推断总体的参数和数量特征。x2s(三)1、样本可能数目又称样本个数,是指从全及总体中可能抽取或可能构成的样本总体。从总体N个单位中随机抽选n个单位构成样本,通常有多种抽选方法,它既和每个样本的容量有关,也和抽样的方法有关。当样本容量给定时,样本的可能数目便由抽样方法决定。2、抽样方法(1)重复抽样。重复抽样是从全及总体中抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现以后,把它放回到全及总体中去,再从全及总体中随机抽取第二个单位,记录它有关标志表现以后,也把它放回全及总体中去,照此下去直到抽选n重置抽样时:①总体单位数在抽选过程中始终不变;②总体中各单位被抽中的可能性前后相同;③总体中各单位有被重复抽中的可能。(2)不重复抽样。不重复抽样是从全及总体中抽取第一个样本单位,记录该单位有关标志表现后,这个样本单位不再放回全及总体中参加下一次抽选。然后,从总体N-1个单位中随机抽选第二个样本单位,记录了该单位有关标志表现以后,该单位也不再放回全及总体中去,再从全及总体N-2单位中抽选第三个样本单位,照此下去直到抽选出n个样不重置抽样时:①总体单位数在抽选过程中逐渐减少;②总体中各单位被抽中的可能性前后不断变化;③总体中各单位没有被重复抽中的可能。第二节抽样推断的基本原理一,抽样推断的方法论基础抽样推断的理论基础主要是概率论的极限定理中的大数定律与中心极限定理。1,大数定律大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50%。切贝雪夫大数定理:独立同分布的随机变量X1,X2,…,Xn,…,设它们的平均数为,方差为2。则对任意的正数ε,有:11lim1niinXnp该定理的含义是:当n很大,服从同一分布的随机变量x1,x2…,xn的算术平均数将依概率收敛于这些随机变量的数学期望。应用于抽样调查,有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。nXi贝努里大数定理:an设是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,有:1limpnnPna该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。2.(独立同分布的)中心极限定理2122112,,,,,,1,2,1,2niiniinnitxinnnXXEXDXiXnnYnXnxRlimPYxlimPxedtn设随机变量X相互独立同分布,则前个变量的和的标准化变量为:有:证明略。此定理表明,当n充分大时,Yn近似地服从N(0,1)。有些随机变量表现为大量独立随机变量之和。例如,任意指定时刻城市用电量是大量用电量的总和,一个零件的实际尺寸与标准尺寸的偏差是原材料、设备、操作技术、经营管理水平等多种因素综合影响的结果,等等。中心极限定理就是研究随机变量之和在什么条件下渐近地服从正态分布。设是相互独立同分布的随机变量,且它们的数学期望为,方差为,则也是一个随机变量,当n很大时,它的分布渐近服从数学期望和方差分别为和的正态分布N(,)。nXXXX,......,,,3212niiX1n2nn2nnxxin2),(~2nNx而中心极限定理的另一种形式则说明随机变量在n无限增大时,服从参数为μ和的正态分布,即n→∞时,将该中心极限定理应用到抽样调查,就有这样一个结论:如果抽样总体的数学期望μ和方差σ2是有限的,无论总体服从什么分布,从中抽取容量为n的样本时,只要n足够大,其样本平均数的分布就趋于以数学期望为μ,方差为的正态分布。n2大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。而中心极限定理说明的是:如果总体变量存在有限的平均数和方差,则不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋于正态分布。二、抽样估计的优良标准在推断一个总体的指标时,如何从样本单位的各个标志值来计算样本的指标,其估计的方法不止一种。例如,欲估计总体的均值时,可以根据样本的标志值计算样本的平均数作为总体平均数的估计值,也可以用样本标志值中的中位数和众数作为估计值,究竟选择哪一个估计量好?在什么意义上好?这就是如何对估计量进行评价的问题。直观地考虑问题,要使样本指标对于总体指标具有良好的代表性,最好使样本的分布结构和总体的分布结构相一致,或所抽取的变量都靠近于总体的平均数。但抽样指标是一个随机变量,随着抽取的样本不同,便有不同的估计值。因此要判断一种估计量的好坏,仅从某一次试验的结果来衡量是不可能的,而应该从多次重复试验中,看这种估计量是否在某种意义上说最接近于被估计的参数真值。这就需要从总体上去考察,通常有三个重要的性质作为选择依据。12ˆˆ,,ˆ,,,nEXXX满足则称定义是的一若参数的估计个无偏量:估计量。优良估计的标准1、无偏性:即用样本指标估计总体指标要求所有可能的样本指标的平均值等于对应的总体指标值。就是说,虽然每一次的抽样指标和未知的总体指标可能有偏误,但在多次反复的估计中各个抽样指标的平均值等于总体指标,则用抽样指标来作估计,平均说来是没有偏误的,即样本指标是对应的总体指标的无偏估计量。抽样平均数是总体平均数的无偏估计量;抽样成数是总体成数的无偏估计量,中位数是总体中位数的无偏估计量,样本方差不是总体方差的无偏估计量,但修正的样本方差是总体方差的无偏估计量。12,,,nXXXX证:因与同分布,故有:11niiEXEXn11niiEXn1nnX故是的无偏估计2211()1niiSXXn又:)(emE同样中位数也是总体中位数的无偏估计量的无偏估计。是,所以可以2222sσ)E(s证明:这里:1,,0,0nnnnnXXnlimP设为参数的估计量,若对于任意,当时,依概率收敛于,定义:则称为即的相有:成立,合估计量或一致估计量2、一致性说明用样本指标估计总体指标,当样本容量增加时,样本指标越来越接近总体指标,则称样本指标为总体指标的一致估计量。即当样本单位数n无限增大时,估计量与参数间绝对值之差大于任意常数的概率趋近于0。1))((limxExpnXxE)(1)(limXxpn仍以抽样平均数为例加以证明。设ξ为任意小的正数,根据大数定律有:由平均数的无偏估计知道,抽样平均数的平均数等于总体的平均数,即,则有:这就是说,当样本容量无限增大时,抽样平均数和总体平均数的绝对离差小于任意的ξ0的概率趋近于1。这就是估计一致性的要求。121212,,DD设是的两个无偏估计,如果对一切成立则称:比定义有效。3、有效性即一个方差较小的无偏估计量称为一个更有效的估计量。例如,与其他估计量相比,样本均值是一个更有效的估计量。数理统计证明:为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;p为P的无偏、有效、一致估计量。xX1nS第三节抽样误差一,抽样误差的概念统计误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都存在。统计误差又包括调查误差和代表性误差,它在各种统计调查中都可能会存在。调查误差是指统计调查时,由于主观或客观原因而引起的技术性、登记性误差等。如在观测数据的填写、计算机数据录入、传输、计算等环节的差错引起的误差。这类误差的控制,须经过改进抽查表的设计或测试方式,严密组织调查,提高调查员的素质,以及加强调查整理等各环节的质量检查监督,或设计特殊调查方式进行处理,才能见效。代表性误差又可分为两种:系统性误差和随机误差。•系统性误差又称偏差,它是由于抽样调查没有遵循随机原则,由于主客观原因而造成对各个单位的观察登记数值偏高或偏低所产生的误差。只要遵循随机原则就可以避免。例如,在个体工商户收入纳税调查中,少报或瞒报收入;费用支出调查中,多报或重报支出。•随机误差又称偶然的代表性误差,它是指没有调查误差的前提下,又遵循了随机原则所产生的误差。随机误差是抽样调查固有的误差。抽样误差是指这种随机误差。•抽样误差是用样本统计量推断总体参数时的误差。抽样调查是用样本来估计总体,从一个总体中抽取容量为n的样本时,可能的样本会有许多,而实际抽到的只是