02468101214161850-6070-8090-1000%5%10%15%20%25%30%35%`第二章抽样技术的基本概念2本章要点本章对抽样技术的基本概念进行阐述和介绍,为以后各章的学习奠定理论与方法基础。具体要求:①掌握总体、单位、抽样框、样本等概念,理解它们之间的内在关系,熟知常用的总体指标和样本指标;②系统了解估计量、抽样分布、抽样误差、估计精度、置信区间等概念的内涵和作用,能够运用它们进行实际的抽样估计;③基本掌握和理解样本设计的内容、原则和效果衡量指标。3第一节总体与样本4一、总体总体有目标总体与调查总体之分。(一)目标总体目标总体也称全及总体,是由符合研究目的的所有具有相同性质或特征的个体所组成的集合。它是抽样推断的目标所在,即我们想通过抽样来认识它的数量特征。目标总体根据所包含的个体数量是否有限,可以分为有限总体与无限总体。(二)调查总体调查总体也称抽样总体或作业总体,是实践中可以构造并据以从中抽取样本的总体,它通常能对所包含的单位进行编号或按一定的标志进行排序。5要注意以下几点:1、从理论上说,调查总体与目标总体应该完全一致,但在实践中两者往往存有差异。2、抽样推断的结论只适合于说明调查总体,但我们研究的目的是认识目标总体的数量特征,因此在抽样之前尽量使调查总体与目标总体保持一致十分重要。基本原则是,调查总体由目标总体所决定,但在实践中,可以构造的调查总体却有可能反过来决定调查中的目标总体,即根据调查总体来调整目标总体。3、调查总体通常是有限总体,它所包含的调查单位个数称为总体容量,常用N表示。4、在实践中,我们还经常要对总体中某特定的组或类进行调查研究,这样的组或类就称为研究域或子总体。6二、调查单位与抽样单位总体是由单位构成的,单位有调查单位与抽样单位之分。调查单位就是调查项目的承担者,即我们想通过调查取得其观测值的单位,它通常是构成总体的最基本单位。但有时调查单位与基本单位并不相同。抽样单位就是用以抽选调查单位进入样本的中介单位,是调查总体与调查单位之间的联接单位。在多阶段抽样调查中,抽样单位还可以分级,即初级单位、次级单位、第三级单位等等。7三、抽样框抽样框就是根据抽样单位所编制的名录,是抽样总体的具体表现。一个好的抽样框有两个基本标准:一是与目标总体保持一致;二是能够提供与调查目的有关的尽量多准确、完整的辅助信息。抽样框的基本形式有以下几种:(1)名单抽样框,即以名单一览表的形式列出所有的抽样单位;(2)区域抽样框,即按自然地理区域划分来列出所有的抽样单位;(3)时间抽样框,即按时间顺序排列抽样单位。有时还可把几种抽样框结合成为综合抽样框。8四、样本样本是总体的一部分,是从抽样总体中按一定方法和程序抽取的部分调查单位的集合,也称为子样。如果说总体是我们所要研究的对象,那么样本就是我们所要观察的对象。样本中所包含的调查单位数称为样本容量,常用n表示。样本容量与总体容量之比称为抽样比,常用f来表示。对于同一个总体,用相同的抽样方法反复从中抽样,可以构成一系列容量为n的样本。从一个总体中最多可以抽取的容量为n的不同样本数目,称为样本个数。9样本的抽取方法有重复抽样与不重复抽样之分。所谓重复抽样也称为放回抽样或回置抽样,就是允许总体(抽样框)中的单位被抽中两次或两次以上的抽样。所谓不重复抽样也称为不放回抽样或不回置抽样,就是只允许总体(抽样框)中的单位最多被抽取一次的抽样。样本的抽取还有等概率抽样与不等概率抽样之分。如果总体(抽样框)中的每个单位被抽中入样的概率相等,称为等概率抽样;如果总体(抽样框)中各单位被抽中入样的概率不相等,则称为不等概率抽样。10五、总体指标与样本指标反映总体数量特征的指标称为总体指标,有时也称为总体目标量或总体参数;在抽样中常用的总体指标有:总体总值总体均值总体比例总体方差反映样本数量特征的指标称为样本指标,有时也称为样本统计量。相应地常用的样本指标有:样本总值样本均值样本比例样本方差iYYNNP/1NYYi/)1/()1()1/()(222NPNPSNYYSi或iyynyyi/nnp/1)1/()1()1/()(222npnpsnyysi或11需要注意的几点:1、在抽样中,总体指标的值是惟一但未知的,需要通过可知但非惟一的样本指标的值来进行估计。2、总体与样本的关系就转化为了总体指标与样本指标的关系。3、样本指标是构造总体指标估计量的基础和依据。12第二节估计量与抽样分布13一、估计量所谓估计量就是以样本指标为基础构造的、用以估计总体指标的规则或形式,是抽样估计必不可少的因素。估计量是随机变量。估计量根据某一样本得到的具体结果称为估计值。作为优良的估计量有三个基本标准:无偏、一致和有效。所谓无偏是指估计量的数学期望等于总体指标,即由估计量给出的所有估计值的平均数等于总体指标值;所谓一致也称相合,是指随着样本容量的扩大,估计值会趋近于总体指标值。所谓有效是指所选定的估计量比其它估计量有更小的方差或均方误差。有时无偏性与有效性之间可能会有矛盾,常常为了有效性而放弃无偏性。14根据构造的方法不同,抽样估计量有简单估计量和复合估计量之分。简单估计量也称直接估计量,就是直接以调查变量的样本指标作为总体指标的估计量,例如总体均值的估计量是样本均值,总体比例的估计量就是样本比例,总体方差的估计量就是样本方差等。复合估计量也称间接估计量,就是在调查变量的样本指标的基础上,再结合辅助变量来构造一个新的估计量,常用的有比率估计量和回归估计量两种,它们是有偏的,但通常更有效。15二、抽样分布(一)抽样分布的形式抽样分布就是抽样估计量的概率分布,它由估计量的可能取值和与之对应的概率组成。对于一个固定的总体,用相同的抽样方法反复从中抽取容量为n的样本,就会产生m个估计值,把这些估计值形成频率分布,即形成k(k≤m)种不同估计值及其相应频率的分布,就是抽样分布。抽样分布的具体结果要依总体容量大小,样本容量大小和抽样方式、方法而定。16(二)抽样分布的特征如果以估计量为横坐标轴,以概率为纵坐标轴,就可以形成抽样分布曲线图。对于不同的总体,不同的样本容量、抽样方法和估计量,就会有不同的抽样分布曲线图,即抽样分布形状不同,最终表现为抽样分布特征不同。为了进行区别和比较,我们必须用一定的指标来反映其特征,那就是抽样分布的期望与方差。抽样分布的期望实际上就是抽样估计量的期望,即估计量所有可能值的平均数。抽样分布的方差实际上就是抽样估计量的方差,是以估计量的期望为中心、用以反映抽样分布离散程度的核心指标。它是估计量所有可能值与其期望的离差平方的平均数。17这里需要说明方差与均方误差的区别:表示。)来(定义为均方误差,用)(那么我们就把,)(有偏,即)。若估计量(这就是估计量方差,)()(,则)(无偏,即若估计量ˆˆˆˆˆˆˆˆˆˆ222MSEEEVEEEE均方误差的关系为:,那么估计量与)(,即如果令估计量的偏差为ˆEBB2ˆˆBVMSE)()(不大。,均方误差与方差相差超过时,不超过当偏差%1%102BB18还需说明一点:抽样分布曲线与估计量坐标轴之间的极限面积为1,或者说抽样分布曲线涵盖所有可能估计值的概率为100%。估计量无偏时的方差或估计量偏差不大时的均方误差越小,表明估计量分布就越集中,估计值就越靠近总体指标,所抽样本给出的估计值靠近总体指标的概率就越大。19三、抽样分布定理通过研究,人们发现了一些重要的抽样分布定理,常用的有样本均值抽样分布定理和样本比例抽样分布定理。样本均值的抽样分布类型一般有三种:1、正态分布的再生定理;2、中心极限定理;3、t分布定理;对于样本比例,在重复抽样时服从二项分布,在不重复抽样时服从超几何分布,它们的极限形式都是正态分布。正态分布是最重要、最常用的抽样分布。我们可以根据正态分布理论,在一定的概率保证下,以所抽样本所给出的估计值为依据对总体指标作出区间估计。20第三节抽样误差与置信区间21一、抽样中的误差构成一般地,抽样中的总误差可以简单地分为两类(暂不考虑估计量偏差时):一类是抽样误差;一类是非抽样误差。它们之间的关系可以图示如下:总误差非抽样误差抽样误差22抽样误差是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本而异所造成的误差。偶然性误差的特点是随着样本容量的增大而趋向于0,或者各估计值的平均数与总体指标之差为0,是一致性误差。非抽样误差是由随机抽样的偶然性因素以外的原因所引起的误差,是非抽样调查所特有、而是所有统计调查都可能产生的误差,它主要是由于抽样框不够准确、有些单位的观察资料无法取得、已取得的一些资料不真实等原因引起的样本观察数据非同质、或残缺、或不真实而产生的误差。这种误差往往具有系统偏向性。减少和控制非抽样误差具有很重要的意义。23二、抽样误差的表现形式抽样误差的表现形式一般有三种:抽样实际误差、抽样标准误和抽样极限误差。抽样实际误差是指抽样估计值与总体指标值之间的离差。特点:1、若估计量无偏,所有可能的实际误差的总和为0;2、每一次抽样的实际误差是不可知的;3、抽样实际误差是随机变量。24抽样标准误是衡量抽样误差大小的核心指标,是对总体指标作出区间估计的一个重要因素,狭义上所指的抽样误差就是抽样标准误。它就是抽样分布或抽样估计量的标准差,是抽样分布方差或抽样估计量方差(均方误差)的平方根。要点:1、抽样分布的方差或标准差越大(小),估计量的抽样分布就越分散(集中),抽取样本估计总体的误差平均来讲就越大(小);2、抽样标准误与实际抽样误差的关系是:若各个估计值的实际误差越大(小),则抽样标准误也越大(小);3、影响抽样误差大小的因素有:(1)总体内在差异;(2)样本容量;(3)抽样方法、方式;(4)估计量。25抽样极限误差是指以样本估计总体所允许的最大误差范围,也即在一次抽样估计时,抽样估计量所允许取的最高值或最低值与总体指标之间的绝对离差,常用∆表示。要点:1、抽样极限误差实际上就是对估计量可允许取的最高值或最低值进行了限制,因为每一次抽样都有一定的精度要求;2、抽样极限误差取决于两个因素:一是抽样标准误,即抽样分布本身具有多大的标准差;二是抽样估计概率保证程度,也称为置信水平。3、抽样极限误差与抽样标准误之比的系数称为抽样概率度,并用t来表示。26三、置信区间抽样估计从形式上看有两种:点估计和区间估计。所谓点估计也叫定值估计,就是以所抽样本资料为依据,直接根据所选择的估计量对总体指标作出一个确定值的估计;所谓区间估计就是以点估计为依据,用一个具有一定可靠程度的区间范围来估计总体指标θ,也就是要在一定的概率保证下,想办法找出两个数值θ1和θ2(θ1≤θ2),使θ处于这两个数值之间,即:Pr(θ1≤θ≤θ2)=1-α27区间(θ1,θ2)就被称为抽样的置信区间或估计区间,θ1被称为置信区间的下限,θ2被称为置信区间的上限。在正态分布下,估计量关于总体指标对称分布。我们只要以点估计值加上或减去∆就可得到θ1和θ2,置信区间就被确定了。28第四节样本设计29一、样本设计的内容所谓样本设计就是对抽样方式、方法和估计量选择所作的系统考虑,就是对入样单位的产生方式和途径,样本容量的大小和对总体作出怎样的估计等问题所作的设计。样本设计的内容包括两个方面:一是选样,即如何获取样本和获取什么样的样本;二是估计,即如何估计总体和对总体能作出什么样的估计。30二、样本设计的原则一是保证实现抽样的目的的原则。二是保证实现抽样的随机性的原则。三是保证实现抽样的最大效果的原则。抽样的最大效果可以从两个角度来表述:在费用既定的情况下,使估计精度达到最高;或者在估计精度既定的情况下,使抽样费用达到最小。四是保证实现抽样的可计量性的原则。它具有两层含义:一是样本资料能够量化,能够用于得到估计值;二是估计效果能够加以衡量,即估计量方差或抽样标准误能够从样本资料中得到估计。31三、样本设计效果的测定样本设计的效果,我们称之为抽样效果。如果A