02468101214161850-6070-8090-1000%5%10%15%20%25%30%35%`第二章抽样技术的基本概念2本章要点本章对抽样技术的基本概念进行阐述和介绍,为以后各章的学习奠定理论与方法基础。具体要求:①掌握总体、单位、抽样框、样本等概念,理解它们之间的内在关系,熟知常用的总体指标和样本指标;②系统了解估计量、抽样分布、抽样误差、估计精度、置信区间等概念的内涵和作用,能够运用它们进行实际的抽样估计;③基本掌握和理解样本设计的内容、原则和效果衡量指标。3第一节总体与样本4一、总体总体有目标总体与调查总体之分。(一)目标总体目标总体也称全及总体,是由符合研究目的的所有具有相同性质或特征的个体所组成的集合。它是抽样推断的目标所在,即我们想通过抽样来认识它的数量特征。目标总体根据所包含的个体数量是否有限,可以分为有限总体与无限总体。(二)调查总体调查总体也称抽样总体或作业总体,是实践中可以构造并据以从中抽取样本的总体,它通常能对所包含的单位进行编号或按一定的标志进行排序。5要注意以下几点:1、从理论上说,调查总体与目标总体应该完全一致,但在实践中两者往往存有差异。2、抽样推断的结论只适合于说明调查总体,但我们研究的目的是认识目标总体的数量特征,因此在抽样之前尽量使调查总体与目标总体保持一致十分重要。基本原则是,调查总体由目标总体所决定,但在实践中,可以构造的调查总体却有可能反过来决定调查中的目标总体,即根据调查总体来调整目标总体。3、调查总体通常是有限总体,它所包含的调查单位个数称为总体容量,常用N表示。4、在实践中,我们还经常要对总体中某特定的组或类进行调查研究,这样的组或类就称为研究域或子总体。6目标总体与调查总体样本目标总体调查总体目标总体调查总体样本7二、调查单位与抽样单位总体是由单位构成的,单位有调查单位与抽样单位之分。调查单位就是调查项目的承担者,即我们想通过调查取得其观测值的单位,它通常是构成总体的最基本单位。但有时调查单位与基本单位并不相同。抽样单位就是用以抽选调查单位进入样本的中介单位,是调查总体与调查单位之间的联接单位。在多阶段抽样调查中,抽样单位还可以分级,即初级单位、次级单位、第三级单位等等。8三、抽样框抽样框就是根据抽样单位所编制的名录,是抽样总体的具体表现。一个好的抽样框有两个基本标准:一、与目标总体保持一致;二、能够提供与调查目的有关的尽量多准确、完整的辅助信息。抽样框的基本形式有以下几种:(1)名单抽样框,即以名单一览表的形式列出所有的抽样单位;(2)区域抽样框,即按自然地理区域划分来列出所有的抽样单位;(3)时间抽样框,即按时间顺序排列抽样单位。有时还可把几种抽样框结合成为综合抽样框。9名单抽样框1012345678910111213141531323334353637383940414243444516171819202122232425262728293046474849505152535455……..11区域抽样框区域4区域5区域3区域2区域112四、样本样本是总体的一部分,是从抽样总体中按一定方法和程序抽取的部分调查单位的集合,也称为子样。如果说总体是我们所要研究的对象,那么样本就是我们所要观察的对象。样本中所包含的调查单位数称为样本容量,常用n表示。样本容量与总体容量之比称为抽样比,常用f来表示。对于同一个总体,用相同的抽样方法反复从中抽样,可以构成一系列容量为n的样本。从一个总体中最多可以抽取的容量为n的不同样本数目,称为样本个数,常用m表示。13样本的抽取方法有重复抽样与不重复抽样之分。所谓重复抽样也称为放回抽样或回置抽样,就是允许总体(抽样框)中的单位被抽中两次或两次以上的抽样。所谓不重复抽样也称为不放回抽样或不回置抽样,就是只允许总体(抽样框)中的单位最多被抽取一次的抽样。样本的抽取还有等概率抽样与不等概率抽样之分。如果总体(抽样框)中的每个单位被抽中入样的概率相等,称为等概率抽样;如果总体(抽样框)中各单位被抽中入样的概率不相等,则称为不等概率抽样。14理解两点:1、在一项具体的抽样调查中,总体是唯一确定的2、样本不是唯一确定的,从一个确定的总体中可以抽取很多个不同的样本,每次抽取什么样本具有随机性。15五、总体指标与样本指标反映总体数量特征的指标称为总体指标,有时也称为总体目标量或总体参数;在抽样中常用的总体指标有:总体总值总体均值总体比例总体方差反映样本数量特征的指标称为样本指标,有时也称为样本统计量。相应地常用的样本指标有:样本总值样本均值样本比例样本方差iYYNNP/1NYYi/)1/()1()1/()(222NPNPSNYYSi或iyynyyi/nnp/1)1/()1()1/()(222npnpsnyysi或16需要注意的几点:1、在抽样中,总体指标的值是惟一但未知的,需要通过可知但非惟一的样本指标的值来进行估计。2、总体与样本的关系就转化为了总体指标与样本指标的关系。3、样本指标是构造总体指标估计量的基础和依据。17第二节估计量与抽样分布18一、估计量所谓估计量就是以样本指标为基础构造的、用以估计总体指标的规则或形式,是抽样估计必不可少的因素。估计量是随机变量。估计量根据某一样本得到的具体结果称为估计值。作为优良的估计量有三个基本标准:无偏、一致和有效。所谓无偏是指估计量的数学期望等于总体指标,即由估计量给出的所有估计值的平均数等于总体指标值;所谓一致也称相合,是指随着样本容量的扩大,估计值会趋近于总体指标值。所谓有效是指所选定的估计量比其它估计量有更小的方差或均方误差。有时无偏性与有效性之间可能会有矛盾,常常为了有效性而放弃无偏性。19估计量的优良性准则(无偏性)无偏性:估计量的数学期望等于被估计的总体指标P(X)XCA无偏有偏20估计量的优良性准则(一致性)一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P(X)X21样本比例例如,投掷一枚硬币,出现正面和反面的频率,随着投掷次数n的增大,出现正面或反面的比例稳定在1/2左右试验的次数正面/试验次数1.000.000.250.500.75025507510012522实践证明:样本比例趋向于总体比例1、历史上曾有人做过试验,试图证明抛掷匀质硬币时,出现正反面的机会均等。232、一个孕妇生男生女是偶然的,但是就整个国家和大城市而言,从人口普查资料中看到,男性占全体人数的比例几乎年年不变,约为0.5。我国人口普查总人数(亿)男性人数比例第一次(1953)5.823.020.518第二次(1964)6.953.570.513第三次(1982)10.085.190.515第四次(1990)11.345.850.516第五次(2000)12.666.530.51624估计量的优良性准则(有效性)AB样本均值的抽样分布样本均值的抽样分布XP(X)有效性:一个方差较小的无偏估计量称为一个更有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量25根据构造的方法不同,抽样估计量有简单估计量和复合估计量之分。简单估计量也称直接估计量,就是直接以调查变量的样本指标作为总体指标的估计量,例如总体均值的估计量是样本均值,总体比例的估计量就是样本比例,总体方差的估计量就是样本方差等。复合估计量也称间接估计量,就是在调查变量的样本指标的基础上,再结合辅助变量来构造一个新的估计量,常用的有比率估计量和回归估计量两种,它们是有偏的,但通常更有效。26二、抽样分布(一)抽样分布的形式抽样分布就是抽样估计量的概率分布,它由估计量的可能取值和与之对应的概率组成。对于一个固定的总体,用相同的抽样方法反复从中抽取容量为n的样本,就会产生m个估计值,把这些估计值形成频率分布,即形成k(k≤m)种不同估计值及其相应频率的分布,就是抽样分布。抽样分布的具体结果要依总体容量大小,样本容量大小和抽样方式、方法而定。27(二)抽样分布的特征如果以估计量为横坐标轴,以概率为纵坐标轴,就可以形成抽样分布曲线图。对于不同的总体,不同的样本容量、抽样方法和估计量,就会有不同的抽样分布曲线图,即抽样分布形状不同,最终表现为抽样分布特征不同。为了进行区别和比较,我们必须用一定的指标来反映其特征,那就是抽样分布的期望与方差。抽样分布的期望实际上就是抽样估计量的期望,即估计量所有可能值的平均数。抽样分布的方差实际上就是抽样估计量的方差,是以估计量的期望为中心、用以反映抽样分布离散程度的核心指标。它是估计量所有可能值与其期望的离差平方的平均数。28这里需要说明方差与均方误差的区别:表示。)来(定义为均方误差,用)(那么我们就把,)(有偏,即)。若估计量(这就是估计量方差,)()(,则)(无偏,即若估计量ˆˆˆˆˆˆˆˆˆˆ222MSEEEVEEEE均方误差的关系为:,那么估计量与)(,即如果令估计量的偏差为ˆEBB2ˆˆBVMSE)()(不大。,均方误差与方差相差超过时,不超过当偏差%1%102BB29还需说明一点:抽样分布曲线与估计量坐标轴之间的极限面积为1,或者说抽样分布曲线涵盖所有可能估计值的概率为100%。估计量无偏时的方差或估计量偏差不大时的均方误差越小,表明估计量分布就越集中,估计值就越靠近总体指标,所抽样本给出的估计值靠近总体指标的概率就越大。30三、抽样分布定理通过研究,人们发现了一些重要的抽样分布定理,常用的有样本均值抽样分布定理和样本比例抽样分布定理。样本均值的抽样分布类型一般有三种:1、正态分布的再生定理;2、中心极限定理;3、t分布定理;对于样本比例,在重复抽样时服从二项分布,在不重复抽样时服从超几何分布,它们的极限形式都是正态分布。正态分布是最重要、最常用的抽样分布。我们可以根据正态分布理论,在一定的概率保证下,以所抽样本所给出的估计值为依据对总体指标作出区间估计。31生活中遇到的正态分布1、一批产品的平均寿命;2、一本书中平均每页出现错别字的个数;3、广东省2006年统计学自学考试的平均成绩;4、由于很多细微的原因导致某种结果的出现一般都服从正态分布,如不同的人测量同一张桌子的长度,同一个地区内男性的身高等。32第三节抽样误差与置信区间33抽样调查的误差分类非代表性误差系统性误差调查总误差抽样实际误差代表性误差抽样误差抽样标准误差抽样极限误差代表性误差抽样误差小系统性误差较小抽样误差大系统性误差较小抽样误差较小系统性误差大35一、抽样中的误差构成一般地,抽样中的总误差可以简单地分为两类,暂不考虑估计量偏差(即系统性误差):一类是抽样误差;一类是非抽样误差。它们之间的关系可以图示如下:总误差非抽样误差抽样误差36抽样误差是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本而异所造成的误差。偶然性误差的特点是随着样本容量的增大而趋向于0,或者各估计值的平均数与总体指标之差为0,是一致性误差。非抽样误差是由随机抽样的偶然性因素以外的原因所引起的误差,是非抽样调查所特有、而是所有统计调查都可能产生的误差,它主要是由于抽样框不够准确、有些单位的观察资料无法取得、已取得的一些资料不真实等原因引起的样本观察数据非同质、或残缺、或不真实而产生的误差。这种误差往往具有系统偏向性。减少和控制非抽样误差具有很重要的意义。37二、抽样误差的表现形式抽样误差的表现形式一般有三种:抽样实际误差、抽样标准误和抽样极限误差。抽样实际误差是指抽样估计值与总体指标值之间的离差。特点:1、若估计量无偏,所有可能的实际误差的总和为0;2、每一次抽样的实际误差是不可知的;3、抽样实际误差是随机变量。38抽样标准误是衡量抽样误差大小的核心指标,是对总体指标作出区间估计的一个重要因素,狭义上所指的抽样误差就是抽样标准误。它就是抽样分布或抽样估计量的标准差,是抽样分布方差或抽样估计量方差(均方误差)的平方根。要点:1、抽样分布的方差或标