第四章整群抽样很重要的一章

sybase
0 ℃
2020-02-05

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第四章整群抽样ClusterSampling第四章整群抽样[教学目的]通过本章的教学，使学生明确整群抽样的定义与特点；掌握群规模相等时的估计与群规模不等时的估计方法；了解总体比例的估计。[重点与难点]本章的重点是群规模相等时的估计与群规模不等时的估计方法；难点是群规模相等时的估计与群规模不等时的估计方法。本章结构§4.1引言§4.2群规模相等时的估计3.§4.3群规模不等时的估计§4.4总体比例的估计假设省教育厅想了解西安中学生的体质状况，抽样调查是既省钱又省时的办法，显然西安地区的中学生均是总体的单元，从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法，但是编制全体中学生的抽样框本身是件麻烦事，况且一个合理的有代表性的样本一般应该遍布全市，在对如此分散的中学生样本逐个进行访问，其工作量之大可想而知。一个方便的方法是在西安地区按学校抽样，在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。若总体可分为N个群（也称为初级抽样单元,用PSU表示），每个初级单元包含若干个次级单元（也称二级抽样单元，用SSU表示）。按照某种方式从总体中抽取n个初级单元，对这些单元中的所有二级单元全部进行调查。这种抽样方法称为整群抽样。黄色为总体蓝色为样本红色为群白点为基本单元整群抽样事例：§4.1引言一、整群抽样的定义与特点（一）定义整群抽样（clustersampling）是将总体划分为若干群，然后以群（cluster）为抽样单元，从总体中随机抽取一部分群，对中选群中的所有基本单元进行调查的一种抽样技术。例如，对某城市居民进行生活水平调查，如果不是从全部城市住户中直接抽选住户进行调查，而是从城市全部居民委员会中随机抽选若干居委会，对被抽中的居委会所有住户都进行调查，这就是整群抽样。该城市的每一居委会就是一群。再如，对连续生产的企业，每小时都抽选10分钟生产的全部产品进行调查。那么，每10分钟生产的全部产品就是一群。如果一天24小时连续生产，生产的全部产品构成总体，则总体有144群，样本有24抽样过程可以分为以下几个步骤：总体……R4R3R2R1R130分群R1R4R33R98R110抽样样本在实际工作中，整群抽样方法被广泛采用。例如，在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。采用整群抽样调查的原因有二：其一是在某些情况下，往往由于不适合采用一个个地抽取样本单位，不得不采用整群抽样。例如，某些工业产品的质量检验，事实上不能逐个抽取样本单位来进行，只能在某一时间内，成批地抽取产品来检验。其二，即使抽样调查能够一个个地取样，但由于经济的考虑也会选择整群抽样。例如，职工家庭生活水平调查中，如果不是以居委会为群进行整群抽样调查，而是以居民户为单位抽样，这些被抽到的居民户一般分散地居住，必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑，也得采用整群抽样调查。采用整群抽样调查的原因有二：（二）整群抽样的特点1、调查单位比较集中，进行调查比较方便，可以减少调查人员来往于调查单位之间的时间和费用。例如，在进行农村居民户收入情况调查时，在一个县抽千分之五的村庄，对其所有居民户进行调查，明显地比从全县直接抽千分之五的农户进行调查，更便于组织，节省人力、旅途往返时间及费用。（二）整群抽样的特点2、设计和组织抽样比较方便。例如，调查农村居民住户，不必列出农村所有居民住户的抽样框，可以利用现成的行政区域，如县、乡、村，将农村划分为若干群，这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体，采用整群抽样更为合适。然而，整群抽样由于调查单位只能集中在若干群上，而不能均匀分布在总体的各个部分，因此，它的精度比起简单随机抽样来要低一些。例如，在一个有500个村庄、100000个农户的县，抽取1％的农户就是1000户，而抽1％的村庄则只有5个村庄，也许抽到的5个村庄农户多于1000，但由于样本单位只集中在5个村庄，显然不如在全县范围内简单随机抽取1000户分布均匀，代表性一般要差一些，抽样误差较大。当然我们可以通过多抽几个群来弥补这一缺陷，但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性，应当使群与群之间尽可能地差异小，而群内单元之间的差异应当大（注意：这一点与分层抽样中总体内层的划分有着极大的差别），这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处，那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群，每个群的规模大小如何又是一个新问题，通常我们面临的总体会有自然的初级单元，例如本章开头所说的各所中学它们互相之间关于学生的体质很相似，但在一个学校里每个学生之间有一定的差异。二、群的划分（一）群的划分一类是根据行政或者是地域形成的群体，如学校、社区、企业等；另一类就是调查人员人为的确定的。（二）分群的原则：群内差异尽可能大，群间差异尽可能小当总体划分为若干个群以后，总体方差可以分为群间方差和群内方差两个部分，这两个部分是此消彼长的关系。群间方差大，则群内方差小；反之，群间方差小则群内方差大。由于整群抽样是对抽中群内所有单元都进行调查，因此影响整群抽样误差大小的主要是群间方差。可见，整群抽样是和分层抽样是针对不同总体结构而提出的两种不同的抽样方式。三、群的规模群的规模是指组成群的单元的数量。在整群抽样中，群的规模具有相当的灵活性。群的规模大，估计的精度差但费用省；群的规模小，估计的精度比较高但费用大。在实践中，群的规模大小，涉及很多因素：结构、精度、费用、调查组织实施、管理等问题。群的规模又有两种情况：一是总体中的各个群规模相等；二是总体中各个群的规模不等。一、符号说明N:总体群数（PSU数）n:样本群数Yij:总体第i群的第j单元数值yij:样本中第i群的第j单元数值Mi:第i群规模（单元个数，即SSU数量）本节中，M1＝M2＝……＝MN＝M§4.2群规模大小相等时的估计§4.2群规模大小相等时的估计M0:总体单位总数Yi:总体中第i群的总值yi:样本中第i群的总值Y:总体总值NiiMM10iMjijiYY1iMjijiyy1NiMjijNiiiYYY111:总体中第i群的个体均值:样本中第i群的个体均值:总体中的群总值的均值:样本中的群总值的均值NYYNiiYiiiMYYiyiiiMyyYynyyni§4.2群规模大小相等时的估计:总体中的个体均值（各群Mi＝M）:样本中的个体均值（总体均值的估计）YMYYyMyy§4.2群规模大小相等时的估计:总体方差:总体群间方差:总体群内方差NiMjiijwYYMNS22)1(12wSNiibYYNMS22)(12bS2SNiMjijYYMS20211§4.2群规模大小相等时的估计:样本方差:样本群间方差:样本群内方差niMjiijwyyMns22)1(12wsniibyynMs22)(12bs2snMijyynMs2211§4.2群规模大小相等时的估计二、估计量1.均值估计量SRS，群规模相同，均为M，则的估计为：总值估计量YniiniMjijynnMyyY1ˆ11yNMYˆ§4.2群规模大小相等时的估计§4.2群规模大小相等时的估计2.估计量的性质性质1：是的无偏估计，即因为是按简单随机方法抽取群，所以样本群均值是总体群均值的无偏估计，因而yyYyYyEYMYyEY性质2：的方差为y221111)(bNiiSnMfNYYnfyV§4.2群规模大小相等时的估计已知，又故yMy11)()(22NYYnfyVyVMNi22221)1(111)(bNiNiSnMfNMYYnMfNYYnMfyV§4.2群规模大小相等时的估计性质3：的样本估计为因为是的无偏估计，所以是的无偏估计)(yV21)(bsnMfyv2bs2bS)(yv)(yV§4.2群规模大小相等时的估计总体总值据此，可直接推出其估计量及相应的方差YNMY)()ˆ()()()ˆ(ˆ2222yvMNYvyVMNyNMVYVyNMY§4.2群规模大小相等时的估计三、整群抽样效率分析群内相关系数表达式为：上式中的分子为（P119）2)())((YYEYYYYEijikij2)1())((MNMYYYYNMikij§4.2群规模大小相等时的估计上式中的分母为：故又可写为：221)(SMNNMNMYYNMij2)1)(1())((2SMNMYYYYNMikij§4.2群规模大小相等时的估计事实上，的方差可用群内相关系数近似表示y11111)1()1(111)(1)(2222122MSnMfMSNMNMnfNYYnMfyVMyVNii22222)1)(1()1(2)(SNMMSNMYYYYYYYYYYNiMjkjikijijNiMjijNii§4.2群规模大小相等时的估计简单随机抽样的方差公式为由此可计算出等群抽样的设计效应为21)(SnMfyVsrs)1(1)()(MyVyVdeffsrs§4.2群规模大小相等时的估计整群抽样的估计效率，与群内相关系数的关系密切当＝1时，deff＝M当＝0时，deff＝1当为负时，deff1的取值范围是1,11M群内方差为０群内方差与总体方差相等群间方差为０§4.2群规模大小相等时的估计群内相关系数也可由样本统计量估计例一22,bwss2222)1(ˆwbwbsMsss§4.2群规模大小相等时的估计当N很大，而M相对于NM很小时，21)1)(1())((2SNMMYYYYNiMkjikijNiibYYNMS122)()1(1)1(1)1()(212MSNMYYNii22222)1)(1()1()1()1()1()1(1SNMMSNMSNMSNMSNMMbb222)1(SMSSb22221)1(1SSSNMSNMww222)1()1()1(wbSMNSNSNM)1/()1()1(222NSMNSNMSwb)()1(1)1()1(11ˆ22222很大时NsMsMsMNsNNMSwbwb2222)1(ˆwbwbsMsssi1240，187，162，185，206，197，154，173188.0027.192210，192，184，148，186，175，169，180180.5017.983149，168，145，130，170，144，125，167149.7517.324202，187，166，232，205，263，198，210207.8829.175210，285，308，198，264，275，183，231244.2545.206394，256，192，280，267，334，216，289278.5063.877192，121，172，165，152，224，195，241182.7538.778230，205，187，176，212，253，189，240211.5027.489274，208，195，307，264，258，210，309253.1344.5210232，187，150，182，175，212，169，222191.1328.2911342，294，267，309，258，198，244，286274.7543.7012228，294，182，312，267，254，232，298258.3843.52iyisijy

第四章整群抽样 很重要的一章

第四章整群抽样很重要的一章