08第八章多阶抽样

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第八章多阶抽样第一节多阶抽样概述第二节一阶单元等大小的两阶抽样第三节一阶单元不等大小的两阶抽样第一节多阶抽样概述一、多阶抽样的基本概念根据实际情况将整个抽样程序分成若干个阶段,一个阶段一个阶段地进行抽样,以完成整个抽样过程,这种抽样就叫多阶抽样。从总体中随机抽取一部分一阶单元,然后再从被抽中的一阶单元内,随机抽取部分二阶单元并对它们进行全面调查,我们把这种抽样技术称为两阶抽样。它是由印度统计学家马哈拉诺比斯首先提出来的。二、多阶抽样的特点(一)便于组织抽样;(二)抽样方式灵活,有利于提高抽样的估计效率;(三)多阶段抽样对基本调查单元的抽选不是一步到位的;(四)多阶段抽样实质上是分层抽样与整群抽样的有机结合;(五)多阶抽样在抽样时并不需要二阶或更低阶单元的抽样框;(六)多阶抽样还可用于“散料”的抽样,即散料抽样。第二节一阶单元等大小的两阶抽样一、二阶抽样(一)有关符号的涵义记为第i个一阶单元中第j个二阶单元的标志值(或指标值)(i=1,2,…N;j=1,2,…,M)。N为总体所含一阶单元数;n为样本所含一阶单元数;M为每个总体一阶单元所含二阶单元数;m为每个样本一阶单元所含二阶单元数;=n/N为第一阶抽样比;ijy1f=m/M为第二阶抽样比;=NM为总体所含二阶单元数;=nm为样本所含二阶单元数;为总体中第i个一阶单元的标志总量;为样本中第i个一阶单元的标志总量;为总体各一阶单元的标志总量;2f0M0mMjijiyY1mjijiyy1NiiYY1为样本各一阶单元的标志总量;为总体第i个一阶单元内的均值;为样本第i个一阶单元内的均值;为总体各一阶单元间的均值;为样本各一阶单元间的均值;为总体各一阶单元内均值的平均,即总体中各二阶单元的均值;为样本各一阶单元内均值的平均,即样本中各二阶单元的均值niiyy1MYYiimyyiiNYYnyyNiiYNMYY101niiynmyy101为总体第i个一阶单元内的方差;为样本第i个一阶单元内的方差;为总体各一阶单元间的方差;为样本各一阶单元间的方差;MjiijiYyMS1222)(11mjiijiyyms1222)(11NiiYYNS1221)(11niiyyns1221)(11为总体各一阶单元内方差的平均,即总体各二阶单元间的方差;为样本各一阶单元内方差的平均,即样本各二阶单元间的方差。NiMjiijNiiYyMNSNS11212222)()1(11nimjiijniiyymnsns11212222)()1(11(二)、估计量及其方差由于二阶抽样中,抽样过程分成两步,因此,对于总体参数的估计量求均值和方差时,必须把这两阶抽样过程所能产生的所有样本加以平均,即其中,E表示所有样本的期望值或均值,、分别表示对第一阶抽样求的均值与方差,、分别表示对固定的第一阶抽样中抽得的一组一阶单元对第二阶抽样求的均值与方差。ˆ)ˆ()ˆ(21EEE)ˆ()ˆ()ˆ(2121VEEVV1E1V2E2V对于三阶抽样可以有类似的公式)ˆ()ˆ(321EEEE)ˆ()ˆ()ˆ()ˆ(321321321VEEEVEEEVV1、总体均值的估计对于二阶抽样,若两个阶段的抽样都是简单随机的,则其总体均值的无偏估计量为由于在每个一阶单元中的第二阶抽样是相互独立进行的,所以,在二阶段都用不放回方法抽样时,其总体均值估计量的方差可构造为niinimjijynmyyY11101ˆ22221111)(SmnfSnfyVNSmnSMSSn21222221)(1可以证明其方差的无偏估计量为其中,为的无偏估计,不属于的无偏估计,的无偏估计为式中右边第一部分相当于第一阶段抽样的误差,它只与各一阶单元间差异大小有关;第二部分相当于第二阶段抽样的误差,它只与各一阶单元内(即各二阶单元间)差异有关。2221211)1(1)(ˆsmnffsnfyV22s22S21s21S21S22221211ˆsmfsS2、总体比例的估计若需估计总体中具有某种特性的二阶单元所占的比例,则令设为第i个一阶单元中具有该特性的二阶单元所占的比例,为抽到的第i个一阶单元中具有该特性的二阶单元所占的比例。,否则个二阶单元具有该特性个一阶单元中第若第0,1jiyijiPip若两阶段的抽样都是不放回简单随机的,则总体比例P的无偏估计量为其方差为方差估计量为niipnpP11ˆ22221111)()ˆ(SmnfSnfpVPV2221211)1(1)(ˆsmnffsnfpV式中2121)(11NiiPPNS2121)(11niippnsNiiiPPMNMS122)1()1(niiippmnms122)1()1(3.最佳抽样比的确定在总费用一定时,考虑下述简单的线性费用函数若一阶级单元间的旅费不占重要位置,则上述费用函数被证明是适用的。这里是与样本量无关的固定费用,分别为平均每调查一个一阶单元和二阶单元的费用。nmCnCCC2100C21,CC又方差函数式中右边的最后一项与n及m的选择无关,建立函数NSmnSMSSnyV21222221)(1)())(1(021CCSNVQ)]([)]()(1[2122222121222221mCCmSMSSnmCnCmnSMSSn则当费用固定条件下,使方差极小,或在方差固定条件下使费用极小,等价于使函数极小化。故使关于的偏导数等于零,则可求得的最优值为(其中)QQm2122212CCMSSSmoptMSS2221当不为整数时,应取整。令若,则取;若,则取若或,则取当的值未知时,可以用试点调查的结果加以估计,即取,则可以按上述同样的思路求得的估计量m][optmm)1(2mmmopt1mm)1(2mmmoptmmMmopt02221MSSMm2221,SS22222121ˆ,ˆsSsS2122212ˆCCmsssmopt2122211)(CCssmm其中,为试点调查中从每个一阶单元中抽中二阶单元的数目。求出后,将其代入估计量方差的计算公式或上述线性费用函数式中,即可求出的值。这样就可确定出最佳的抽样比和。特别地,当时,即时,二阶抽样就化为对一阶单元进行的单级整群抽样,故其估计量的方差及其估计量就转变为整群抽样估计量的方差及其估计。当,即时,二阶抽样就化为按比例分配的分层随机抽样,且其层权相等,此时二阶抽样估计量的方差及其估计也就转变为分层随机抽样估计量的方差及其估计。所以,一般地二阶抽样也可看作是把一阶单元作为层的不完全的分层抽样。mn1f2f12fMm11fNnm二、分层二阶抽样设总体分成L层,第h层有个一阶单元,每个一阶单元均含个二阶单元。在第h层随机抽了个一阶单元,又从每个被抽中的一阶单元中随机抽了个二阶单元。则的估计量为其中(是按二阶单元的层权)hmhnhMhNhLhhstyWyLhhhhhhMNMNW为第h层的样本均值。其方差为方差估计量为hhnimjhijhmnyyhh/11)11()(2222112hhhhhhhLhhstSmnfSnfWyV))1(1()(ˆ22212112hhhhhhhhLhhstsmnffsnfWyV其中上式乘以则得的方差及其方差估计量。在分层二阶抽样中,若即总体中每个二阶单元入样的概率都相等,则样本是自加权时hhhhhhMmfNnf21,2)(LhhhMNstYˆ常数hhhhhhMmNnff21ymnyyLhhhLhnimjhijsthh1111/三、三阶抽样设总体中含有N个一阶单元,每个一阶单元又含M个二阶单元,而每个二阶单元中又含有K个三阶单元,各阶样本大小分别为n、m和k。令(u=1,2,…K)为第i个一阶单元的第j个二阶单元中,第u个三阶单元的观测值,则ijuyMjKuijuiKuijuijyMKYyKY11111NiMjKuijuyNMKY11112121)(11YYNSNii21122)()1(1ijNiMjiYYMNS211123)()1(1ijNiMjKuijuYyKNMSmjkuijuikuijuijymkyyky11111nimjkuijuynmky11112121)(11yynsnii21122)()1(1ijnimjiyymns211123)()1(1ijnimjyuijuyyknms若三阶抽样中,每阶抽样都是简单随机的,则总体均值的无偏估计量为其方差为方差的无偏估计量为其中niiyny11233222211111)(SmnkfSnmfSnfyV233212212211)1()1(1)(ˆsmnkfffsnmffsnfyVKkfMmfNnf321,,第三节一阶单元不等大小的两阶抽样在两阶抽样中,各一阶单元所包含的二阶单元数不等是最普遍的现象,因此对其样本指标和抽样方差的估算,具有普遍意义,但较一阶单元等大小的估算复杂很多。根据各个一阶单元的不相等及其差异程度是否悬殊,在抽样时(即抽取一阶单元时)就要考虑采用等概抽样或不等概抽样。iM一、等概率抽样在进行两阶段抽样时,不考虑各一阶单元权重(主要用所含二阶单元数的多少表示)的不同,一律予以同等被抽中的机会,在的变异不大时,既简单易行,且效果也好;当的变异悬殊时,则会对抽样产生不合理的影响。假定总体由N个一阶单元组成,第i个一阶单元包含Mi个二阶单元。从N个一阶单元中按简单随机抽样抽取n个一阶单元,然后在每个被抽中的一阶单元中按简单随机抽样抽取个二阶单元。imiMiM1、简单估计量由于两阶段的抽样都是简单随机的,因此总体总和的无偏估计量为当两阶段均为不放回抽样时,其方差为niniiimjijiiniiuyMnNymMnNYnNY1111ˆˆniiiiiniiumSfMnNnYYnfNYV122221212)1(1)()1()ˆ(niiiiiniiumsfMnNnYYnfNYV122221212)1(1)ˆˆ()1()ˆ(1fiiiMmf/2方差的无偏估计量为其中=n/N为第一阶段抽样比,为第i个一阶单元内的抽样比;iMjiijiiYyMS1222)(11imjiijiiyyms1222)(11niiiiiiiiYnYmyyMYY1ˆ1ˆ,/,/iiiMmf2,若,即第二阶段的抽样比为常数,则nimjijuiynfNY112ˆuYˆNnf20ˆˆMYYu20/)ˆ()ˆ(MYVYVu20/)ˆ(ˆ)ˆ(ˆMYVYVuNiiMM10可见,此时是自加权的,是总体中每个二阶单元入样的概率。其方差为方差估计量为其中若估计总体均值,则有2、比估计量简单估计量虽然是无偏的,但效果一般不好,方差较大。因此也可利用以为辅助变量来构造比估计量。uYˆiMniiniiiniiniiiRMYMMyMMY11110ˆniiniiiRMyMY11ˆ比估计量是有偏的,其估计量的近似方差为RYˆniiiiiniiiRmSfMnNNYYMNfNYV1222212212)1(1)()1()ˆ(niiiiiniRii

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功