抽样调查教案-3分层随机抽样法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

njnu-liqicai48第3章分层随机抽样在前面一章,我们介绍了简单随机抽样。应该说简单随机抽样在实际中具有广泛的应用,尤其是在总体N较小或者总体方差2S与任意局部方差基本相当的情况下,简单随机抽样的优势明显。然而,当总体单元数N较大或者总体各单元之间差异较大时,采用简单随机抽样对总体指标进行估计通常会产生很大的误差。例如,欲通过调查了解我国居民的人均年收入水平。这时总体是全国人口的13亿人,倘若采取简单随机抽样从中抽取10万人入样,则需要将全国人口依次编号,然后在1~13亿中生产10万个随机数,然后将这些随机数一一对应成具体某个人。显然这样做是不实际的,就算可以,由于某些人口较少的省市或民族的样本量过小,甚至没有样本点,从而降低了样本对总体的代表性。不仅如此,由于类似的全国性调查总是需要地方政府的大力协调与配合,如果地方政府不能通过此次调查获取辖区内的相关信息,达到一举两得的效果,那就勉为其难了。为了克服简单随机抽样上述缺陷和不足,本章引入——分层随机抽样(Stratifiedsampling)。§3.1定义与符号一、定义与符号(一)定义定义3.1层(类):如果一个包含N个基本单元的总体可以分成“不重不漏”的L个子总体,即每个单元必属于且只属于其中一个子总体,则称这样的子总体为层(stratum)。设L个子总体所包含的单元数分别为LNNN,,,21,即有:LNNNN21},,,{21NNYYY,},,,{21ihhNhhNYYY,Lh,,2,1定义3.2分层抽样又称为类型抽样或分类抽样,即抽样在每个层中独立进行,总的样本由各层样本构成。定义3.3分层随机抽样若在每层中的抽样采用SRS,这样得到的样本为分层随机样本(stratifiedrandomsample)。即从第h层简单随机抽样hn个单元,构成第h层子样本。ihnhhhyyyy,,,21,nLhyyyyy,,,211,Lhnn1(二)分层的原因(1)当总体各单元差异比较大时,对参数估计误差比较大。将总体分层,同一层中各单位差异小,从每一层中抽取构成样本,这样样本就有代表性,可以提高估计的精度;(2)可以同时对子总体进行参数估计;(3)便于依托各级管理机构进行组织和实施。(层内类似,层间差异)njnu-liqicai49(三)符号说明用下标h表示层号(Lh,,2,1)。关于第h层子总体的记号如下单元总数:hN,样本单元数:hn,第i个单元标志值(观察值):hiy,层权:NNWhh,抽样比hhhNnf子总体均值:hNihihhYNY11,子样本均值:hnihihhyny11,子总体总量:hYhNihiY1hhYN,子样本总量:hhhyNy~(注意此说法)子总体方差:hNihhihhYYNS12211,子样本方差:hnihhihhyyns12211§3.2简单估计量及其性质一、总体均值的估计(一)简单估计量的定义对于分层样本,对总体的均值估计是通过对各层的子总体均值估计,按层权加权平均得到的。因此总体均值Y估计量的公式为:(局部平均加权)LhhhstYWY1ˆˆLhhhYNN1ˆ1(3.1)根据简单随机抽样:hnihihhyny11,hhhyNy~,hnihhihhyyns12211分别是hNihihhYNY11,hYhNihiY1hhYN,hNihhihhYYNS12211的估计量,而且它们都是无偏的。则此时公式为:LhhhststyNNyY11ˆ(3.2)(二)估计量的性质定理3.1对于一般的分层抽样,如果hYˆ是hY的无偏估计(Lh,,2,1),则stYˆ是Y的无偏估计。njnu-liqicai50定理3.2stYˆ的方差(均方误差)为:LhhhstYVWYV12)ˆ()ˆ((3.3/3.4)证明:由于各层抽样是独立的,故上面两结论自然成立。#定理3.3对于分层随机抽样,sty是Y的无偏估计,sty的方差为:LhhhstyVWyV12)()(LhhhhhSnfW1221(3.6/3.7)22111LhhhhhWSnN22211LLhhhhhhhWSWSnN(3.8/3.9)证明:显然#定理3.4对于分层随机抽样,)(styV的一个无偏估计为:LhhhstyvWyv12)()(LhhhhhsnfW1221(3.10)22111LhhhhhWsnN22211LLhhhhhhhWsWsnN(3.11/3.12)证明:显然#二、总体总量的估计(一)简单估计量的定义LhhhLhhststYNYYNY11ˆˆˆˆ,ststyNYˆ(二)估计量的性质推论3.1(1)对于一般的分层抽样,如果stYˆ是Y的无偏估计(Lh,,2,1),则stYˆ是Y的无偏估计。stYˆ的方差(均方误差)为:LhhststYVYVNYV12)ˆ()ˆ()ˆ(LhhhhLhhYVNYVWN12122)ˆ()ˆ(证明:显然#(2)对于分层随机抽样,ststyNYˆ是Y的无偏估计,stYˆ的方差为:njnu-liqicai51)ˆ()ˆ(2ststYVNYVLhhhYVN12)ˆ(2121hhhLhhSnfN证明:显然#(3)对于分层随机抽样,)ˆ(stYV的一个无偏估计为:LhhhstyvNYv12)()ˆ(LhhhhhsnfN1221证明:显然#例3.1调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民划分为4层,每层按简单随机抽样抽取10户,调查获得数据如下(单位:元),如表3.1。估计该地区居民奶制品年消费总支出及估计的标准差。表3.1解:由上表,10,2850hnN,4,3,2,1h,各层层权和抽样比为:07018.0285020011NNW,05.020010111Nnf,14035.0285040022NNW,025.040010222Nnf,26316.0285075033NNW,0133.075010333Nnf,52632.02850150044NNW,0067.0150010444Nnf。njnu-liqicai52各层的样本均值及样本方差为:5.39111111niiyny,722.1624)(1111211121niiyyns,1052y,1653y,244y,667.216622s,556.820523s,333.19324s,因此估计奶制品年消费总支出为:hhhstyNY41ˆ2415001657501054005.39200=209650(元)估计量方差和标准差样本估计值为:)()ˆ(4122hhhstyvWNYv24121hhhhhsnfN81039.523208)ˆ()ˆ(ststYvYs(元)95%的置信区间为ˆˆststYtsY,即[164162,255138].三、总体比例的估计(一)简单估计量的定义易知总体比例的估计为:LhhhstpWp1(二)估计量的性质推论3.2(1)对一般分层抽样,如果hp是hP的无偏估计(Lh,,2,1)则stp是P的无偏估计,stp的方差为:LhhhstpVWpV12)()(。(2)对于分层随机抽样,stp是P的无偏估计,注意到hhhhhhhnQPNnNpV1)(及hhNN1,因此stp的方差为:LhhhstpVWpV12)()(LhhhhhhhhnQPNnNNN1221)(1(3.15)LhhhhhhhhnQPNnNNN122)(1(3.17)njnu-liqicai53LhhhhhhnQPfW12)1((3)对于分层随机抽样,)(stpV的一个无偏估计为:LhhhstpvWpv12)()(21(1)1LhhhhhhfWpqn(3.16)LhhhhhhnqpfW121)1(例3.2在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台)如表3.2。估计该地区居民用有家庭电脑的比例及估计的标准差。表3.2解:由上表可得2.01p,2.02p,4.03p,1.04p,1)1()(11111nqpfpv0169.0,1)1()(22222nqpfpv0173.0,1)1()(33333nqpfpv0263.0,1)1()(44444nqpfpv0099.0因此,该地区居民拥有家庭电脑比例为:41hhhstpWp411hhhpNN)1.015004.07502.04002.0200(285012.0njnu-liqicai54LhhhstpvNNpv122)(1)(005.0,07.0)(stps推论3.3关于某特征单元总数A的估计类似略§3.3比率估计量及其性质将比率估计的思想和技术用于分层估计随机样本时,有两种可行的办法,一种是对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,此时得到的估计量称为分别估计量(separateratioestimator)。另一种可行的办法是先对两个指标先分别计算出分层估计,然后再构造比估计,这时得到的估计量称为联合比估计(combinedratioestimator)一、分别比率估计因为比率估计是有偏估计,只有在大样本情况下,偏倚才会趋向于0,所以对分层随机抽样来说,如果采用分别比率估计,则同时要求各层样本量比较大。定义3.4总体均值Y和总体总量Y的分别比率估计量为:RsyLhRhhyW1hLhhhhXxyW1(3.23)RsYˆRsyNhLhhhXxy1LhRhY1ˆ(3.24)定理3.5各层样本容量均较大时,估计是渐进无偏的,且()()RsRsMSEyVyxhyhhhxhhyhLhhhhSSRSRSnfW2)1(22212(3.27)ˆˆ()()RsRsMSEYVYxhyhhhxhhyhLhhhhSSRSRSnfN2)1(22212(3.39)(3.27)(3.39)分别由(2.39)(2.40)易得,其中hhhXYR,xhyhxyhhSSS.在对分别比率估计量的方差进行估计时,通常将2xhS和2yhS分别用2xhs和2yhs来估计;h用hr(hr表示第h层Y与X的样本相关系数)来估计,hR用hhhxyRˆ来估计。分别比率估计需知道hX(每一层辅助变量的平均)。二、联合比率估计如果达不到每层样本量都比较大的要求,则使用联合比率估计效果可能更好些,或hX未知而知道X已知。njnu-liqicai55定义3.5总体均值Y和总体总量Y的联合比率估计量为:RcyXxyststXRcˆ(3.40)RcYˆXxyststXRcˆ(3.41)styLhhhyW1、stxLhhhxW1分别是Y、X分层估计量;ststcxyRˆ定理3.6联合比率估计是渐近无偏的,YyERc,YYERcˆ(3.42,3.37)()()RcRcMSEyVyxhyhhxhyhLhhhhSSRSRSnNfN2)1(222122(3.43,3.44)ˆˆ()()RcRcMSEYVYxhyhhxhyhLhhhhSSRSRSnfN2)1(22212(3.56,3.57)其中XYXYR。事实上:由于stxELhhhxEW1XXWhh,故一般stxX,而YyRcYXxystststststxRyxXststyRx1LhhhhWy

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功