第四章分层随机抽样第一节概述一、什么是分层抽样和分层随机抽样分层抽样有时也称为类型抽样或分类抽样。各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的特性。二、分层抽样的特点和使用场合(一)特点(二).使用场合(PP42)在对层进行具体划分时,通常考虑如下原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分,这时,分层抽样能够对每一类的目标量进行估计。2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的.3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的.4.为了抽样组织实施的方便,通常按行政管理机构设置进行分层三、符号说明关于第h层的记号如下:第二节估计量一.总体均值的估计(一)简单估计量的定义对于分层样本,对总体均值的估计是通过对各层的的估计,按层权加权平均得到的。公式为:如果得到的是分层随机样本,则总体均值的简单估计为:YhYhWLhhhhLhhstYNNYWY11ˆ1ˆˆYLhhhhLhhstyNNyWy111(二)简单估计量的性质性质1对于一般的分层抽样,如果是的无偏估计(h=1,2,…L),则是的无偏估计.即对各层估计是无偏的,则对总体的估计也是无偏的.的方差为:hYˆhYstYˆYstYˆ由于各层的抽样是相互独立的性质2对于分层随机抽样,是的无偏估计,差为:styYstyLhhhLhhhhhLhhhhLhhhhhLhhhstNSWnSWSNnWSnfWyVWyV1212221212212111)()(性质3对于分层随机抽样,的一个无偏估计为:)(styVLhhhLhhhhhLhhhhLhhhstNsWnsWsnfWyvWyv12122212121)()(二、总体总量的估计(一)简单估计量的定义总体总量Y的估计为:对于分层随机样本:LhhstYYNY1ˆˆˆstyNYˆ(二)估计量的性质性质4对于一般的分层抽样,如果是的无偏估计,则是Y的无偏估计.的方差为:YYˆYˆstYˆLhhhLhhhLhhststYVNYVWNYVYVNYNVYV1212212)ˆ()ˆ()ˆ()ˆ(ˆ)ˆ(性质5对于分层随机抽样,的方差为:性质6对于分层随机抽样,的一个无偏估计为:Yˆ)ˆ(YV212121)ˆ()ˆ(hLhhhhLhhhSnfNYVNYV212121)()ˆ(hLhhhhLhhhsnfNyvNYv【例3.1】调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),估计该地区居民奶制品年消费总支出及估计的标准差.课本P44页例样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025解:N=200+400+750+1500=2580=10(h=1,2,3,4)各层的层权及抽样比为:hn52632.02850150026316.0285075014035.0285040007018.0285020044332211NNWNNWNNWNNW0067.01500100133.075010025.04001005.020010444333222111NnfNnfNnfNnf各层样本均值及样本方差为:241651055.39143211111yyyynynii333.193556.8205667.2166722.1624)y(1124232212111211sssynsnii该地区居民奶制品年消费总支出:2096502415001657501054005.39200ˆ41hhhyNY82h41hhh2h41221039.5snf1N)()ˆ(hhhyvWNYv)(23208)ˆ()ˆ(元YvYs估计量方差及标准差的样本估计为:在95%的概率保证下该地区居民奶制品年消费总支出区间为:元之间即在2551381641622320896.1209650)ˆ(ˆYtsY【例3.2】某市进行家庭收入调查,分城镇居民和农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均收入为9856元,标准差为2546元.求全市年平均户收入的估计及其90%的置信区间.解:)(39.1058573.850566.20799856863.015180137.0863.0171980/148420137.0171980/23560171980,148420,235602211212121元yWyWyWWNNNNNst20245.5225.5277.2029725.52)72.1931005.987(148420/2546863.03972137.0)2502546863.03003972137.0(22222212122LhhhLhhhhstNsWnsWyv287.142ststyvys全市年户均收入的置信区间:10585.391.645142.287,即10351.33—10819.45(元)注:由于城镇居民与农村居民收入水平和抽样比不同(前者大于后者),如果不分层,计算样本平均数作为全市户均年收入是不合理的:12760550/250985630015180y三.总体比例的估计(一)简单估计量的定义总体比例P的估计为:(二)估计量的性质如果定义,第i个单元具有所考虑的特征,其他i=1,2…NLhhhstpWp101iY性质7对于一般的分层抽样,如果是的无偏估计(h=1,2,…L),则是P的无偏估计.的方差为:hphPstpstpLhhhstpVWpV12)(性质8对于分层随机抽样,是P的一个无偏估计,的方差为:stphhhhhhhnQPNnNpV1)(hhNN1stpLhhhstpVWpV12)(hhhLhhhhhhLhhhhhLhhhhhhhhnQPfWnQPNnNNNnQPNnNNN12122122)1()(11)(1性质9对于分层随机抽样,的一个无偏估计为:)(stpV1)1(11)(1)()(1212122hhhLhhhhhhLhhhhhLhhhstnqpfWnqpNnNNNpvWpv【例3.3】P46了解某地区居民户拥有家庭电脑的情况如下,估计该地区家庭拥有电脑的比例及估计的标准差.样本户拥有家庭电脑情况层居民户总数样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000解:,2.01021p2.02p,4.0,3p1.01014p0099.01)1()(0263.01)1()(0173.01)1()(0169.01)1()(44444333332222211111nqpfpvnqpfpvnqpfpvnqpfpv该地区家庭拥有电脑的比例的估计、估计量的方差、估计的标准差为:2.0)1.015004.07502.04002.0200(2850114141hhhhhhstpNNpWp005.0)0099.015000263.07500173.04000169.0200(28501)(1)(222224122hhhstpvNNpv07.0)()(ststpvps(三)总体具有所考虑特征单元总数A的估计它的方差及方差估计分别是:hLhhststpNNpA1ˆstAVˆstAvˆhhLhhhhhstLhhhhhhhhstqpnnNNAvnQPNnNNAV1121ˆ1ˆ【例3.4】为调查某个高血压高发病地区青少年与成年人高血压的患病率,对14岁以上的人分四个年龄组进行分层随机抽样,调查结果如下,求总体高血压的患病率P的估计及其标准差的估计.高血压患病率调查数据年龄组(岁)层权层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536hWhnhphq解:P的估计量为:为求的方差估计,取%08.232308.0464.0184.0310.0213.0174.0322.0083.0281.01LhhhstpWpstp的近似公式为:则LhhhhhhsthhhnqpfWpvnnf12,111,11%884.000884.000007818.012ststLhhhhhstpvpsnqpWpv第三节样本量在各层的分配简单随机抽样只需要根据调查精度的要求与费用的限制来确定抽样容量的大小,而分层抽样则提出另一个重要的问题,一旦确定n,又如何在各层中分配抽样容量nh一、样本量分配对精度的影响某个总体分为三层,其层权及层标准差见下表,设总样本量为300,考虑四种不同的样本量分配,并计算出每一种分配下,总体均值估计量的方差:样本量的不同分配对方差的影响hWhSh常数分配与成正比与成正比与成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.00hWhSyV2hShWhhSW二、比例分配(proportionalallocation)即按各层单元数占整体单元数的比例进行分配,也就是按各层的层权进行分配,即大的子总体多抽一些,小的子总体少抽一些:比例分配时,也与层权成比例.hhhWNNnnfNnNnfhhh或hnhW由上式可以看出,当比例分配时,无论是哪一层,总体单元被抽中的概率皆为f,因此比例分配的分层随机抽样是一种等概率抽样。YyynynynnnynnyWyniiLhnihiLihihLhhhLhhLhhhproph1111111111说明此时分层估计即是样本均值,显然估计量有相当简单的形式,而在通常情况下,比例分配时,总体均值的估计是:yystniiproppropynNyNyNy1LhhpropanppP11的估计为:总体比例比例分配时,总体总量Y的估计也很简单:不管哪种抽样方法,如果总体总量(或均值)的一个估计量可以写成样本观测值的总和(或平均数)的常数倍,那么这种估计(或相应的样本)称作自加权的或等加权的.按比例分配的分层抽样就是自加权的.简单随机抽样(放回的和不放回的)也是自加权的.的方差为:LhhhLhhhhhhLhhhpropSWnfSnfnnWyVWyV12121211)()(propyLhhhhLhhhhhpropQPWnfNQPNNnfpV1