第四章分层随机抽样(抽样理论与方法河南财政学院)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

河南财经学院第四章分层随机抽样河南财经学院4.1概述一、分层抽样(stratifiedsampling)、分层随机抽样(stratifiedrandomsampling)分层抽样:将容量为N的总体分成L个不相重叠的子总体,子总体的大小分别为N1、N2、…NL,皆已知,且则每个子总体就称为层。从每层中独立地进行抽样,这样的抽样方法称为分层抽样。分层随机抽样:在分层抽样中,如果每层中的抽样都是简单随机抽样,则这样的分层抽样称为分层随机抽样。NNL1ih河南财经学院二、分层抽样的适用场合不仅需要估计总体参数,也需要估计各层参数。便于管理,按现成的地理分布或行政划分来分层。希望样本中能包含各个部分,以增加代表性。把一个内部差异很大的总体分成几个内部比较相似的子总体(层)进行分层抽样,可以提高估计量的精度。如果有极端值,也可以把它们分离出来形成一层。即“层间方差大,层内方差小”。三、进行分层抽样时,应注意的方面层内抽样设计的选择。分层变量的选择。各层样本量的分配,样本总量的确定。层数。层的分界。河南财经学院4.2简单估计量及其性质对总体均值或总值的估计:层权hhWN/NL21hhL,,,表示层的编号,层,以设总体分为nnnnnNNNNNL1ihL1L1ihL1,,)样本(,,)总体(河南财经学院hhhhhhn1i2hhih2hN1i2hhih2hn1ihihhN1ihihhn1ihihN1ihihyy1n1sYY1N1Syn1yYN1YyyYYhh)()(层样本第层总体第hnhNhhi1hhhhi1hhyyynhYYYNh,,,,个样本单元:层样本有第,,,,个总体单元:层有总体第河南财经学院例4.1总体由1000人组成,按以往的收入情况将总体分成两层:第一层(高收入层),20人;第二层(低收入层),980人。从第一层随机抽取2人,调查上月收入,得数据(单位:元)1200及1600;从第二层随机抽取8人,调查上月收入,得数据(单位:元)220、230、180、320、400、340、280、360。估计这1000人上月平均收入。解:对比:43.31325.29110009801400100020yWyWNyNyNNYˆYˆYˆ22112211215131036022016001200y河南财经学院一、分层抽样中,L1hhhhYYYNYh,层,都有若对任一层,假设为第L1hh2hL1hhL1hhhL1hhYˆVNYˆVYˆVYˆNYˆYˆ)1()()()(方差L1hh2hstL1hhhL1hhhL1hhst)Yˆ(VWYˆVYˆWYˆNNNYˆYˆ)2()(方差河南财经学院L1h2hhh2hL1hh2hststSnf1WyVWyVy)()(的方差为stst^L1hhhL1hh^hstst^yY,yWYWyYY.1记为为:的无偏简单估计)的无偏估计。(且为的估计:的方差yVsnf1W)y(v)y(VY2hL1hhh2hstst^hh^yY,的简单估计为则分层随机抽样河南财经学院)y(suy),y(suy1Yst21stst21st的置信区间为:的置信度为L1h2hhh2hL1hh2hL1hhL1hhhL1hh^hL1hhSnf1NyVNYˆVYˆVyNYNYˆYˆY.2)()()(方差的估计:总体总和2hL1hhh2hstst^snf1W)y(v)y(VY的无偏估计:的方差河南财经学院例3.2调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽取10户,调查数据如下,估计该地区居民奶制品年消费总支出及估计的标准差。样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025河南财经学院解:2096502415001657501054005.39200yNYˆ)1(L1hhh23208)Yˆ(v)Yˆ(s1039.5snf1N)yN(v)Yˆ(v)Yˆ(VYˆ)2(82hL1hhh2hst的估计:的方差333.193s24y556.8205s165y667.2166s105y722.1624s5.39y244233222211:各层样本均值及方差为河南财经学院(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为255138164162)Yˆ(suYˆ),Yˆ(suYˆ2121,河南财经学院例3.3:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇居民23560户中随机抽取300户,在全部农村居民148420户中随机抽取250户,调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均户收入为9856元,标准差为2546元。求全市年平均户收入的置信度为90%的置信区间。解:34.142snf1W)y(v)y(s21i2iii2istst39.1058598561719801484201518017198023560yWyWy2211st54.1081924.10351,34.142645.139.1058590%,即的置信区间为:信度为全市年平均户收入的置河南财经学院3、分层随机抽样中,总体比例P的简单估计.pPˆ,pWPˆWpPL1hhhL1hhhst记为的简单估计为,则的简单估计为设hhpPL1hh2hststpVWpVp)()(的方差L1h2hhh2hSnf1WL1hhhhhhh2hQP1NNnf1W很大时)当hL1hhhhh2hN(QPnf1W河南财经学院估计的性质(1)(2)的无偏估计。且是的简单估计为的性质:stL1hhhststppWpPp很大时)当)()(的方差hL1hhhhh2hL1hhhhhhh2hL1hh2hststN(QPnf1WQP1NNnf1WpVWpVp河南财经学院)的无偏估计。(且为的估计:的方差stL1hhhhh2hstststpVqp1nf1W)p(v)p(Vp)p(sup),p(sup1Pst21stst21st的置信区间为:的置信度为(3)(4)河南财经学院L1hh2hL1hh2hL1hhhL1hhhpVNPˆVNAˆVAˆpNPˆNAˆ)()()(的方差4河南财经学院例:在某行业技术人员中,按年龄分层,调查会使用计算机者所占的比例。数据如下:试估计总体中会计算机者占的比例。层人数入样人数样本中会使用计算机的人数30岁以下7781712430-35岁7497681236-40岁9779892241-45岁4627421145岁以上5366504总计35050320河南财经学院解:2286.0pWp)1(51hhhst000534.01n)p1(p)f1(W)p(v)2(51hhhhh2hst%39.27%,33.18)p(Vˆup,)p(Vˆup%95P)3(st21stst21st的置信区间为:置信度为河南财经学院3.3各层样本量的分配在分层随机抽样中,假设样本量n固定L1h2hhL1hh2h2h2hL1hhh2hstNSWnSWSnf1W)y(VYˆ的方差:L1hhh0nccC,则总费用为:考虑简单线性费用函数河南财经学院1.比例分配:指按各层层权(各层单元数占总体单元数的比例)进行分配。l1h2hhh2hpropSnf1W)y(VhhhWNNnnL1hhhpropyWy则:fNnNnfhhhhin1ihL1hhhyn1NNhin1ihL1hhhyn1nnyyn1L1hn1ihhil1h2hh2hSnWf1Wl1h2hh2w2wl1h2hhSWS,Snf1SWnf1权平均。为各层方差按层权的加其中河南财经学院例:假设某公司欲估计某类产品的用户的每年平均支出。企划人员拟就整个潜在用户的名单,共8000户。采用分层随机抽样抽取样本200户,求按比例分配时各层样本量。层每层中的潜在用户少用2000中等4000多用2000总和N=8000河南财经学院。、、各层样本量分别为50100505080002000nWn10020080004000nWn33225020080002000nWn11解:河南财经学院例.某电视台要在某地区的住户中,调查该台的晚间新闻的收视率。该地区包括3个县,共有67401家住户。假定该电视台采用等比例分层随机抽样分别从三个县抽取住户,样本量为1500。每个县的总户数以及抽样数据列表如下:求该地区新闻收视率的95%的置信区间。县i每个县的户数Ni每个县被抽出的户数ni每个县的样本收视率pi1234810712419687510712761530.270.180.17合计N=67401n=1500河南财经学院解:分层随机抽样时,收视率P的估计为:011.0182.015006740115001snf1)p(v)p(s182.083.017.067401687582.018.0674011241973.027.06740148107qpWsWs243.0pWp2wstst31hhhh2h31hh2w31hhhst河南财经学院收视率P的置信度为95%的近似置信区间为:即有95%的把握可以认为,该地区的新闻收视率在22.1%~26.5%之间。265.0,221.0011.096.1243.0)p(spst21st即河南财经学院2.最优分配:L1hhh0nccC,则总费用为:考虑简单线性费用函数L1h2hhL1hh2h2h2hL1hhh2hst^NSWnSWSnf1W)y(VY的方差:河南财经学院L,,2,1h,c/SWc/SWnnL1hhhhhhhh样本量的最优分配为::的方差达到最小值在最优分配中,)y(VYstmin^L1h2hhL1hh2h2hstminNSWnSW)y(VL1h2hhL1hhhhL1hhhhNSW)c/SW)(cSW(河南财经学院L1h2hhL1hh2h2hL1h2hhh2hL1h2hhh2hhNSWnSWS)N1n1(WSnf1WVn,估计量的方差为对给定的证明:L1hh2h2hL1h2hhnSWNSWVVL1hhh0TnCCCL1hhh0TnCCCC河南财经学院)nC)(nSW(CVL1hhhL1hh2h2h常数有的等式成立的条件是对所许瓦兹不等式根据柯西hh2hh2h2hab,h)ba()b)(a(:2L1hhhhL1h2hhL1h2hhh)CSW()nC)(nSW(CV达到最小时即常数且当CV,CSWKn,)K(SWnCnSWnChhhhhhhhhhhhh)nC)(nSW(L1h2hhL1h2hhh河南财经学院L,,2,1h,c/S

1 / 64
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功