第9章复杂样本的方差估计第一节概述一、什么是复杂样本二、基本思路1.“复制”2“迭代”三特点不是百分之百准确,但简化了复杂过程重抽样(复制样本),泰勒级数,广义方差函数典型抽样方法?复杂设计:多种抽样方法结合,多种抽样框复杂估计:非线性,无回答调整,加权估计,事后分层第二节随机组法一.什么是随机组法(RandomGroupMethod)不同的名称:replicatesamples重复样本ultimatecluster末级群交叉样本等不同的术语来自于不同的应用。设nyyy,...,21为来自同一总体的变量值,则Y的方差可用2)(11yynni估计,记1ˆ为的一个估计量,同样方法重复K次,则可得到kˆ,...ˆ,ˆ21记作2)ˆˆ()1(1)ˆ(ˆ1ˆkikikkk它是参数的无偏估计,称估计量)...2,1(ˆkii为随机组。随机组产生的二种方式:独立和不独立)ˆ(V二、独立随机组独立随机组的操作程序:1.多次重复2.与抽样方式无关,但每个样本抽样方式一致。得到K个关于的估计,记为),...2,1(ˆkaakkaˆˆ)ˆ(E)ˆ()}ˆ({)1()ˆˆ()ˆ(2VEkkka无偏估计的置信区间为)ˆ(ˆ2/Z以比率估计为例XYaaaXYˆˆˆkz/)ˆ(2),(2NkˆaakXYkˆˆ1ˆ11ˆˆ/ˆ垐/kaaakaaaYkYXkX全样本估计对线性估计量,ˆ与ˆ相同对非线性估计量,ˆ与ˆ通常不同)1()ˆˆ()ˆ(21kkka)1()ˆˆ()ˆ(22kkka保守估计)ˆ()ˆ(EE)ˆ()ˆ(EE因为:222)ˆˆ()ˆˆ()ˆˆ(Kaa故有)ˆ()ˆ(21研究表明,在复杂调查应用中,})ˆˆ{(2E是微不足道的。例题:住户调查,多阶段分层抽样。抽取样本S1,放回后再按照同样方式抽取S2调查得到1ˆ与2ˆ2)ˆˆ(ˆ2122)ˆˆ()12(21)ˆ(a=4)ˆˆ(221利用随机组方法估计拒答率及其方差1S2S1y1x2y2x样本样本拒答户数合格调查户数拒答户数合格调查户数城区S1S2拒答户数合格调查户数拒答户数合格调查户数141150371492401493014833814538150总计119444105447251.0891224ˆˆˆˆˆ2121XXYYR251.0)235.0268.0(21)ˆˆ(21ˆ21RRR000274.0)ˆˆ()1(1)ˆ(211RRkkRvk000274.0)ˆˆ()1(1)ˆ(212RRkkRvk案例:美国AAAMotel的调查调查内容:意向调查抽样框:文档卡片调查设计主要特征:调查结果:见表一、表二172个抽屉64张卡片,卡片可能是可能是合同汽车旅馆、饭店、空白卡片等1.总体中约有5000个合同汽车旅馆,并准备抽取约700个单元作总样本,这样,总抽样比约为700/5000,即约7个里面抽1个。所以,每一个抽屉都各增加6张空白卡片,这样每个抽屉都有70张卡片。2.从每一个抽屉中随机抽取一张卡片,组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。3.按照第2步的方法有放回地再抽取9个样本,10个样本(或随机组)互相独立。4.结果有854个汽车旅馆被抽入总样本,向每一个单元寄一张调查表。其他单元不是合同汽车放馆,不属于被调查总体。没有单元被重复观测。5.10天后,对无回答的单元第二次寄调查表,再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表,就被认为是无回答者。6.将无回答者按随机组的数字顺序排列,并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。表一各类别回答结果随机组经常很少没有无明确回答未回答合计1164017219942203017315853183516115854173114216805143215318826153212416797193017317868133711318829193919214931017391521588合计16834515325163854表二对无回答子样本访问的结果随机组经常很少没有暂时关闭合计1122162121153220154212055131276220157131168121269221051012025合计142191155问题1:合同汽车旅馆的估计值及方差?问题2:回答为“经常”的合同汽车旅馆的数量及方差?问题3:估计回答“很少”与“没有”的比例及其方差?总数11111370ˆnriiriiYYY=70×(16+3×1)=1330权数:入样概率倒数17211170iiXX=70×94=6580597810/ˆˆ101XX12653ˆˆ)9(101)ˆ(1012XXXv第一随机组中回答者和无回答者子样本的求和789.016103220130016103220ˆ1R没有很少经常没有很少737.010/ˆˆ101RR0001139.0ˆˆ)9(101)ˆ(10121RRRv737.012602856147012602856ˆR0001139.0ˆˆ)9(101)ˆ(10122RRRv三、非独立随机组将母样本随机划分为K组:m=n/K从n-m中再抽取m作为第二组若n/k不是整数,便有n=km+qq的处理关键是划分K组的过程:实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个随机组,所以随机组相互不独立1.母样本,WOR或不放回不等概抽样随机组WOR2.母样本,等概率或不等概率系统抽样随机组,系统抽样3.母样本,分层抽样随机组,分层抽样4多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本单元的集合:末级群。随机组是通过将所有末级群分成组而得到的,具体的划分方法根据第一阶抽样方法而定。5如果采用的是二重抽样,则应将第一重样本划分成个随机组;而第二重样本则被相应地分成随机组,即第二重样本单元所在的随机组完全由第一次划分时决定。估计:kkaˆˆ)ˆ(V的估计量为2)ˆˆ()1(1)ˆ(kakk对于ˆ的方差估计有两种方式:)ˆ()ˆ(122)ˆˆ()1(1)ˆ(kakk因为,)ˆˆ()ˆˆ(22aa故)ˆ(2v保守估计量由于随机组非独立,故)ˆ(不是ˆ方差的无偏估计。)1(}ˆ,ˆ{2)()1(1)ˆ()}ˆ({12kkCovkkVEbkakabaka式中}ˆ{aaE}ˆ{Ekka若kmmm....21则,a这时}ˆ,ˆ{)ˆ()}ˆ({21CovVE在许多大规模调查中偏差通常都不会很大随机组问题的讨论涉及两个主要问题:1.估计量的方差2.估计量方差的精度,即对随机组方差估计的质量评估。ˆ)ˆ(V)ˆ(v四、K的选择)ˆ(v也是一个估计量,对其质量进行评估自然想到其方差)ˆ(vV,从而引出CV准则)ˆ()]ˆ([)}ˆ({21VVCV定理:设kˆ,.....ˆ,ˆ21为独立同分布的随机变量,而)ˆ(如公式)1()ˆˆ()ˆ(2kkka所定义,则当N,n很大,抽样比很小时,也可用于不独立随机组2114]13)ˆ([)}ˆ({kkkVCV其中2214114]})ˆ[({})ˆ{()ˆ(EE)ˆ(1E(1)峰度由(1)式看出,近似地反比于随机组个数K2CVkvCV1)ˆ()ˆ(142定理说明CV依赖于两个因素,和K1.K小,CV则大2.大,CV也大)ˆ(14)ˆ(14)ˆ(4a说明,方差的随机组估计的精度,不但依赖k,而且与的aˆ分布(从而与)有关。令m=n/k,如取采用有放回简单随机抽样,取为a组的样本均值,则aˆnikaynk1ˆ1ˆ这时2244414/)(/]/)([/)1(3)ˆ(NYYNYYmmmNiNi式中若抽样方式为放回PPS抽样,取为第a组的总体总和的估计量,则imiazym/1ˆ2244414/)(/)(/)1(3/ˆ1ˆ1ˆNiNinikaNTTNTTmmmynk式中)(这时上述两种形式蕴含了这样一个事实,从本质上讲,的形式。bma具有)ˆ(14m从1开始增长时,峰度明显减少,但随m越来越大,峰度的递减作用减少,因此对越来越大的m,峰度的边际递减不足以弥补必要的k的递减,K对减少CV和提高方差估计精度比组容量m更重要。C为计算方差预算,21CC、为加法或乘法单位成本,使)}ˆ({CV在下列费用约束下达到最小CCkCkm21)32(}1)3{()}ˆ({CV是K的递减函数,最优值为满足约束方程中最大的K值。要满足需要的精度水平*CV*)ˆ(CVvCV需要什么样的m和k?估计听取专家意见根据经验判断)ˆ(14K增长时费用会增加,因此最优k的选择应该在费用约束下寻找总结:随机组方法优点:计算简单,适用面广适于多参数、非参数问题,适于分中位数等非平滑函数,也可用于非抽样误差加权调整后的方差估计。缺点:随机组数目一般较少,方差估计不稳定,一般至少10个随机组。随机组的产生较困难:要求机制与复杂抽样相同,而且限制随机组数目,如每层2个PSUResamplingandreplicationmethodsSampling:“population”Subsamples(WR):估计方差BanlancedRepeatedReplicationJacknifebootstrap半样本法:50年代末美国普查局的W.N.赫维茨和M.格尼平衡半样本法:麦卡锡BanlancedRepeatedReplication第三节平衡半样本方法一半样本基本原理每层只抽两个单元的分层抽样随机组方法LhhhyW1LhhhdW12241styvsty)(stRGyv212,)()12(21ststyy22,1,)(41ststyy随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差半样本:从每层抽取一个单元形成半样本,总共可能出现?个半样本半样本之间是彼此相关的L2半样本估计量=1,如果第h层中第一个单元被选入第个半样本;=0,否则。LhhhhhhyyW12211)(,sty1h121hh半样本估计量的性质)(21212,stststLyVyyELLhhhhdW1)(21ststyy,11121)(或hhststLyyL21,21stLLLhhhhyyyW)2/2()(11212,ststyyLhhhdW12241hLhLhhhhhhhddWW1)()(21hLhLhhhhhhhstddWWyv1)()(21)(平衡半样本一个小的半样本子集(k)尽量保留所有的信息stkyvkststyyk12,1hLhLhhhhhkhhstddWWkyv11)()(21)(01)()(khh满足该条件的k个半样本为平衡半样本,如果01)(khstkstyyk1,1则完全正交平衡(fullorthog