Chapter4RatioandRegressionEstimator•1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30commune的样本,截至1802年9月23日总共有2,037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。•拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33.把2037615按照71866.33来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。•具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。•调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。为什么要使用比率估计/回归估计•利用总体的辅助信息提高估计的精度。–辅助指标的选择:辅助指标应该与调查指标有较好的正的相关关系。的抽样分布较的抽样分布变动性要小得多。–辅助指标的总体总量或总体均值已知。•比率估计、回归估计需要有足够的样本量才能保证估计的有效。–有偏估计:当样本量足够大时,估计的偏倚趋于0。yxuyx•简单地想要估计一个比率:假定总体由面积不同农业用地构成,yi=i地谷物的产量,xi:i地的面积,B=每亩谷物的平均产量•想要估计一个总体总数,但总体大小N是未知的。但是我们知道,于是可以通过来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量。•要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。•能称量渔网中鱼的总重量。鱼的长度与其重量相关。yNyt^^xyyrxtt•调整来自样本的估计量以便它们反映人口统计学的总量。•在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。400012412404008440270013001270240160•比率估计量被用来对无回答进行调整•设抽取一个行业的样本:令yi为i行业花费在健康保险上的金额,xi为i行业的雇员数。假定对总体中的每个行业xi均已知。我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数X乘以比率yxyx一、RatioEstimator在srs条件下,1)(1)ˆ(ˆˆ22NRXYXnfRVxyRyNXxyXxyYXxyXxyyiiRRR辅助指标x,其总体均值(总量)已知【例4.1】对以下假设总体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。iiYiXiiX123456平均值01358104.51311182946181526CiyRy样本简单估计比估计11,221821,361831,49.517.141,51516.87551,623.521.1562,3715.7572,410.515.7582,5161692,624.520103,414.516.3113,52016.36123,628.519.73134,523.516.27144,63219.2155,637.518.75yyxXyxXRii•简单估计是无偏的,而比估计是有偏的。•简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。•因此对这个总体,比估计比简单估计的效率高。18151)(151iiyyE87.97)(151)(1512iiyEyyV686.17151)(151iRiRyyE31356.0)()(YyEyBRR82.2)(151)(1512iRRiRyEyyV92.2)()()(2RRRyByVyMSE二、比率估计的性质偏倚量会小,如果:样本量n很大抽样比n/N很大很大Sx很小相关系数R接近于1)(1)(22xyxRSSSXnfRrExuxu比率估计的近似方差)ˆˆ2(1)ˆ(22222xxyysRsRsxnfRvniiixRynXnfRv1221)ˆ(111)ˆ()ˆ()ˆ()ˆ()ˆ()(222RVXNYVRVXRXVyVRR当R0.5时,比估计比srs有更高的精度。分层抽样下,比估计有两种方法:1.SeparateRatioestimator,111xyr,222xyr…….LLLxyr(h=1,2,…..L)222)(1)ˆ()ˆ(XRyEXRRERVVRfnXNYRXfnXSRSRSiiiNyxyx111122212222niiixRynXnfRv1221)ˆ(111)ˆ(三、比率估计的效率•1.与简单估计的比较简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当n比较大的情形。比率估计量优于简单估计量的条件是:VyfnSy12VyfnSRSRSRyxyx1222222212yxyxfSRSRSSn2220xyxRSRSS122SXSYCCxyxy正高度相关2.比率估计成为最优线性无偏估计的条件(1).与的关系是过原点的直线(2).对这条直线的方差与成比例。则比率估计是最优线性无偏估计(BLUE)。iyixixiy•【例4.2】某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨,从2860艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量。iiYiXiiYiX1780100621701202150050718231503100550814508043761091582056002010137050i•该县船舶在调查月完成货运量的比率估计为•用简单估计对货运量进行估计1123.2ˆ154626267193765RyYXxˆRvY2222(1)ˆyxNfsRsn11ˆ22.1061710yxRsˆRsYˆ()458930RvYˆ28601123.23212352YNy2211(1)ˆ3.4330310yNfvYsnˆ()585921vYˆsYˆ()ˆ0.6135ˆ()RvYdeffvY实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。)ˆ()ˆ()ˆ()ˆ()(222RVXNYVRVXRXVyVRR当R0.5时,比估计比srs有更高的精度。分层抽样下,比估计有两种方法:1.SeparateRatioestimator,111xyr,222xyr…….LLLxyr(h=1,2,…..L)四、分层随机抽样下的比率估计•如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。separateratioestimatorhhhhRhhRSXxyWyWyRhhhhRSRSYXxyyNYˆˆ2.CombinedRatioestimator由hy估计sty,由hx估计stx。分别比率估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏倚可能比较大,这时使用联合比率估计量。combinedratioestimatorXRXxyyCststRCˆXRyNXxyYCRCststRCˆˆ方差的比较如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。2222222222垐?()(2)垐?()(2)hRsyhhxhhyxhhhRcyhcxhcyxhhWVYNSRSRSnWVYNSRSRSnRSYˆRCYˆ六、RegressionEstimatorLrLrLryNYXxyxXyyˆ)()(若令,0则)(srsyyLr;若令,R则RLryxXxyyy)((比估计)^^^^()011uuregyxBBBxxy回归估计应用的两种情况:1.事先确定设的确定值为0,0是一常数,则:)(0xXyyLr(1))2()2(1)]()[(111)(0220220yxxyiNiLrSSSnfXXYYNnfyV)3()2(1)(02202yxxyLrsssnfy因为YxXEyEyElr)()()(0而)(0iilrxXyy又可表为的样本均值后者的总体均值为Y故(2)式成立其样本估计量:性质:A:Lry是Y的无偏估计B:)(Lry是)(LryV的无偏估计C:0的最佳值是20xyxSS总体回归系数)1(1)(22minyLrSnfyV2.由样本估计2)())((xxxxyybiii此时:222)]()[()2(1)()1(1)()(xxbyynnfySnfyVxXbyyiniLryLrLr大样本条件下残差方差Se22^()(1)eregnSENnSy3.分层抽样中的回归估计(1)分别回归估计)]([ˆ)]([hhhhhLrslrshhhhhLrhLnLrsxXyNyNYxXyWyWy当h可以事先确定时,Lrsy与LrsYˆ都是无偏的,且)2()1()(2222xhhyxhhyhhhhLrsSSSnfWyV在)...2,1(2LhSSxhyxhh时达到极小值)1()1()(222minhyhhhhLrsSnfWyV若h不能事先确定,hhnhhinhhihhihxxxxyyb2)())((当较大时,适用场合?hn2222222222(1)()(1)(1)()[()()](2)(1)(1)(1)(2)hhhhLrsyhhhnnhhLrshihhhihhhhhhyhhhhWfVySnWfyyybxxnnWfnSrnn层内残差方差Seh2(2)联合回归估计)ˆ(ˆˆ)(,ststLrcLrcststLrchhsthhstXXYyNYxXyyxWxyWy当事先设定时,)2()1()(2222xhyxhyhhhhLrcSSSnfWyV无偏当无法事先设定时,)2()1()]()[()1()1()(222222xhcyxhcyhhhhhhichhihhhhLrcSbSbSnfWxxbyynnfWy渐近无偏其中222(1)()()(1)(1)()(1)hhhhihhihhhcnhhhihhhWfyyxxnnbWfxxnn如果是按比例分配,则可简化为联合最小二乘估计?•【例】某市对中央直属单位和市属单位专业技术人员总数进行了分层随机调查,已有98年各层人员总数,135个中央直属单位有75650专业技术人员,1228个市属单位有315612专业技术人员。分别在两层中调查了15、20家单位,调查数据如下,试估计99年全市专业技术人员总数。iiYiXiiYiX(1)按分别比率估计量估计(2)按联合比率估计量估计ˆRSY21ˆ0.9598591714001.049725102900272536.6hhhRXˆRSvY222221(1)ˆhhyhhxhhhN