等概率整群抽样在实际中的应用——基于河南省滑县玉米总产量的估计小组成员许丽勤刘梦玲陈雪郑淑花年级2013级专业应用统计系(院)统计与数学学院指导教师马云玲2013年12月7日1等概率整群抽样在实际中的应用——基于河南省滑县玉米总产量的估计1.研究背景河南省滑县现隶属于河南省安阳市,2014年1月1日起开始脱离安阳市改由河南省直接管辖。滑县地处豫北平原,是中原经济区粮食生产核心区、河南省第一产粮大县、全国唯一的粮食生产先进县标兵“十连冠”,素有“豫北粮仓”之称,农作物以小麦、玉米为主。而河南是“中国粮仓”、“国人厨房”,是中国小麦、玉米、棉花等农产品的重要生产基地,选取以滑县为代表的河南省的粮食产量尤其是玉米产量的研究对预测全国的粮食产量总水平具有重要意义。本文以抽样技术理论为基础,通过从滑县23个乡中随机抽取10个,调查这十个乡的玉米产量,并运用不同的抽样技术来估计滑县玉米的总产量,最终权衡各技术,得出估计总产量的最优方法,以便指导以后的工作进行。2.理论依据整群抽样是将总体划分为若干群,为减少抽样误差,在划分群时应使得群内各单元之间差异尽可能大,以避免同一群内各单元提供重复信息,群与群之间各单元的差异尽可能小。然后以群为抽样单元,从总体中随机抽取一部分群,对入选群内的所有单元进行调查的一种抽样技术。本文主要研究对滑县玉米总产量的估计,考虑到各个群(乡)的单元数不同,因此采用不等规模下等概率整群抽样的方法。等概率整群抽样不考虑各个群规模的大小,都赋予同样的权重,因此每个群被抽中的概率都相等,也就是按照等概率的原则随机从总体中抽取若干群进行调查。主要假定在N个PSU(初级抽样单元)组成的总体中,第i个PSU包含Mi个SSU(二级抽样单元)。对于整群抽样而言,被选中的群(PSU)中所有的SSU全部入样,因此Mi=mi。在此,主要考虑两种方法:无偏估计和比估计。22.1等概率抽样的简单无偏估计等概率抽样的无偏估计基本思想是,以群规模Mi为权数,乘以各群均值iy,得到群观察值总值iy,再将样本中n个群的群总和平均,求得群总和均值y,再除以群平均规模1NiiMMN,求得均值估计。其估计公式为:1101nniiiiiMyyYyyMnMnMM2.1.1若总体群平均规模M未知,可用样本平均规模1NiiMmn代替。由于在估计总体总值Y时需要总体基本单元总数M0,但使用整群抽样往往是因为没有总体中基本单元的抽样框,而由于总体的群数N是已知的。因此,可以用以下公式来对其总体总值及总体方差估计为:1niiNYyn2.1.2221()(1)()1niiiyyNfvYnn2.1.32.1.2等概率抽样的比率估计其基本思想是,我们通常预期群内各单元取值iy与各群规模Mi是相关的,因此以Mi为辅助变量,总体均值的比率估计量为:11niiniiyyM2.1.4从比率估计的性质可知,它是一个有偏估计。但当样本群数n很大时,其偏3倚很小,可以忽略不计,认为近似无偏。其总体总值Y的比率估计和方差估计为:1001niiniiyYMyMM2.1.5221()(1)()1niiiyyNfvYnn2222111(1)1(2)1nnniiiiiiiNfyyMyMynn2.1.63.实例分析3.1变量选择要估计滑县2013年玉米总产量,我们主要采用以上所介绍的两种方法进行估计,无偏估计法得到抽取各个群体的玉米产量,比率估计考虑辅助变量的选择,辅助变量在选择时要遵循以下原则:1.辅助变量必须与主变量高度相关;2.辅助变量与主要变量之间的相关关系整体上相当稳定;3.辅助变量的总体总值必须是已知的,或是容易获得的;4.辅助变量的信息质量更好,或信息更容易取得即调查成本更低基于以上原则,我们主要考虑两个辅助变量:各群规模Mi和种植面积Xi。3.2数据搜集与处理据了解河南省安阳市滑县有道口镇、留固镇、高平镇等10个镇,枣村乡,八里营乡,大寨乡等12个乡和新区管委会。共726个村,为工作方便起见,现随机从这23个乡(镇、管委会)中抽取十个群体,所抽取到的是道口镇、城关镇、留固镇、万古镇、上官镇、赵营乡、老庙乡、桑村乡、瓦岗寨乡,新区管委会,4共209个村。共有800块农田种植玉米,我们通过实割实测的方法,得到抽取到的各个群体玉米产量iy及各乡种植面积ix显示在表1中。该县2013年玉米总种植面积为30525亩。由于时间及经费有限,为估计2013年该县的玉米总产量,现采用等概率抽样抽出10个乡进行该作物的产量调查。具体调查数据如下表表1滑县10个乡(镇)的调查数据样本乡编号村庄数Mi乡玉米产量yi(万公斤)乡种植面积xi(亩)11522.080021822.878032630.2100041421.770052025.388062831.2110072126.085081920.580093133.81200101723.6830合计209257.18940(1)无偏估计法由表3.1及式(2.1.2)可以估计出滑县的玉米总产量,结果如下:133(22.023.6)848.43()10niiNYyn万公斤(3.1)此处,我们利用估计量的标准差来衡量其精度。由式(2.1.3)可知,要计算出群规模不等的无偏估计的标准差,需要先计算出样本均值和总量估计值的方差,最后开方得到玉米总产量估计值的标准差。计算结果如下:1125.71()niiyyn万公斤(3.2)2221()(1)330.697()20.6571567.9110niiiyyNfVYnn(3.3)()()1567.939.6sYvY(3.4)(2)比率估计法由表中的数据可得出关于玉米产量yi、乡村庄数yi及种植面积xi之间的5变化趋势图,如图3-1所示,由于量纲的影响,为了更清楚的显示出三者之间的关系,将种植面积用百亩表示的数据显示到图中。051015202530354012345678910村庄数Mi乡玉米产量yi(万公斤)乡种植面积xi(百亩)图1从图中可以看出,乡玉米产量与村庄数和乡种植面积相关程度比较大,为了更进一步说明它们之间的相关关系,我们用变量之间的简单相关系数来说明。简单相关系数是用以反映变量之间相关关系密切程度的统计指标。简单相关系数的数学表达式为:12211()()()()niiinniiiixxyyrxxyy,我们通过计算相关系数可以得到,乡玉米产量与村庄数和乡种植面积的相关系数分别为0.9498和0.9590。且图中显示它们的相关关系比较稳定,说明我们选择村庄数和乡种植面积作为辅助变量是合理的。1)以群规模为辅助变量由于每个乡的玉米总产量与该乡的村庄数有关,即与群规模12211()()()()niiinniiiixxyyrxxyy有关。因此,可用以群规模作为辅助变量的比率估计来估计孟津县的玉米总产量。根据式(2.1.5)可以得出:101257.1726893.08()209niiniiyYMM万公斤(3.5)6其中,M0为总村庄数,即01niiMM。此处,我们利用估计量的标准差来衡量其精度。由式(2.2.6)可知,要计算出群规模不等的比率估计的标准差,需要先计算出总量估计值的方差,最后开方得到玉米总产量估计值的标准差。其计算结果如下:2221()(1)330.697()9.061687.8110niiiyMyNfVYnn(3.6)()()687.826.2()sYvY万公斤(3.7)2)以种植面积为辅助变量的比率估计法通过分析可知,影响玉米总产量的因素除了村庄数(群规模)Mi以外,还有种植面积xi,且种植面积与玉米总产量的相关性更强。因此,我们利用种植面积xi代替群规模Mi来作为辅助变量进行比率估计。已知全县的玉米种植面积为30525X亩,则用xi作为辅助变量的比率估计的计算结果如下:11257.130525877.858940niiniiyYXXRx(万公斤)(3.8)此处,我们利用估计量的标准差来衡量其精度。由式(2.1.6)可知,要计算出群规模不等的比率估计的标准差,需要先计算出总量估计值的方差,最后开方得到玉米总产量估计值的标准差。其计算结果如下:2221()(1)330.69715.158()127.841109niiiyRxNfvYnn(3.9)()()127.8411.3()sYvY万公斤(3.10)4.结论通过以上的分析计算,我们可以得出群规模不等的无偏估计、以群规模为7辅助变量的比率估计和以种植面积为辅助变量的比率估计的玉米总产量估计值及其标准差,其中玉米总量估计值分别为848.43万公斤、893.03万公斤、877.85万公斤,玉米总量估计值标准差分别为39.6万公斤、26.2万公斤、11.3万公斤。比较三种估计方法可以得出以下结论:第一,用群规模不等的无偏估计法来估计玉米总产值虽然可以获得无偏估计量,但其估计方差与yi之间的差异有关。因此,该方法适用于yi之间差异不大的整群抽样。第二,群规模不等的两种比率估计中,以种植面积为辅助变量的比率估计精度比以群规模为辅助变量的比率估计更高。这与比率估计的基本性质有关,即在选择比率估计的辅助变量时,辅助变量必须与主要变量高度相关,由相关系数的值可以知道虽然村庄数即群规模与种植面积均与主变量玉米总产值有高度的相关关系,但种植面积与玉米总产值的相关关系更密切。我们所选择的辅助变量是合理的。因此,以种植面积为辅助变量的比率估计精度更高。第三,通过三种方法比较可以得出,以种植面积为辅助变量的比率估计的估计效果最好,玉米总产值估计效果更接近真值,以群规模为辅助变量的比率估计的精度次之,估计误差最大的是无偏估计。这是由于以群规模为辅助变量的比率估计,其估计方差取决于群均值iY的差异。iY的差异比Yi的差异更稳定。因此,以群规模为辅助变量的比率估计要比无偏估计法获得更好的估计效果。另外,由于玉米乡产量yi与玉米种植面积关系更密切,即与21()niiiyMy相比,21()niiiyRx更小。故以种植面积为辅助变量的比率估计更优于以群规模iM为辅助变量的比率估计。但比率估计是有偏估计,它更适用于样本群数n较大的情况。在使用比率估计时,不仅要掌握辅助变量X的总体信息,更需要在调查中获取与目标变量关系更密切的辅助变量资料,从而降低比率估计的估计误差,使估计效果更好。