对企业采用的抽样方法——目录企业抽样方法对有名录的企业采用一阶段目录抽样。从省级企业名录库中按规模―工业总产值或销售收入进行分层后直接抽取企业。1.1按销售收入规模分层,应用累计平方根法。其方法是:第一步将各组的频数开方;第二步将开方后的平方根进行累计;第三步选择适当的层数,将平方根累计总数除以层数。根据得到的商数选择最接近该数的点作为临界点。在这基础上可以将样本容量在各层中等容量分配。理论上证明,这样的结果接近于内曼分配。如某省企业名录库中共有97068个企业,频数分布及各层临界点如下表。(1)列为按销售收入分组;(2)列为频数分布;(3)列为频数平方根;(4)列为平方根累计;(5)列为将平方根累计总数除以层数(本例分为6层)后的商数;;(6)列为根据得到的商数选择最接近该数的点作为临界点,即分层结果。需要说明的是,这种方法比较简单。分层结果有时也会根据实际情况,如每层的企业单位数量、抽样比等情况进行调整。表1企业分层情况销售收入(万元)(1)企业数(f)(2)平方根(3)平方根累计(4)(5)(6)5022403149.7149.7159.55050~10013627116.7266.4319.050~100100~15013059114.3380.7478.4100~200150~200900594.9475.6637.9200~300200~250784988.6564.2797.4300~400250~300607377.9642.1400+300~350560274.8717.0350~400456967.6784.5400~450671581.9866.5450~500816690.4956.9合计97068956.91.2确定样本量。首先根据公式计算样本量。这也是以往调查中常采用的方法。最大相对误差一般控制在10%。其次,考虑能够承担的工作量。主要是经费和人员方面的承受能力。三是要考虑研究的问题及消亡和无回答情况。比如在某省进行工业抽样调查设计,确定样本量时(如分6层),如果按公式计算可能只需100个样本,即便考虑到消亡情况,仍是一个很小的样本量。如果只推算一个指标的总量,样本量也许能够满足精度要求了。但工业抽样调查涉及到多指标问题,同时也考虑利用样本数据,研究分行业估算等。为此在某省进行工业抽样调查设计确定了1000个目录企业,后又考虑有消亡和无回答企业,增加了120个企业样本。1.3分配样本。在规模层内分配样本量。大企业给与高的抽样比。另外层与层之间的抽样比相差不要太大,避免跳层发生后,由于层与层之间权数相差较大,加大方差。表2企业总体单位数及样本分布情况按年产品销售收入分层(万元)企业单位数抽取的样本企业数抽样比按抽样比抽取的样本企业数400+144183000.020807305250-400160343060.019084300150-250166282020.01214821050-150263651960.00743414750224501200.005345131Total9589511240.01172110931.4抽取样本。利用永久随机数技术抽取样本。1.4.1永久随机数(PermanentRandomNumbers)概念。随机数就是按随机方法而生成的数码。永久随机数则是指长久使用、不改变的随机数。比如一个企业一旦被赋予了一个随机数,则在以后的调查中都使用这个随机数,它类似企业法人代码,具有唯一和终身性。利用永久随机数不仅可以方便地抽取分层抽样中每层的样本,而且还可在连续性调查中增加所需样本或进行样本轮换时,方便管理。1.4.2产生方法。永久随机数可通过计算机程序产生,既可在Foxpro中,用“repl字段名withrand()”语句命令实现,也可在MicrosoftExcel中,选择插入菜单,找到“函数”中的“常用函数”,查找到“Rand”即为产生随机数的程序。抽样框中有多少个单位,就产生多少个随机数。随机数的位数可根据需要确定,本文中以95895个企业为例,因此确定用6位。1.4.3检验其分布是否合理。随机数产生后,要检验其分布是否合理。方法是用随机数6位中的前n(n为1,2,3……6)位来检验,本文采用前两位来检验,即在0.01至0.02之间;0.02至0.03之间;0.03至0.04之间……;0.99至1之间,看是否有大致相等的随机数个数,如果有大致相等的随机数个数,说明是等概率的,是合理的。如果每个区间的随机数个数相差较多,说明是不合理的,需要重新生成随机数,再检验其分布的合理性,直至达到满意为止。比如,某地区目录企业框有95895个企业,首先按以上方法生成95895个永久随机数,然后,检验其分布的合理性。检验结果如下,见表3。每个区间都应有1000个随机数,从表中可看出,每个区间的随机数在911个至1023个之间,说明其分布基本是均匀的。表3随机数分布情况区间随机数量比例(%)区间随机数量比例(%)区间随机数量比例(%)区间随机数量比例(%)0.00~0.019861.0280.25~0.2610001.0430.50~0.519300.9700.75~0.769110.9500.01~0.029390.9790.26~0.279681.0090.51~0.529751.0170.76~0.7710221.0660.02~0.039180.9570.27~0.289901.0320.52~0.539440.9840.77~0.789340.9740.03~0.049310.9710.28~0.299390.9790.53~0.549691.0100.78~0.799290.9690.04~0.059400.9800.29~0.309601.0010.54~0.559330.9730.79~0.809450.9850.05~0.069520.9930.30~0.319180.9570.55~0.5610021.0450.80~0.819450.9850.06~0.079661.0070.31~0.329771.0190.56~0.579480.9890.81~0.829711.0130.07~0.0810041.0470.32~0.3310121.0550.57~0.5810231.0670.82~0.839250.9650.08~0.099400.9800.33~0.349130.9520.58~0.599440.9840.83~0.849931.0360.09~0.1010131.0560.34~0.359771.0190.59~0.609550.9960.84~0.859731.0150.10~0.119360.9760.35~0.369691.0100.60~0.619500.9910.85~0.869170.9560.11~0.129240.9640.36~0.379631.0040.61~0.629861.0280.86~0.879400.9800.12~0.139681.0090.37~0.389741.0160.62~0.639200.9590.87~0.889580.9990.13~0.149510.9920.38~0.399080.9470.63~0.649520.9930.88~0.899370.9770.14~0.159270.9670.39~0.409661.0070.64~0.6510001.0430.89~0.909490.9900.15~0.169601.0010.40~0.419300.9700.65~0.669290.9690.90~0.919681.0090.16~0.1710111.0540.41~0.429440.9840.66~0.679530.9940.91~0.929410.9810.17~0.189460.9860.42~0.439430.9830.67~0.689791.0210.92~0.939580.9990.18~0.199691.0100.43~0.449721.0140.68~0.699360.9760.93~0.949120.9510.19~0.209320.9720.44~0.459480.9890.69~0.7010051.0480.94~0.959781.0200.20~0.219290.9690.45~0.469560.9970.70~0.719591.0000.95~0.969891.0310.21~0.2210061.0490.46~0.4710101.0530.71~0.729430.9830.96~0.9710131.0560.22~0.239631.0040.47~0.489240.9640.72~0.739681.0090.97~0.989240.9640.23~0.249831.0250.48~0.4910061.0490.73~0.749841.0260.98~0.998990.9370.24~0.259981.0410.49~0.509831.0250.74~0.759621.0030.99~1.009731.015合计95895100.001.4.4抽取样本的方法1.4.4.1按固定样本量抽取样本的方法。在每层中按样本量选取最小的永久随机数对应的企业为样本。如表2中400万元以上的层,需从14418个企业中等概率抽取300个样本,做法是,将这14418个企业按永久随机数从小到大排队,选取永久随机数最小的300个,即为这一层的样本。当然,也要进一步考虑到样本按行业、按地域、按注册类型的分布情况。其他层样本抽取都按此方法进行。利用永久随机数抽取样本的一个简单例子。表4利用永久随机数抽取5个样本企业ABCDEFGHIPRN.92.51.22.67.32.11.84.46.52排列952731846样本?????表4中共有A、B、C、…I9个企业,第2行为这9个企业的永久随机数,第3行为按永久随机数大小的排列顺序,第4行为抽取的永久随机数最小的5个企业样本。1.4.4.2按抽样比抽取样本的方法。在每层中所有比抽样比小的永久随机数对应的企业为抽中样本,如表2中400万元以上的层,抽样比是0.020807,在这一层按随机数从小到大排队,凡是永久随机数小于0.020807的企业为抽中样本。共得到305个样本。此种抽取方法的缺点就是样本量不固定,是随抽样比变化的随机变量,而且与规定的样本量会有一定差异,可能比要求的样本量多,也可能比要求的样本量少。从上表中的最后一列可看出,5层中有3层比要求的样本量多,分别是400万元以上的层、150-250万元的层和50万元以下的层。5层中有2层比要求的样本量少,分别是250-400万元的层和50-150万元的层。按抽样比方法抽取的总样本量比要求的少31。1.4.5利用永久随机数维护样本。第一次调查结束后,一些样本企业会发生变化,如消亡、改行、规模大变小或小变大,同样也会有新生企业等。因此要对样本进行维护。1.4.5.1.应用固定样本量的方法。如果在第二次调查时,某层需要补充或增加样本,就在第一次调查样本的基础上,选取能满足样本量要求的最小的永久随机数对应的企业为补充样本。还以400万元以上的层为例,在第二次调查时想在第一次调查300个样本的基础上增加50个,那么300个样本(假定样本没有发生变化)依然是第二次调查的样本,另外此层按永久随机数从小到大排队,假如第一次抽取300个样本的永久随机数是小于0.025,则第二次要在永久随机数0.025(大于0.025)的基础上选取最小的50个作为补充样本。如果在第二次调查时,对于新增企业,首先根据其在每层中的数量,确定需增加的样本量,然后在每层中选取永久随机数最小的企业作为新增样本。连续性调查中对样本维护的一个简单例子。表5连续性调查中对样本的维护(第2次抽取方法)企业ABDEFGHIXPRN.92.51.67.32.11.84.46.52.71排列946218357样本√√√√√表5中共有A、B、D、…