第二章简单随机抽样第二章简单随机抽样2.1概述2.2简单估计量及其性质2.3比率估计量及其性质2.4回归估计量及其性质2.5简单随机抽样的实施概述一、简单随机抽样(或单纯随机抽样)本书一般局限于不放回随机抽样二、实施方法三、地位、作用是其他抽样方法基础案例在1936年美国总统选举前,一份颇有名气的杂志进行了民意测验,调查兰登与罗斯福谁将当选下届总统。为了了解公众意向,调查者通过电话簿和汽车登记簿给大批人发了调查表,通过分析回收的调查表,显示兰登非常受欢迎。因此该杂志预测兰登将获胜。实际选举结果正好相反,最后罗斯福在选举中获胜。其数据如下:候选人预测结果(%)选举结果(%)Landon5738Roosevelt4362问题一:对于一个确定的总体其样本唯一吗?问题二:如何科学地抽取样本?怎样使抽取的样本充分地反映总体的情况?合理、公平2.1定义与符号定义2.1从总体的N个单元中,一次整批抽取n个单元,使任何一个单元被抽中的概率都相等,任何n个不同单元组成的组合被抽中的概率也都相等,这种抽样称为简单随机抽样.定义2.2从总体的N个单元中,逐个不放回抽取单元,每次抽取到尚未入样的任何一个单元的概率都相等,直到抽足n个单元为止,这样所得的n个单元组成一个简单随机样本.定义2.3按照从总体的N个单元中抽取n个单元的所有可能不同组合构造所有可能的个样本,从中随机抽取一个样本,使每个样本被抽到的概率都等于1/,这种抽样称为简单随机抽样。注意:定义2.1与定义2.3是等价的。三个定义之间的联系nNCnNC证明不放回无序:按定义1,每个样本被抽中的概率相同,即为。证明:设被抽中的单元号码:1,2,3…n对应的观察值为:在有序逐个抽取时,样本的概率为:在无序情况下,一个包含n个指定单元的样本,其单元抽取的顺序共有种不同的形式,因此抽取到包含这n个样本的总概率:nNC1nyyy...2,1!!111...11.1,.../.../,...12,11212,1NnNPnNNNyyyyPyyPyPyyyPnNnnn!nnNCnNnN1!.!!抽取原则:A.随机原则B.每个抽样单元被抽中的概率已知或事先确定C.每个抽样单元被抽中的概率相等注意:(1)它要求被抽取的样本是有限总体、具体总体、与抽样框一致的总体;(2)它是从总体中逐个抽取;(3)它是一种不放回的抽样;(4)它是一种等概率的抽样。(二)类型:放回简单随机抽样:有序、无序不放回简单随机抽样:有序、无序放回简单随机抽样【例】设总体有5个单元(1,2,3,4,5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本个数为:1,12,13,14,15,11,22,23,24,25,21,32,33,35,35,31,42,43,44,45,41,52,53,54,55,5放回简单随机抽样所有可能的样本:重复顺序放回有序SRSWR(考虑样本单元的顺序):如1,2和2,1作为不同的样本。所有可能的样本个数:每个样本被抽中的概率为。2552nNnN1放回无序(不考虑样本单元的顺序):151025261CCnnN1,12,13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,5特点:每次抽样时,总体的结构不变,抽样是相互独立进行的;总体单元有可能多次被抽中的机会。不放回简单随机抽样不放回有序(考虑样本单元的顺序):2052525PPnNnNP1,12,13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,5不放回无序SRSWOR(不考虑样本单元的顺序):每个样本被抽中的概率相同,即为nNCnNC110nNC1,12,13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,5特点:总体单元最多只有一次被抽中的机会,且被抽中的机会随抽选的次数增多而增多。放回或不放回简单随机抽样的比较由于放回简单随机抽样的特点,在实际操作中,人们不太可能心甘情愿地用两倍以上的费用去访问同一个单元。因此,不放回简单随机抽样通常比放回简单随机抽样“有效”些,但由于总体单元数多,而抽中的单元数相对较少,有许多事件的概率习性对于放回或不放回两种情况几乎差不多,因而有时候我们常从随机放回这一最简单的形式入手讨论问题,而将有关结果近似地套到随机不放回的情况。本书中简单随机抽样若不特指,一般都是指不放回抽样(无序)。思考:1.下列抽样方式是否属于简单随机抽样方式?为什么?(1)从无限多个个体中抽出500个个体作为样本。(2)箱子里共有100个零件,从中选出10个零件进行质量检验。在抽样操作中,从中任意取一个零件进行质量检验后,再把它放回箱子。2.在简单随机抽样中,某一个个体被抽中的可能性是()。A.与第n次抽样无关,第一次抽中的可能性大些;B.与第n次抽样无关,每次抽中的可能性都相等;C.与第n次抽样无关,最后一次抽中的可能性大些;D.与第n次抽样无关,每次都是等可能抽样,但每次抽中的可能性不一样;答:B简单随机抽样的具体实施方法常用的有抽签法和随机数法两种。(一)抽签法抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。抽签法在技术上十分简单,但在实际应用中,对总体各单元编号并制作号签的工作量可能会很繁重,尤其是当总体容量比较大时,抽签法并不是很方便,而且也往往难以保证做到等概率。因此,实际工作中常常使用随机数法。(二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。由于计算机产生的随机数实际上是伪随机数,不是真正的随机数,特别是直接采用一般现成程序时,产生的随机数往往不能保证其随机性。因此,一般使用随机数表,或用随机数骰子产生的随机数,特别在n比较大时。1、随机数表及其使用方法随机数表是由0到9的10个阿拉伯数字进行随机排列组成的表。所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。在编制时,使用一种特制的电器或用计算机,将0至9的10个数字随机地自动摇出,每个摇出的数字就是一个随机数字。为使用方便,可依其出现的次序,按行或按列分成几位一组进行排列。根据不同的需要,它们所含数字的多少以及分位和排列的方式尽可以不同。目前,世界上已编有许多种随机数表。其中较大的有兰德公司编制,1955年出版的100万数字随机数表,它按五位一组排列,共有20万组;肯德尔和史密斯编制,1938年出版的10万数字随机数表,它也按五位一组排列,共有25000组。我国常用的是中国科学院数学研究所概率统计室编印的《常用数理统计表》中的随机数表。简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:①每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。②设总体容量为N,若N的位数为r,则一定要从r位数中抽取。遇到1至N的数可直接使用;遇到其它的数不能直接使用。③当r≥2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。④在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时,遇到重复的数字应舍去不用。随机数表法一般分下述几步:第一步:确定起点页码,如用笔尖在随机数表上随机指定一点,若落点数字(或距落点最近的数字)为奇数,则确定起点在第1页;否则,起点在第二页。第二步:确定起点的行数与列数,先在表上随机指定一点,由落点处的两位数确定起点的行数。由于每页只有50行,所以当落点处的两位数大于50时,则取其减去50的差数为行数。为保证等概性,当落点处的数为“00”时,则行数应取作50。然后依同样的方法再确定起点的列数。第三步:确定所抽样本单元的号码。从上述确定的起点开始向下(或向右),每次取一个r位数。通常,若所需抽的数是一位数或两位数(即r=1或2),则由起点开始,依次向右抽取较方便,达到该行右端时,从下一行左端开始继续向右抽取;若所需抽的数是三位及以上(即r≥3)则由起点开始依次向下抽取较方便,达到最后一行时,向右移10位(或r位),再从第一行开始向下继续抽取,直到取足所需的n个r位数为止,以这n个r位数所对应的总体单元组成样本。2、随机数骰子及其使用方法随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有0-9的数字各2个。每盒骰子由盒体、盒盖、泡沫塑料垫及若干个(通常是3-6个)不同颜色的骰子组成。使用随机数骰子时可以像普通骰子那样用投掷的方法。但正规的方法是将一个或n个骰子放在盒中,拿去泡沫塑料垫,水平地摇动盒子,使骰子充分旋转,最后打开盒子,读出骰子表示的数字。一个骰子一次产生一个0-9的随机数。要产生一个m位数字的随机数,就需要同时使用m个骰子(事先规定好每种颜色所代表的位数,例如红色表示百位数,蓝色表示十位数,黄色表示个位数等),或将一个骰子使用m次(规定第一次产生的数字为最高位数,最后一次产生的数字为最末位即个位数字等)。特别规定m个骰子的数字(或一个骰子m次产生的数字)都为0时,表示10m。也许有人会认为,在抽样时不用随机数表,而采取随意抽选的办法也可以达到预期的抽样效果。表面上看,这种想法似乎有一定道理,但实际试验的结果证明随意抽样不等于随机抽样。简单随机抽样的方法评估简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。另一方面,因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。因此,实际工作中很少单纯使用简单随机抽样方法。再者,因为直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。此外,简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。因此,在此基础上研究其它抽样技术显得更加重要。符号的表示总体均值总体总值(总体总量)总体比例总体比率(总体比值)指标名称总体样本总量均值比例(成数)比率方差NiiYY1NiiYNY11)10(11或iNiiYYNNAPXYXYXYRNiiNii1122121)(11NNYYNSNiiniiy1niiyny11)10(11或iniiyynnapxyxyRniinii11ˆ212)(11niiyyns2.2简单估计量及其性质2.2.1简单估计量的性质引理2.1从大小为N的总体中抽取一个样本量为n的简单随机样本,则总体中每个特定单元入样的概率为,两个特定单元都入样的概率为。Nn11NNnn一、总体均值的估计1.简单估计及其无偏性:这种估计即是简单估计估计条件下,在没有其他总体信息的N1iin1iiYN1Yyn1yY)y(E1:性质定理2.1对于简单随机抽样,作为的简单估计是无偏的。注意定理可以表示成更