89第6章有限总体概率抽样教学目的与要求:通过本章教学,使学生了解怎样从有限总体中做概率抽样,并知道有限总体概率样本可有用于推断两种用途以及后者的近似性,掌握用有限总体简单随机个体样本估计有限总体指标的计算方法。重点与难点:1.有限总体概率抽样的概念和作法2.总体概率抽样和非概率抽样的区别3.有限总体概率抽样和无限总体抽样的区别4.有限总体概率抽样的两种目的5.有限总体概率抽样的若干基本概念6.用有限总体简单随机个体样本估计总体均值、总值、比例以及与比例相应的单位数目§6.1有限总体概率抽样的一般问题一、有限总体概率抽样的概念和作法(一)什么是有限总体概率抽样对有限总体的每一次观察(每一次抽取)都是一次随机试验,并且有和总体相同的分布,按这样的要求对总体观测(抽取)n次的抽样行为,称作容量为n的概率样本。(二)概率抽样的作法对有限总体作概率抽样要求作到:对于每一次抽取行为都应精心组织,使得此时尚留在总体中的所有单位都有可能被抽到,并且有确定的、不等于0的被抽到的概率。满足上述要求的从有限总体中抽取单位的概率抽样方式,常见的有三种:简单随机抽样、不等概率抽样、等距抽样。1.简单随机抽样抽取单位时,把总体中的单位充分混匀,等概率地从中抽出一个单位。常用的操作方法是:列出总体全部单位的完整名单(这个名单叫作抽样框),在抽样框中将总体单位编号,然后读随机数表(见附录6),从数表的任意位置开始向任意方向逐一读数,当读到属于总体单位编号范围内的数字时,相应的单位便进入样本。若需要继续抽取单位,便继续读随机数表。2.不等概率抽样抽取单位时,使得总体中的各单位进入样本的概率与它的大小成比例。常用的操作方法是:首先编制总体单位的完整名单(抽样框),在抽样框中将每个单位的名称及表示其大小的标志值列示出来,然后把这些标志值都按比例换算成用整数表示。再将这些数值逐次累计。3.等距抽样首先编制总体单位的完整名单(抽样框),在抽样框中将每个单位的名称和准备用来对单位排队的某种标志的标志值列示出来。然后,把总体单位按该标志的标志值顺序重新排队。对于排好队的总体按一定的距离把这些单位分段。在第一段简单随机抽出一单位,接着,从此单位开始,按上述距离找出第二、第三等等须进入样本的单位。简单随机抽样和不等概率抽样各自可实行放回和不放回两种作法。二、有限总体概率抽样的目的抽取有限总体概率样本的目的有两个:一是作为描述性调查,描述有限总体的现实状态;二是作为分析性调查,认识作为有限总体的母体的无限总体(参见§5.4)的统计规律(这90里包括对无限总体作参数估计和对无限总体作显著性检验)。三、有限总体概率抽样的若干基本概念(一)总体在概率抽样中,被观测的标志所组成的总体。(二)样本对有限总体进行了n次随机试验,便可写出n个随机变量:y1,y2,…,yn,把这n个随机变量叫作“容量为n的概率样本”。(三)样本统计量概率样本(y1,y2,…,yn)的函数T=f(y1,y2,…,yn)叫作样本统计量。如,niyTi1,yniynTiˆ11,22ˆ1)(11sniyynTi等等,都是样本统计量。样本统计量简称作统计量。由于y1,y2,…,yn是随机变量,因此,作为它们的函数的样本统计量也是随机变量。既然是随机变量,便同其他随机变量一样,我们也常常关心它的分布,数学期望和方差。(四)估计量用适当的样本统计量作为对有限总体指标的估计,这样的样本统计量叫作估计量。用样本值计算得到的估计量的具体数值叫估计值。一个估计量其实就是某一个样本统计量。所以,它也是随机变量。它的分布、数学期望、方差与相应的样本统计量相同。(五)估计量的偏倚情况估计量是否有偏倚,是看估计量的数学期望是否等于被估计的总体指标。如果二者相等,称估计量是被估计的总体指标的无偏估计量;如果二者不相等,称估计量是被估计的总体指标的有偏估计量。估计量的数学期望与被估计的总体指标真值之差称作偏差。无偏估计量的偏差是0,有偏估计量的偏差不是0。构造样本统计量作为Y的估计量。Y的估计量写作Yˆ。假若用样本均值y(统计量)来充当估计量Yˆ,那就是niynyYi11ˆ(6.1)(六)估计量的精度估计量的精度是指在反复进行的抽样中所有可能产生的估计值散布的集中或分散程度。这些估计值散布得越集中,我们说估计量的精度越高。显然,估计量的精度要用估计量的方差来描述。用估计量Yˆ为代表,写出估计量的方差的定义V(Yˆ)=E[Yˆ–E(Yˆ)]2(6.2)方差的平方根叫估计量的标准误差(标准误)记作σ(Yˆ)。在抽样实践中,对于每一个估计量,都应在算出估计值的同时,把它的方差也算出来。因为,方差说明了估计值的数据质量。估计量的方差小(精度高),说明所有可能出现的估计值散布很集中;反之,如果估计量的方差大(精度低),说明可能出现的各个估计值散布很分散。显然,前者估计值数据可信度高,后者估计值数据可信度低。计算估计量的方差还有另外一个理由。91(七)估计量的准确度估计量的准确度与它的偏差有关。估计值散布得越集中,它的准确度越高。用估计量的均方误差(MSE)来描述估计量的准确度。估计量的均方误差定义为MSE(Yˆ)=E(Yˆ–Y)2(6.3)均方误差恰好可以分解成估计值的散布状况(用估计量的方差描述)和估计量的偏差两部分MSE(Yˆ)=E(Yˆ–Y)2=E{[Yˆ–E(Yˆ)]+[E(Yˆ)–Y]}2=E[Yˆ–E(Yˆ)]2+[E(Yˆ)–Y]]2+2[E(Yˆ)–Y]E[Yˆ–E(Yˆ)]由于E(Yˆ)–Y=0,所以叉积项为0,于是得到MSE(Yˆ)=(Yˆ的方差)+(偏差)2(6.4)均方误差的平方根叫均方根误差。(八)估计的表达方式用样本资料估计有限总体的指标有点估计和区间估计两种表达方式。点估计:用估计量及其观察值(估计值)来表达对总体指标的估计。作点估计时,必须同时计算估计量的方差(或标准误)。区间估计:用一个取值区间来表达对总体指标的估计。这个数值区间叫作置信区间,区间的两个端点分别叫作置信下限和置信上限。这个区间把总体指标包含在内的概率叫置信概率。作区间估计时,要在给出置信区间的同时给出置信概率(点估计的置信概率为0)。作区间估计须知道估计量的分布规律。如果估计量近似服从正态分布,那末置信区间和置信概率可用式(6.5)和表6.6确定。标准误估计量置信上限标准误估计量置信上限zz::(6.5)即,根据作区间估计时所提出的对置信概率的要求,由下表给出的关系确定式(6.5)中的系数z(称作临界值)。标准正态分布常用置信概率和临界值临界值z置信概率11.96230.68270.95000.95450.9973这个表是根据附录1表2制作的。§6.2有限总体简单随机个体样本对总体指标的估计我们只介绍对有限总体以个体为抽样单位的简单随机不放回抽样方式抽取样本情形下的估计问题。今后若无特别的说明,所说的简单随机抽样都是指的不放回情形。一、总体均值和总体总值的估计(一)总体总值和总体均值的定义92设总体有N个单位,标志值为y1,y2,…,yN。总体总值(记作Y)定义为NiiyY1(6.6)总体均值(记作Y)定义为NiiyNY11(6.7)显然,总体总值与总体均值之间有下列关系YNY(6.8)(二)总体均值的估计估计量niiynyY11ˆ(6.9)可以证明,由式(6.9)构造的估计量Yˆ是Y的无偏估计量。估计量的方差)1()()ˆ(2NnnSyVYV(6.10)式中NiiYyNS122)(11(6.11)可以证明,由式(6.10)给出的估计量Yˆ的方差同式(6.2)所规定的估计量的方差的定义是等价的。估计量的估计方差)1()()ˆ(2NnnsyY(6.12)式中,s2是样本方差。它的定义及便于计算的表达式为niiyyns122)(11niiyyn12)(11(6.13)可以证明,s2是S2的无偏估计量,因而,由式(6.12)构造的估计方差)ˆ(Y是方差V(Yˆ)的无偏估计量。(三)总体总值的估计估计量niiynNY11ˆ(6.14)显然,由式(6.14)构造的估计量Yˆ是Y的无偏估计量。估计量的方差)1()()ˆ(222NnnSNyVNYV(6.15)式中,S2由式(6.11)定义。93估计量的估计方差同理有)1()()ˆ(222NnnsNyNY(6.16)式中,s2由式(6.13)定义。(四)估计量的分布规律如果Yˆ和Yˆ接近正态分布,可以用式(6.5)和表6.6作区间估计。这时,式(6.5)中的“标准误”应当取用式(6.10)和式(6.15)即V(Yˆ)和V(Yˆ)的平方根。假若改用式(6.12)和式(6.16)即)ˆ(Y和)ˆ(Y的平方根,则式(6.5)中的临界值z要改用自由度为n–1的t–分布双尾面积为(1–置信概率)=时的临界值2/t(n–1),只有当n≥30时,t–分布近似成为标准正态分布,在式(6.5)中才能近似使用临界值z。二、总体比例和相应单位数目的估计(一)总体比例和相应单位数目的定义设总体有N个单位,划分为C和C'两类,C类单位数目为A,C'类单位数目为A',A+A'=N。C类单位的总体比例P定义为NAP(6.17)C类单位数目A和比例P的关系是A=NP(6.18)(二)总体C类比例的估计估计量pnaynyYPniiˆ1ˆˆ1(6.19)式中,由式(6.19)构造的估计量Pˆ是P的无偏估计量。估计量的方差仿照式(6.10)写出)1()()ˆ()()ˆ(2NnnSyVYVpVPV(6.20)式中2S)1(1PPNN(6.21)式(6.20)又可写作)1()1(1)ˆ()()ˆ(NnnPPNNYVpVPV(6.22)估计量的估计方差仿照式(6.12)写出94)1()()ˆ()ˆ(2NnnsyYP(6.23)式中2s)1(1ppnn(6.24)因此,式(6.23)又可写作)1()1(1)()ˆ(NnnppnnpP)1(1)1(Nnnpp(6.25)(三)总体中C类单位数目的估计依据式(6.18)的关系,只要把Pˆ乘以N,把V(Pˆ),(Pˆ)乘以N2便得到Aˆ)ˆ(),ˆ(AAV。估计量naNNpPNAˆˆ(6.26)估计量的方差)1()1(1)ˆ(2NnnPPNNNAV(6.27)估计量的估计方差)1(1)1()ˆ(2NnnppNA(6.28)(四)估计量的分布规律“大样本”的标准是:(1)样本容量n至少是30;(2)样本容量大到足以使x和y的离散系数都小于0.1。§6.3关于用有限总体概率样本作无限总体推断的一个说明对无限总体的推断,可以用从无限总体直接抽取的随机样本来作,也可以用从有限总体中抽取的概率样本来作。无限总体随机样本的标准无限总体的随机样本也叫做无限总体的简单随机样本,它应当满足如下两个标准:ⅰ)代表性:要求样本的每个分量iX与所考察的母体(随机变量X)具有相同的分布;ⅱ)独立性:nXXX,,,21为相互独立的随机变量,也就是说,每个观察结果既不影响其它观察的统计规律,它自己的统计规律也不受其它观察结果的影响。一、对无限总体的统计推断95对无限总体的统计推断包括参数估计和显著性检验两部分内容。1.无限总体均值的估计设随机变量X的均值、方差未知,现从中抽取简单随机样本nxxx,,,21,于是,随机变量X的均值(期望值)的估计量为niixnx11ˆ(6.29)估计量的估计方差为nsx2)()ˆ((6.30)式中niixxns122)(11(6.31)若X的分布偏斜得不很厉害,统计量nsxt/2(6.32)近似服从自由度为1n的_t分布。当_t分布的自由度足够大时(大于等于30),_t分布与标准正态分布已很接近,这时可查正态分布表作区间估计。即,1,30的时n的置信区间