第六章抽样估计.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第六章抽样估计主要内容1.抽样估计概述2.抽样误差3.抽样估计的方法4.样本容量的确定设计抽样方案定义总体及样本选择抽样框选择抽样方法确定样本容量抽样调查的程序进入调查阶段选择抽样框抽样框就是所有总体单位的集合,是总体的数据目录或全部总体单位的名单。根据抽样框可以重新界定总体。如抽样框是电话簿,则家庭成员总体可以被重新界定为列入电话簿中的那部分家庭的成员。抽样框例如:要从商学院的全体学生中抽取500名学生作为调查样本,则商学院全体在校生的名单就是这次抽样的样本框;如果是从该校所有班级中抽取部分班级的全体同学作为调查样本,则此时的抽样框就是全校所有班级的名单,因为此时的抽样单位已经不再是单个的学生,而是单个的班级。注意:一般街道居委名录、企业名录、电话本、花名册、俱乐部名录、黄页簿、工商局企业登记库、行业年鉴等都是市场调查中常用的抽样框。1.抽样估计的概述概念:在抽样调查的基础上,用样本的实际资料计算样本指标,并据此估计和推断总体相应数量特征的一种统计推断方法。特点:随机原则抽取;部分单位推断总体;误差可算可控;基于概率的一种统计推断方法。理论基础:大数法则、中心极限定理大数法则:关于大量的随机现象具有稳定性质的法则。它论证了抽样平均数趋近于总体平均数的趋势,为抽样估计提供了重要的依据。中心极限定理:研究变量和分布序列的极限定理。如果总体变量存在有限的平均数和方差,那么不论这个总体变量分布如何,随着抽样单位数n的增加,抽样平均数的分布将趋近于正态分布。抽样估计中的基本概念(一)总体和样本(二)总体指标和样本指标(三)重复抽样和不重复抽样总体和样本总体:研究现象的全体,由所研究范围内具有某种相同性质的全体单位所组成的整体。通常用N表示。品质标志数量标志总体属性总体变量总体样本(子样):从总体中随机抽取出来,代表总体的那部分单位的集合。样本单位数,又称样本容量,通常用n表示。样本容量如何确定呢?样本容量的确定一般来讲:当n≥30,称为大样本;当n30,称为小样本。样本容量指样本中含有的总体单位的数目,通常用n来表示。确定适当样本容量的意义:若n过大,调查工作量增大,体现不出抽样调查的优越性;若n过小,抽样误差会增大,抽样推断就会失去价值。样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量确定样本容量的意义找出在限定费用范围内的最大样本容量总体指标和样本指标总体指标:根据总体中各单位的标志值或标志属性计算的,反映总体数量特征的综合指标。总体是唯一确定的总体指标的数值也是唯一确定的样本数据(已知)总体指标(未知)抽样估计推断和估计统计推断总体指标:参数(未知量)样本总体指标:统计量(已知量)总体是唯一确定的,样本总体不唯一注意设总体变量X为:X1,X2,X3…,XN,则有:或miiimiiffXX121或对于变量总体,常用的总体指标有总体平均数、总体标准差对于属性总体,最常用的指标是成数。总体成数表示总体中具有某种性质的单位数在总体全部单位数中所占的比重,以P表示;总体中不具有某种性质的单位数在总体全部单位数中所占的比重则以Q表示。设总体N个单位中,有N1个单位具有某种性质,N0个单位不具有某种性质,N1+N0=N,则有:1NPN011NNNQPNN,样本指标:根据样本各单位标志值或标志属性计算的综合指标,也称统计量,它是来估计和推断总体参数的。与总体指标相对应,有样本平均数、样本成数及样本标准差等。设样本变量x的观察值为:x1,x2,…,xn,则:样本平均数:样本标准差:样本方差:样本成数:xxnxfxf22()xxSn22()xxfSf2()xxSn2()xxfSf1npn或或或样本成数的标准差:(1)Spp重复抽样又称作重置抽样、有放回抽样抽出个体登记特征放回总体继续抽取特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进行不重复抽样又被称作不重置抽样、不放回抽样抽出个体登记特征继续抽取特点同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行。是最常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。名称样本总体定义从总体中抽出的部分单位研究对象的全部单位特征统计量参数符号样本容量样本平均数样本比率样本方差样本标准差总体容量总体平均数总体比率总体方差总体标准差2nxpss2PN1.纯随机抽样(简单随机抽样)对总体不做任何分类或排序,完全按随机原则抽样。适用范围:总体规模不大,内部差异较小。例:一个班组有A、B、C、D、E5个工人,随机抽取2个工人的日工资数作为了解整个班组平均工资水平的样本。可能的结果是有放回抽样:25个样本不放回抽样:20个样本随机抽样设计样本号ABCDEABCDE2.等距抽样(机械抽样或系统抽样)将总体按某一标志值顺序排列,然后相等距离或相等间隔抽取样本单位。间隔距离:N:总体单位数n:需要抽取的样本单位数例:从某企业5000名职工中抽取100人进行家庭收入水平调查。样本的距离=起点的选择:按姓氏排序,在第一个间隔中随机选取。knN排序标志无关标志有关标志501005000优点:1.能保证被抽取的单位在总体中均匀分布2.能使抽样过程简化应用中的注意事项:注意抽样间隔或样本距离和现象本身的节奏性和循环周期相重合的问题3.类型抽样(分类抽样或分层抽样)先将总体中的所有单位按某个标志分组,然后从各组按纯随机抽样或等距抽样方式抽样。采用这种方法,由于各单位之间的差异因划类或分层而缩小,这就比较容易选出有代表性的样本适用范围:总体情况复杂,各类型或层次之间的差异较大而总体容量又较大。优点:比简单纯随机抽样更精确,能以较少的抽样单位数得到较准确的推断结果。特别是当总体各单位变量值大小悬殊、各组标志变动程度很大时,划分类型能保证各组都有选中的机会。•类型抽样分类类型比例抽样:按统一的比例来确定各类型组应抽选的样本单位数,即各类型中抽取的样本单位数占各类型组所有单位数的比例是相等的,等同于样本单位总数n占总体单位数N的比例类型适宜抽样:考虑各类型标志变动程度不同,变动程度大的组要多抽样,变动程度小的类型组可少抽样,使得各类型组的变动程度在所有类型变动程度之和中的比例相同,等同于或NnNnNnNnkk2211i1kiiiNnniNNiiniN1iiikiiinNnN例:某项粮食播种面积20000亩,其中有平原和山区两种地形。以类型抽样的方法了解平均粮食产量。地形全部面积(Ni)样本面积(ni)平原山区140006000合计20000总体N比例抽样适宜抽样N1N2N3n1n2n3nNNni1nNNniiii1类型抽样确定各组样本的方法:4.整群抽样将总体按某个标志分为多个群,按纯随机抽样方式或等距抽样方式,抽取若干群,然后对所抽中的各群中的全部单位一一进行调查。适宜范围:不适合单个抽样的场合,就可采用整群抽样方式。优缺点:调查方便,但抽样误差较大。例:从某县100个村中抽出10个村,进行全面调查,就可以大致了解农村家庭副业发展情况。总群数R=13CDGK样本数r=4样本容量n=nc+nd+ng+nkADCFGHIJKLMBE5.多阶段抽样总体包含的单位很多,分布很广,要通过一次抽样抽选样本很困难,此时,可以将其分成若干阶段,然后逐阶段进行抽样,以完成整个抽样过程。特点:多个阶段、多种方法综合抽样,优点是降低抽样成本。例:对某山区的林采蓄积量作抽样调查。将总体50块面积相等的地划为10个区,每个区包括5个地块。采用两阶段抽样,先从10个区选中30%,再从选中的区域中抽取60%的地块组成样本进行调查。2.抽样误差抽样误差地概念抽样误差的侧度----指所选取的样本的结果不能完全代表总体而导致的误差。抽样误差登记误差误差系统性误差代表性误差随机误差误差种类样本单位的结构与总体单位结构分布不一致而产生的误差。三种误差的区别:登记误差:由于人的主观失误在观察、登记、计算时造成的误差,可以避免。系统性误差:由于有意识选取调查单位造成的系统偏差,理论上可以避免。随机误差:由于按照随机原则抽取样本而产生的误差,无法避免但可以控制。因此:理论上讲,抽样误差一般指随机误差,而不包括登记性误差和系统性偏差。影响抽样误差的因素总体各单位的差异程度:标准差越大,抽样误差越大;样本单位数的多少:n越大,抽样误差越小;抽样方法:不重复抽样比重复抽样小;抽样组织方式:简单随机抽样最大。抽样误差的侧度(一)抽样实际误差(二)抽样平均误差(三)抽样极限误差抽样实际误差在一次具体的抽样调查中,由随机因素引起的样本指标与总体指标之间的离差。抽样实际误差是无法计算的。同时,抽样实际误差仅仅是一系列可能出现的误差数值之一,因此,抽样实际误差没有概括所有可能产生的抽样误差。抽样平均误差反映抽样误差一般水平的一个指标。是指抽样平均数的标准差或抽样成数的标准差。设以表示样本平均数的抽样平均误差,以表示样本成数的抽样平均误差,M表示全部可能的样本数目,则有:2()xxXMx2()PpPMP(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第个观察值16个样本的均值(x)X样本均值的抽样分布1.00.1.2.3P(X)1.53.04.03.52.02.5(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5X5.2X625.02X在实际抽样调查中,总体单位数N常常很大,样本单位数n一般也不小于30,由此产生的所有样本数目是极大的,不可能抽完所有可能的样本;同时,在开展抽样调查之前,总体指标是未知的。因此,实际工作中,定义式缺乏可操作性。抽样平均误差1.平均数的抽样平均误差(1)在简单随机重复抽样条件下:式中:代表总体标准差,n代表样本单位数。(2)在简单随机不重复抽样条件下:2x==nn2xn=nN-()N-1修正因子1故不重复抽样的抽样平均误差总是小于重复抽样的抽样平均误差。当总体单位数N足够大的情况下,不重复抽样的抽样平均误差可以采用其近似公式计算:2xn=-n(1)N2.成数的抽样平均误差(1)在简单随机重复抽样条件下:(2)在简单随机不重复抽样条件下:p(1)=PPnp(1)=(1)PPnnN上述公式中计算时需要注意:公式中的参数都是总体指标,在实际应用中,选取的抽样估计方法。第一,在大样本下,可用样本的标准差S代表总体标准差,用样本成数p代表总体成数P;小样本下,总体标准差用修正的样本标准差S*代替,其计算公式为:21()*11niixxnSSnn第二,若过去进行过同样的调查,可用过去的总体标准差代替现在的总体标准差,用过去的总体成数P代替现在的总体成数P.抽样极限误差由于抽样

1 / 123
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功