统计学第6章 抽样推断

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第六章抽样推断第六章抽样推断§1抽样推断及有关概念§2抽样误差§3抽样估计和推算§4抽样推断的组织形式第一节抽样推断及有关概念一、抽样推断的意义、内容(一)概念按照随机原则从总体中抽取一部分单位进行观察,并根据被抽取的那部分单位的结果,对总体作出具有一定可靠程度的推断。(二)特点1、按照随机原则抽取部分单位,抽样推断运用概率估计的方法。2、部分单位总体。3、抽样误差可以计算和控制。统计推断的过程总体样本样本统计量例如:样本均值、比例、方差(三)抽样推断的内容参数估计依据所获得的样本观察资料,对所研究现象总体的水平、结构、规模等数量特征进行估计。假设检验利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。二、抽样推断的作用抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。建立起以周期性普查为基础、经常性抽样调查为主体,必要的统计报表、重点调查、综合分析等为补充的国家统计调查方法体系,是我国统计方法制度改革的指导思想。1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;2.虽可进行全面调查观察,但比较困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。一般适用:三、抽样推断的基本概念(一)全及总体和抽样总体(总体和样本)全及总体:所要调查观察的全部事物。总体单位数用N表示。抽样总体:抽取出来调查观察的单位。抽样总体的单位数用n表示。n≥30大样本n30小样本(二)抽样方法1、重复抽样:2、不重复抽样:1N1111......12NNNNn、、重复抽样和不重复抽样会产生三个差别:抽取的样本数目不同抽样误差的计算公式不同抽样误差的大小不同(三)参数和统计量(全及指标和抽样指标、总体指标和样本指标)全及指标:全及总体的那些指标。抽样指标:抽样总体的那些指标。研究总体中的数量标志总体平均数总体方差X=∑XNX=∑XF∑FΣ(X-X)N2σ=2Σ(X-X)FΣF2σ=2研究总体中的品质标志总体成数成数方差σ2=P(1-P)P=N1N参数研究数量标志样本平均数x=∑xnx=∑xf∑f样本方差22()xxsn22()xxfsf研究品质标志样本成数成数方差np=n2(1)spp统计量(四)抽样框——即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框),它是设计和实施随机抽样所必备的基础条件。(五)样本容量——指一个样本所包括的单位数。(六)抽样比例——抽样比例是指在抽取样本时,所抽取的样本单位数与总体单位数之比。(七)样本个数——指从总体中可能抽取的最多的样本数量。1、重复抽样:2、不重复抽样:n(1)考虑顺序:M=N(2)不考虑顺序:M=(N+n-1)!n!(N-1)!(1)考虑顺序:M=(2)不考虑顺序:M=N!(N-n)!N!n!(N-n)!考虑顺序不考虑顺序不重复抽样重复抽样!()!nNNANnnnNBN!!()!nNNCnNn(1)!!(1)!nnNNNnDDnN可能样本数目的计算公式置信度也称为可靠度,或置信水平、置信系数。即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。(八)置信度第二节抽样误差一、抽样误差的概念及种类在抽样调查中,总体指标与样本指标不一致,两者的偏差称为抽样误差。-X抽样误差就是指样本指标和总体指标之间数量上的差别,即、p-P。抽样误差即指随机误差,这是抽样调查固有的误差,是无法避免的。登记误差系统性误差统计误差代表性误差抽样实际误差随机误差抽样平均误差抽样误差的作用:1.在于说明样本指标的代表性大小。误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。2.说明样本指标和总体指标相差的一般范围。二、抽样平均误差(一)概念抽样平均误差是所有可能出现的样本指标的标准差。反映样本指标与总体指标之间误差的一般水平。通常用μ表示。即是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。(二)理论公式22()()xpMMxXpP21020304050X30()525()五户家庭三月份购买福利彩票的支出:元,元,元,元,元元现从五户中抽取二户作调查,如果为重复抽样考虑顺序=种排列组合如下:例1010102010301040105020102020203020402050301030203030抽取样本抽取样本304030504010402040304040405050105020503050405050合计101010-20400102015-15225103020-10100104025-52510503000201015-15225202020-10100203025-52520403000205035525301020-10100302025-52530303000x样本平均数xX误差2xX抽取样本x样本平均数xX误差2xX抽取样本30403552530504010100401025-52540203000403035525404040101004050451522550103000502035525503040101005040451522550505020400合计--25002()250010()25xMxX元(三)实际计算公式(以纯随机抽样为例)x2n1.重复抽样pp(1p)n2.不重复抽样pp(1p)n(1)nN2xn(1)nN某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时,根据以往资料σ=20小时,试求抽样平均误差。例x22202n100(小时)2x2n(1)nN20100(1)1.99(10010000小时)重复抽样:不重复抽样:14798%150(1)0.98(10.98)1.14%150ppppn某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方法从中抽取150只进行质量检验,有147只合格,试求这批印花玻璃杯合格率的抽样平均误差。例(1)0.98(10.98)150(1)(1)1.1374%15015000pppnnN若按不重复抽样方式:(四)抽样误差的影响因素:4.不同的抽样组织形式。1.全及总体标志变异程度。2.抽样单位数目的多少。3.不同的抽样方法。例:假定抽样单位数增加2倍、0.5倍时,其他条件不变,抽样平均误差怎样变化?解:抽样单位数增加2倍,即为原来的3倍抽样单位数增加0.5倍,即为原来的1.5倍577.0313nx8165.05.115.1nx即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。例:假定抽样平均误差缩小40%时,其他条件不变,抽样单位数怎样变化?解:抽样平均误差缩小40%时,即为原来的60%,2.78()0.6xn倍即:当抽样平均误差缩小40%时,样本单位数增加1.78倍。第三节抽样估计和推算一、统计量选择的优良性标准(三)有效性(一)无偏性(二)一致性无偏性估计量的数学期望等于被估计的总体参数P(X)XCA无偏有偏一致性随着样本容量的增大,估计量越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P(X)X有效性AB中位数的抽样分布均值的抽样分布XP(X)一个方差较小的无偏估计量称为一个更有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量二、抽样极限误差样本指标与总体指标之间允许的误差范围叫抽样极限误差。也称抽样允许误差。它是样本指标可允许变动的上限或下限与总体指标之差的绝对值。即:xpXpP根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:△=tμ,(t为概率度)当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);例可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。落在总体均值某一区间内的样本X95.45%的样本99.73%的样本x-368.27%的样本x-2x-X+3X+2X+x上例资料编成次数分配表如下:x样本数f101-20152-15203-10254-530503545403104521550120合计25-xX-30样本个数样本频率样本累计频率050.200.20580.320.521060.240.761540.160.922020.081.00合计251.00—xxtu)F(t)110)76%0.510)52%1.510)92%P(xXP(x30P(x30P(x30(一)点估计三、点估计和区间估计xXpP是由样本指标直接代替全及指标,不考虑任何抽样误差因素。即用直接代表,用直接代表。就(定值估计)100x1002p98%X1002P98%在全部产品中,抽取件进行仔细检查,得到平均重量克,合格率,我们直接推断全部产品的平均重量克,合格率。例(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,并能反映出估计的准确程度和把握程度。由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。就是说,推断全及指标在这个范围内只有一定的把握程度。用数学的语言讲,就是有一定的概率。xpXpPxxppF(t)XpPp()()t在概率的保证下:即:全及平均数成数抽样平均数成数2xxxXpppPxxXpppPp2212100(1)(1)1.19()10010000xnnN千克某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。试以概率95.45%保证,估计该农场10000亩小麦平均亩产量的可能范围。例x21.192.38()xt千克xxxXx400-2.38397.624002.38402.38()95.45%XXFt22xxx99.73%12100(1)(1)1.19()1001000031.193.57()400-3.574003.57396.43403.57()99.73%xxnnNtxXxXXFt若以概率保证,千克千克某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。试以概率95.45%保证,估计该农场10000亩小麦平均亩产量的可能范围。则:例380100%95%400p某机械厂日产某种产品8000件,现采用纯随机重复抽样方式,从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度

1 / 105
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功