管理统计学第06章抽样与抽样分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

管理统计学毕德春辽东学院信息技术学院第6章抽样与抽样分布第1节抽样方法第6章第1节抽样方法关于抽样的基础概念1总体(population)所研究的全部个体(数据)的集合,其中的每一个元素称为个体,总体中所包含的元素数量多少称为总体容量,用N表示。有限总体有限总体的范围能够明确确定,且元素的数目是有限的1无限总体无限总体所包括的元素是无限的,不可数的2第6章第1节抽样方法关于抽样的基础概念1什么才是好的抽样?有足够的代表性符合统计学基本原理具有充分的可操作性有效率的实施/执行中的偏差越小越好从理论上讲,样本数越大,抽样误差越小,结果的代表性越好。但是,同时考虑费用和时间因素,大样本量不一定是最有效率的办法。在随机抽样条件下,不同样本规模的抽样误差如下:第6章第1节抽样方法关于抽样的基础概念1样本量的选取置信度样本量80%90%95%99%1505.23%6.72%8.00%10.52%2004.53%5.82%6.93%9.11%2504.05%5.20%6.20%8.15%3003.70%4.75%5.66%7.44%5002.87%3.68%4.38%5.76%样本(sample)从总体中抽取的一部分元素的集合,构成样本的元素数目称为样本容量,用n表示。第6章第1节抽样方法关于抽样的基础概念1=30小样本30大样本参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值,所关心的参数主要有总体均值()、标准差()、总体比例()等,总体参数通常用希腊字母表示。第6章第1节抽样方法关于抽样的基础概念1πμσ总体均值标准差总体比例统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数,所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等,样本统计量通常用小写英文字母表示。第6章第1节抽样方法关于抽样的基础概念1pxs样本均值样本标准差样本比例总体参数样本统计量第6章第1节抽样方法关于抽样的基础概念1抽样推断的过程抽样方法概率抽样非概率抽样多阶段抽样整群抽样系统抽样自愿抽样配额抽样简单随机抽样分层抽样方便抽样判断抽样滚雪球抽样抽样第6章第1节抽样方法关于抽样的方法2第6章第1节抽样方法关于抽样的方法2概率抽样非概率抽样概率抽样也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知。不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样单个单位被选中的概率是不可知的简单随机抽样(SimpleRandomSampling)也称纯随机抽样。直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。可分为有放回和无放回两种方式。是最基本的抽样方法,许多抽样方法都是在它的基础上发展起来的。其数学性质简单,理论也最为成熟。第6章第1节抽样方法关于抽样的方法2整群抽样(ClusterSampling)先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位。按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式。总体分成4个群随机选择2个群构成样本第6章第1节抽样方法关于抽样的方法2多阶段抽样先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,……如此下去直至抽取所要调查的基本单位的抽样方法。例:[统计年鉴2004指出]2003年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、等距、整群抽样方法,在全国31个省、自治区、直辖市抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人。第6章第1节抽样方法关于抽样的方法2分层抽样(StratifiedSampling)也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。男生女生样本第6章第1节抽样方法关于抽样的方法2例:一个单位的职工有500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取?第6章第1节抽样方法关于抽样的方法2分析:这总体具有某些特征,它可以分成几个不同的部分:不到35岁;35~49岁;50岁以上,把每一部分称为一个层,因此该总体可以分为3个层。由于抽取的样本为100,所以必须确定每一层的比例,在每一个层中实行简单随机抽样。解:抽取人数与职工总数的比是100:500=1:5,则各年龄段(层)的职工人数依次是125:280:95=25:56:19,然后分别在各年龄段(层)运用简单随机抽样方法抽取。答:在分层抽样时,不到35岁、35~49岁、50岁以上的三个年龄段分别抽取25人、56人和19人。第6章第1节抽样方法关于抽样的方法219系统抽样也称等距抽样(SystematicSampling)将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。直线等距抽样:将总体分成n个组,每组有k=N/n个单位。在第一组随机选择一个单位,之后每隔k个选择一个。N=64n=8k=8第一组第6章第1节抽样方法关于抽样的方法2例:一个礼堂有30排座位,每排有40个座位。一次报告会礼堂坐满了听众。会后为听取意见留下了座位号为20的30名听众进行座谈。这里选用了哪种抽取样本的方法?写出抽取过程。第6章第1节抽样方法关于抽样的方法2由于每排的座位有40个,各排每个号码被抽取的概率都是,第1排被抽取前,其他各排中各号码被抽取哪率也是,也就是说被抽取的概率是,每排的抽样也是简单随机抽样,因此这种抽样的方法是系统抽样。401401401方便抽样(Conveniencesampling)纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题。又称便利抽样、偶遇抽样。例:在街头的拦截式访问。登在报刊、网上的问卷。第6章第1节抽样方法关于抽样的方法2判断抽样(JudgmentSampling)调查者根据主观经验和判断从总体中选取有代表性的单位构成样本。精度取决于抽样者的经验。不能获得估计值的精度。适用于总体单位极不相同而样本容量又很小的情况第6章第1节抽样方法关于抽样的方法2配额抽样(Quotasampling)是非随机抽样方法中最常用的一种抽样方法。分为两个步骤:根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额;然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位。问题:与分层抽样的区别?第6章第1节抽样方法关于抽样的方法2雪球抽样也译为滚雪球抽样(SnowballSampling)其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止。主要用于对稀少群体的调查。例:某研究部门在调查保姆问题时,先访问了7名保姆,然后再请她们提供其他保姆名单,逐步扩大到近百人。第6章第1节抽样方法关于抽样的方法2在下列问题中,各采用什么抽样方法抽取样本较合适?从20台电脑中抽取4台进行质量检测;从2004名同学中,抽取一个容量为20的样本某中学有180名教工,其中业务人员136名,管理人员20名,后勤人员24名,从中抽取一个容量为15的样本。简单抽样系统抽样分层抽样第6章第1节抽样方法关于抽样的方法2抽样调查中的误差抽样误差非抽样误差计量误差抽样框误差无回答误差第6章第1节抽样方法抽样调查中的误差3误差是指估计值与真实值之间的差异。抽样误差(Samplingerror):由于抽选样本的随机性造成的误差,也称为代表性误差。样本只是总体的一部分,它对总体的代表性存在局限性,从而会造成误差。在抽样调查中,抽样误差就不可避免。在概率抽样中抽样误差是能够计量且可以得到控制的。影响抽样误差的主要因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法等。第6章第1节抽样方法抽样调查中的误差3非抽样误差(Nonsamplingerror)除抽样误差以外的所有误差。通常认为是由于调查程序执行中的错误与不足引起的。主要包括抽样框误差、无回答误差和计量误差。国内也称为“工作误差”或“调查误差”。第6章第1节抽样方法抽样调查中的误差3在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位(Samplingunit)。抽样单位可以是一个总体单位,也可以包含多个个体。抽样单位的名单称为抽样框(SamplingFrame)。抽样框应尽可能与目标总体相一致。例如名单抽样框、区域抽样框、时间表抽样框。第6章第1节抽样方法抽样调查中的误差3大学学生花名册、城市黄页里的电话列表、工商企业名录、街道派出所里居民户籍册、意向购房人信息册……。例:要从10000名职工中抽出200名组成一个样本,抽样框是什么?10000名职工的名册第6章第1节抽样方法抽样调查中的误差3抽样框误差(samplingframeerror,CoverageError)当目标总体与抽样框所涵盖的元素不一致时,就会产生抽样误差。抽样框误差包括:丢失目标总体单位、包含非目标总体单位,复合连接等。第6章第1节抽样方法抽样调查中的误差3案例:《文学摘要》民意测验1936年美国总统选举F.D.Roosevelt(罗斯福)任美国总统的第一任期届满(民主党)A.Landon(兰登)Kansas州州长(共和党)经济背景:国家正努力从大萧条中恢复,失业人数高达九百万人。TheliteraryDigest《文学摘要》进行民意测验,将问卷邮寄给一千万人,他们的名字和地址摘自电话簿或俱乐部会员名册。其中240万人寄回答案(回收率24%)。预测结果:Roosevelt43%,Landon57%竞选结果:Roosevelt62%,Landon38%主要原因:选择偏倚——将一类人排除在外(当时四个家庭中,只有一家安装电话)不回答偏倚——低收入和高收入的人倾向不回答抽样总体目标总体第6章第1节抽样方法抽样调查中的误差31936年美国总统竞选(Gallup的预测)样本容量3000人,在《摘要》公布其预测结果之前,仅以一个百分位数的误差预言了《摘要》的预测结果。方法:从《摘要》要用的名单中随机选取3000人,并给他们每人寄去一张明信片,询问他们打算怎样投票。大样本并不能防止偏倚:当抽样框不正确时,抽取一个大的样本并无帮助,它只不过是在较大的规模下,去重复基本错误。利用一个约5万人的样本,正确地预测了Roosevelt的胜利。Roosevelt的百分数盖洛普预言《摘要》的预测结果44《摘要》预测的选举结果43Roosevelt的百分数盖洛普预测的选举结果56选举结果62第6章第1节抽样方法抽样调查中的误差3无回答误差(NonresponseError)因缺失部分指定样本单位的数据或调查问卷中的部分数据项而引起的误差都称为无回答误差。样本个体拒绝访问样本个体无法接受访问样本个体拒绝回答部分问题第6章第1节抽样方法抽样调查中的误差3计量误差(MeasurementError)是指调查中获得的数据与调查项目真实值之间不一致而产生的误差,也称为登记性误差。测量工具不准确调查员的工作失误(如计量错误、计算错误、记录错误等)被调查者没有提供真实情况第6章第1节抽样方法抽样调查中的误差3第2节样本均值的分布与中心极限定理总体分布(populationdistribution)总体中各元素的观察值所形成的分布。分布通常是未知的可以假定它服从某种分布总体第6章第2节样本均值的分布与中心极限定理样本均值的分布1样本分布(sampledistribution)一个样本中各观察值的分布,也称经验分布,是指当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。样本第6章第2节样本均值的分布与中心极限定理样本均值的分布1抽样分布(SamplingDistribtuion)按照简单随机抽样方法,从个数

1 / 82
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功