统计学-数据的收集与整理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据的收集、整理1.理解数据的来源,理解五种统计调查方式,掌握五种概率抽样方法的定义,理解五种统计调查方法.理解抽样误差的定义,了解非抽样误差.会撰写统计调查方案。2.了解统计整理的概念;了解统计分组的定义、作用,理解统计分组的原则、种类;掌握组距数列的编制步骤;掌握洛伦兹曲线和基尼系数的含义与用途.3.准确应用统计图和统计表显示统计数据的数量特征.学习目标内容安排一、数据的收集二、数据的整理三、统计表与统计图数据的收集统计资料收集是根据统计研究的目的要求,采用一定组织形式与科学方法,进行采集与研究问题有关的各类信息资料的工作过程。1.数据的来源(1)第一手数据(2)第二手数据第一手数据是反映被调查对象原始状况的资料,如原始记录、统计台账、调查问卷答案、实验结果等.统计调查或进行实验是数据的直接来源.原始数据是统计数据的最基本的来源.第二手数据是已经存在的经他人整理分析过的资料.数据的间接来源常用的有以下一些:①公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校和科研机构.②尚未公开发表的数据,如各企业的经营报表数据.使用第二手数据需要注意的问题•应注意数据的含义、计算口径和计算方法,避免误用或滥用;•注意第二手数据的时间性,不能用过时的数据;•应充分搞清这些数据的来源和可靠程度;•应注明数据的出处,以尊重他人的劳动成果.2.统计调查(1)统计调查方案设计(2)统计调查方法(3)统计调查的组织方式确定调查目的与任务确定调查对象和调查单位确定调查项目和调查表确定调查时间和调查期限制定调查工作的组织实施计划统计调查方案统计调查方法1.现场观察法2.报告法3.问卷法4.访谈法5.实验采集法统计调查组织方式1.统计报表2.普查3.抽样调查4.重点调查5.典型调查统计报表统计报表(StatisticalReportForms)是指依照国家统计局或国家各行政管理部门的规定,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间与报送程序,自下而上地逐级定期提供基本统计资料的一种调查方式。普查普查(Census)是对调查对象的全部调查单位逐一进行的调查。其特点:是一次性调查,是专门组织的全面调查,即普查主要用来调查属于一定时点上的现象总量。关键词:全面调查、一次性、时点资料美国普查局美国普查局抽样调查抽样调查(SamplingSurvey)是一种非全面调查,它是在全部调查单位中抽取一部分单位作为样本进行调查,再根据调查结果推断总体的一种调查方法。概率抽样和非概率抽样根据抽选样本的方法,抽样调查可以分为:概率抽样:也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知.概率抽样中可以对抽样误差进行控制.在我国,习惯上将概率抽样称为抽样调查.不满足概率抽样要求的抽样都被归为非概率抽样.非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差.•随机原则:在抽选样本时排除主观因素的影响(不是有意识的抽选某些单位),使每个单位都有一定的机会被抽中.–等概率抽样:抽样时每个单位被选中的概率都相等.–不等概率抽样:抽样时不是每个单位被选中的概率都相等.抽样调查非概率抽样概率抽样不等概率抽样等概率抽样概率抽样中的随机原则•是实际中应用最广泛的一种调查方式.1992年我国的国家调查系统将抽样调查列为统计调查的主体.•与全面调查相比,它具有以下明显的特点:–经济性.普查需要花费大量人力、财力,而采用抽样调查则可取得事半功倍的效果.–时效性强.可以迅速及时地获得信息.–适应面广.对于某些不可能进行普查的现象,只能通过抽样调查获取这些现象的部分数据.–有可能获得比普查更高的数据质量.普查中工作量大、环节多,登记性误差往往很大.抽样调查的特点抽样调查方法的分类•在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位(抽样单元,Samplingunit).•抽样单位可以是一个总体单位,也可以包含多个个体.•所有抽样单位的名单称为抽样框(SamplingFrame).抽样框应尽可能与目标总体相一致.抽样框有以下形式:①名单抽样框,即以名册或清单形式列出总体所有单位例如,学生名册、企业名录、职工名单、住户名单、村庄名单、社区名单等等.抽样单元和抽样框②区域抽样框,按自然地域划分并排列出总体所有单位.例如,一片土地划分为若干地块并编号、一片森林划分为若干林区并编号等.③时间表抽样框,按时间顺序排列总体单位.例如,流水线生产的产品质量检验,把一天划分为若干时段并按顺序排列.抽样框的编制是抽样调查的前提条件,要求不重不漏来保证样本对总体的代表性.概率抽样调查的方式主要有以下五种:(Ⅰ)简单随机抽样(SimpleRandomSampling)•也称纯随机抽样.直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等.可分为有放回和无放回两种方式.•是最基本的抽样方法,许多抽样方法都是在它的基础上发展起来的.其数学性质简单,理论也最为成熟.有放回抽样和无放回抽样有放回抽样:也称为重复抽样,在一个单位被选入样本后,记录其编号,然后又将其放回总体中继续参与随后的抽样过程.无放回抽样:也称为不重复抽样,在一个单位被选入样本后,不再放回总体参与随后的抽样过程.重复抽样的误差也比不重复抽样略大.实际应用中一般采用不重复抽样.•从N个总体单位中抽选n个单位组成样本,可以先将N个单位编号,若抽到某个号则对应的单位入样.通常有抽签法和随机数法两种抽选方法.•抽签法:用均匀同质的材料制作N个签并充分混合,然后一次抽取n个签,或一次抽取一个签但不放回,直至抽满n个签为止.•随机数法:—随机数表—随机数骰子—计算机产生的伪随机数抽选样本单位的方法396576454519906964612026363162…737123709065976012119840071766…722047338451674797199840071766…751725691717952178582433457748…374879887463520634300131601027…028908169485538329955627092443…………………………………………………随机数表举例•当总体内样本单位不多,且有完备名册,可用于编号时•对研究的目的而言,总体内样本单位间的差异不大时.•无法充分获得总体信息时•由于编制抽样框及抽取的样本可能过于分散等原因在实际实施中有一定困难,加之没有利用其他辅助信息提高估计的效率,所以大规模调查中很少直接采用.简单随机抽样最适用的场合•系统抽样(也称机械抽样):将总体N个单位按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其他样本单元的一种抽样方法.•最简单的系统抽样是等距抽样.下面介绍直线等距抽样:–将总体分成n个组,每组有k=N/n个单位.–在第一组随机选择一个单位,之后每隔k个选择一个.N=64n=8k=8第一组(Ⅱ)系统抽样(SystematicSampling)•总体单位的顺序可能影响抽样结果:–各单元的排队顺序与所研究的内容无关;–各单元的排队顺序与所研究的内容有内在联系.•优点:抽取样本简便易行,易于监控.•主要适用场合:–总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的.–总体内单位数过多,而抽取的样本又较多时.–总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查).系统抽样的特点•也称类型抽样.即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式.男生女生样本(Ⅲ)分层抽样(StratifiedSampling)可以提高样本的代表性,提高估计的精度.抽样误差只受层内方差的影响,分层时应使层间方差大、层内方差小.最适用的场合:–当总体内样本单位的差异较大时;–分层后能达到层间差异大,层内差异小的原则时.分层抽样的特点•按比例分层抽样:按各层单元数占总体单元数的比例进行分配.•在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用不按比例分层抽样.–在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理.按比例分层抽样和不按比例分层抽样假设要从1000亩农田中抽取100亩调查小麦的平均亩产.1000亩耕地中有600亩为平原,400亩为丘陵;平原地区的亩产量相差不大(方差很小),而丘陵地区亩产量的差别很大(方差大).–按比例抽样:平原和丘陵各抽60亩和40亩.–不按比例抽样:为了更准确地估计丘陵地区的平均亩产,在丘陵地区多抽一些农田(例如70亩),从平原地区抽取30亩.这时总体平均亩产的估计值为丘陵地区平均亩产平原地区平均亩产1000001000600ˆ4Y不按比例分层抽样(不等概率抽样)的例子•先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位.按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式.总体分成4个群随机选择2个群构成样本(Ⅳ)整群抽样(ClusterSampling)•不需要所有总体单位的抽样框.•由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些(对策:增大样本容量).•抽样误差受群间方差的影响,不受群内方差的影响.分群时应使群间方差小.•最适用的场合:–总体名单不易获得时–为节省调查成本时–群内差异大,而群间的变异小时整群抽样的特点•先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,…,如此下去直至抽取所要调查的基本单位的抽样方法.•例如:[统计年鉴2004指出]2003年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、等距、整群概率比例抽样方法,在全国31个省、自治区、直辖市抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人.(Ⅴ)多阶段抽样(muti-stageSampling)•适用于总体分布很广,不可能从总体中直接抽取样本单位的情况.•不需要全部低级单位的抽样框,节省了调查费用.•方法灵活多样.抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件.凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则.多阶段抽样的特点非概率抽样方便抽样判断抽样配额抽样雪球抽样不满足概率抽样要求的抽样都被归为非概率抽样.非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差.非概率抽样•纯粹以方便为基本着眼点的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题.•也译为便利抽样、偶遇抽样.•例如:–在街头的拦截式访问.–登在报刊、网上的问卷.方便抽样(Conveniencesampling)•调查者根据主观经验和判断从总体中选取有代表性的单位构成样本.–精度取决于抽样者的经验.–不能获得估计值的精度.•适用于总体单位极不相同而样本容量又很小的情况判断抽样(JudgmentSampling)•是非随机抽样方法中最常用的一种抽样方法.分为两个步骤:–根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额;–然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位.配额抽样(Quotasampling)•也译为滚雪球抽样.•其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止.•主要用于对稀少群体的调查.•例如某研究部门在调查保姆问题时,先访问了7名保姆,然后再请她们提供其他保姆名单,逐步扩大到近百人.雪球抽样(SnowballSampling)重点调查重点调查(Key-pointSurvey)是指在调查对象中,选择一部分重点调查单位收集统计资料的一种非全面调查。关键词:重点调查单位,是指这些被调查的总体单位中数目

1 / 100
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功