第二章统计数据调查与整理第一节统计数据第二节统计数据调查第三节统计数据整理第四节频数分布第五节数据显示基本要求统计调查和统计整理是统计研究中的两个阶段,统计整理是统计工作过程中间环节,它既是统计调查的继续又是统计分析的前提。通过本章的学习,应掌握统计数据的概念及分类方法、统计调查方案及数据的调查方法;了解统计整理、统计分组、分布数列、统计表等概念和内容;重点掌握统计分组的方法,在统计分组的基础上进行分布数列的编制,并学会用统计图和统计表来表示统计资料。第一节统计数据一、统计数据的概念它是对客观现象计量的结果,有两种表现形式:数值型和文字型。它是个数据集,不是指单个的数字二、统计数据的分类(一)来源分:直接数据和间接数据(二)时间状况分:时间序列数据和截面型数据(三)层次分:定类数据、定序数据、定距数据、定比数据1.定类数据(最低级)按类别分类,不带数量信息,不能排序,主要的数据运算为频数和频率。2.定序数据(中间级)可以分类、排序,进行不等式运算。3.定距数据具有一定单位的实际测量值,可以加减运算4.定比数据(最高等级)为实际测量值,存在绝对零点,可以加减乘除运算前两类用文字表示,后两类用数值表示。数据名称特征运算功能举例定类数据分类计数产业分类定序数据分类、排序计数、排序产品等级定距数据分类、排序、有基本测量单位、无绝对零点计数、排序、加减学生考试成绩定比数据分类、排序、有基本测量单位、有绝对零点计数、排序、加减、乘除商品销售额定类数据定序数据品质标志条形图圆形图0102030405060708090定距数据定比数据茎叶图直方图频数表条形图出生1981.01980.01979.01978.01977.01976.01975.0140120100806040200圆形图成绩人数60以下60-8080-10052015第二节统计数据调查统计调查是按照统计研究的目的和任务,运用各种调查的组织形式和方法,有组织、有计划的向调查对象搜集各种原始资料工作过程。搜集资料的方式:原始资料和次级资料(后者不属于调查范畴)要求:准确、及时、全面、系统按调查单位的范围大小分为全面调查非全面调查一次性调查经常性调查统计报表专门调查一、统计调查的种类和方法按调查时间是否连续分为按调查的组织方式不同分为普查抽样调查典型调查重点调查(一)按照调查对象的范围:普查全面统计报表重点调查典型调查抽样调查全面调查非全面调查1.普查:含义:是一种专门组织的一次性的全面调查,用来调查某一特定时点的社会经济现象的总量。特点:(1)是一次性或周期性的(2)必须规定标准时点,避免数据的重复或遗漏(3)数据全面、详尽、规范(4)使用范围较窄2.统计报表含义:按照国家或上级统一规定的表格形式、指标和内容、上报时间和程序,定期向上级和国家报告计划执行情况和重要经济活动的调查方式。特点:内容全面、资料连续;报送时间统一、及时;资料准确类型:(1)按内容分:国民经济基本报表和专业报表(2)按报送周期分:日(旬)报、月报、季报、年报(3)按填报单位范围分:全面的和非全面的报表3.抽样调查含义:是一种非全面调查,从总体中随机抽取部分单位进行调查,用部分单位的指标数值来推断总体的指标数值。特点:(1)遵守随机原则(2)以部分单位指标数值来推断总体的指标数值。(3)会产生抽样误差,可事先计算,并能进行控制(4)对全面调查进行检验、修正、补充(5)其他:节省调查成本、适用范围广4.重点调查含义:选择重点单位,了解总体基本情况的一种非全面调查。方法:在掌握基本情况下,要确实存在重点单位。重点调查的关键是重点单位的确定这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况5.典型调查含义:选择具有代表性的典型单位进行调查,以认识事物的本质及其发展变化规律的一种非全面调查。关键:正确地选择典型方式:解剖麻雀式,划类选典式指在数量表现上具有普遍意义和代表性的总体单位,可以用来推断总体的数量(二)按照登记时间的连续性:经常性调查和一次性调查一次性调查分为:定期和不定期调查两种(三)按照组织方式分:统计报表制度和专门调查(普查、重点调查、典型调查、抽样调查)二、统计调查方案(一)确定调查目的(首要问题---为什么调查)(二)确定调查对象和调查单位(向谁调查)调查对象:需要调查的某一经济现象的总体。调查单位:构成该总体的个体,调查中应登记其标志的具体单位。报告单位:按规定日期、表式负责提交统计资料的单位。*调查单位与报告单位有时一致,有时不一致。(三)拟订调查项目和设计调查表(调查什么)1.确定调查项目的注意点:(1)只列入必需项目,且能够取得确切资料的项目(2)含义要明确具体(3)调查项目之间尽可能相互联系2.调查表:单一表和一览表单一表:一张表上只登记一个调查单位,可以容纳较多的标志。一览表:一张表上登记若干调查单位。(四)确定调查时间和调查期限时间:调查的所属时间(时期和时点之分)期限:整个调查的起止时间(五)拟订调查组织实施计划包括以下内容:确定调查时间;规定调查地点;做好各项准备工作。三、统计调查问卷基本点:1.含义:调查者根据调查目的和要求所设计的,由一系列问题、调查项目、备选答案、说明等组成的一种调查工具。2.特点:内容标准化、调查面广、传播快3.注意点:(1)所有项目与调查目的有关(2)词语简明准确(3)易引起疑虑等项目不列入(4)先易后难或有浅入深的顺序排列(5)应切合实际(一)问卷的类型与结构1.类型(1)自填问卷(2)访问问卷2.问卷的基本结构由前言、主体和结语三部分组成前言:说明调查目的、内容、要求等,包括题目、问候语、填写说明、问卷编号等主体部分(核心):包括调查的主要内容及答题说明,两部分,被调查者的背景资料和调查的基本情况结语:基本信息,如调查时间、地点、调查员姓名等(二)问卷设计的程序和形式1.设计程序三部分:事前准备、进行设计、事后检查事前准备确定所需资料确定调查方式确定分析方法问卷设计提问项目设计回答项目设计问题顺序设计版面格式设计事后检查模拟试卷问卷修正问卷完成2.设计的形式(1)开放式被调查者回答不受限制,易获得较多信息;不易编码,易出现误差(2)封闭式根据备选答案进行选择,有填空式、选择式等您认为吸烟有哪些害处?①危害自身健康②影响他人健康③浪费钱财④容易引起火灾⑤破坏家庭团结封闭式问题您认为吸烟有哪些害处?开放式问题容易滋生腐败容易控制,但不易全面不易控制,但内容丰富(3)量表式对被调查者的态度、意见等心理活动进行判别和测定。常用的有:评比量表、李克特量表、配对比较量表。四、统计调查误差(一)调查误差的含义与种类1.含义:2.种类:登记性误差和代表性误差登记性误差:由于工作环节的不准确造成的误差,如计量错误、记录错误等代表性误差:用样本推断总体时产生的误差,在非全面调查中出现,无法消除。(二)调查误差的防止主要防止登记性误差第三节统计数据整理一、统计整理的概念根据统计研究的目的与任务,对所取得的原始资料进行科学地分类和汇总,为统计分析提供系统化和条理化的统计资料的工作过程,称为统计整理。它是统计调查的继续,也是统计分析的基础和前提。二、统计整理的程序和内容(一)程序1.统计整理方案2.统计资料的审核3.统计资料的分组和汇总4.编制统计图表5.统计资料的积累和保管(二)内容1.统计资料的审核三方面:准确性、完整性、及时性准确性是重点,采用逻辑检查和计算检查方法2.统计分组(基础)3.统计汇总(中心内容)4.编制统计表或统计图三、统计分组(一)统计分组的概念和种类1.统计分组的概念根据统计研究的目的和任务,按照选定的变异标志将总体划分为若干部分或组别,使组与组之间具有差异性,而同一组的各单位保持相对的同质性。统计分组是统计整理的基础,也是统计研究的基本方法之一。须遵循穷尽原则和互斥原则划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系统计分组的作用:2.种类(1)按分组标志的性质:品质标志分组和数量标志分组(2)按分组标志的多少:简单分组、复合分组、分组体系简单分组:按一个标志分组复合分组:用两个或两个以上标志重叠进行分组分组体系:平行分组体系对教师的分类按性别分类男性女性按职称分类按年龄分类高级中级初级青年中年共计7组2+3+2(二)统计分组的方法关键:分组标志的选择和划分各组界限1.分组标志的选择注意点:(1)根据研究的具体任务和目的(2)在分析基础上选择具有本质的重要标志(3)结合所处的历史条件2.选择分组种类(1)单项式分组与组距式分组单项式分组数列指每个组值只用一个具体的变量值表现的数列,适用于离散型变量且变量变动范围不大组距式分组数列指每个组的变量值用一个区间来表现的变量数列,连续型变量只能编制组距式分组,离散型变量若其变动范围较大,也可编制。(2)等距分组与异距分组等距数列:变量值变动区间的长度相等异距数列:变量值变动区间的长度不完全相等(3)间断组距式分组与连续组距式分组间断组距式分组适用于离散型变量连续组距式分组两者均适用注意组界限的问题(4)划分分组界限第四节频数分布一、频数分布的概念在统计分组的基础上,将总体单位按组归类整理,形成总体单位在各组间的分布。两个要素:组别、频数或频率分布数列:各组与频数(频率)依次排列而形成的数列,它反映总体各单位的分布状况和特征,也可以进一步分析总体的平均水平和变异程度的基础。二、分布数列的种类属性分布数列(品质标志数列)和变量数列三、变量数列的编制1.确定变量数列的形式2.将变量值排序,并计算全距RR=Xmax-Xmin3.确定组距(I)和组数(K)组距(I)=全距R/组数(K)组距最好是选5的倍数,如5,10,…,等4.划分组限关于组中值的计算:闭口组:组中值=(上限+下限)/2开口组:缺上限:组中值=下限+邻组组距/2缺下限:组中值=上限-邻组组距/25.计算各组次数(比率)实例1己知某地区某年50个商店商品销售额的资料如下(单位:百万元):7.4,12.6,29.0,2.0,12.4,7.0,14.8,17.5,15.0,18.2,18.7,15.5,12.8,26.0,17.3,8.3,14.7,12.0,3.5,6.8,25.0,19.3,6.4,4.0,11.9,8.5,13.2,14.5,17.1,15.6,13.4,4.5,9.5,20.0,15.7,6.0,11.4,23.0,14.2,16.7,21.0,16.0,13.6,10.0,13.9,5.0,5.8,10.5,16.3,22.0要求编制组距数列⒈求全距百万元)(27229minmaxXXR⒉确定组距及组数确定组距的原则:要能区分各组的性质差异要能反映总体资料的分布特征为方便计算,尽可能为5或10的整数倍编制步骤:组距(I)=全距R/组数(K)计算组数(组数不宜过多,也不宜太少)上例中,取I=5,则有组)(615271IRK1IRKIRK(当的结果为整数时)IR(当的结果为小数时)IR⒊确定组限对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法⒋计算次数(编制结果):销售额(百万元)组中值商店数5以下5~1010~1515~2020~2525以上2.57.512.517.522.527.5410161343合计—50【例2】己知某车间有24名工人,他们的日产量分别是(件):20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。日产量(件)X工人数(人)f202122232425263564321合计24四、累计频数与累计频率向上累计:各组次数