统计学

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第三章统计数据的整理与显示•第一节资料整理的一般问题•第二节统计分组•第三节资料的汇总与显示•第四节分配数列•通过各种调查方法和手段将原始资料搜集上来,只是完成了整个社会经济调查的一部分工作。需要对这些资料进行进一步分析与解释,来揭示现象或事物的本质和规律。•通过本章的学习,使大家了解资料整理的意义,掌握资料如何科学分组、汇总、显示。第一节统计数据整理概述•一、资料整理的意义•二、资料整理的目标与要求•三、文字资料的整理•四、数据资料的整理一、资料整理的意义•(一)定义资料整理就是根据统计研究的任务与要求,运用科学的方法,对调查资料进行科学归纳、分类、汇总和显示,使之成为系统化、条理化、适用于分析和解释的资料的工作。•(二)意义①是进行资料分析的前提;②是社会经济调查感性认识上升到理性认识的连接点;二、资料整理的目标与要求•(1)资料整理应符合研究目的的需要•(2)资料的整理要真实、客观和统一•(3)资料的整理要做到条理化、系统化,符合简化资料、扩大信息量的要求。三、文字资料的整理•由于文字资料在来源上存在差异,所以其整理方法也略有不同。但是通常情况下可划分为审核、分类和汇编三个基本步骤。•①审核:对调查所得原始资料进行审查与核实,其目的在于保证资料的完整性、准确性和客观性。•②分类:根据研究的目的和要求,将调查资料按其内容、性质和特征区分为不同的类型或类别。•③汇编:资料的汇编主要是指根据调查研究的实际要求,对分类完成之后的资料进行汇总、编辑,使之成为能反映调查对象客观情况的系统、完整的材料。四、数据资料的整理•数据资料是社会调查中最具价值的重要资料,主要是指所收集到的数字及其组成的图文、图表资料。•数据资料整理的一般程序包括数字资料检验、分组、汇总和制作统计表或统计图几个阶段。•①检验:主要是对数字资料的完整性和正确性进行检验,以确保更加准确的研究结果。•②分组:根据社会经济现象的特点和统计研究的目的要求,按照一个或几个标志,将统计总体划分为若干不同性质而又有联系的几个部分,称为统计分组。统计分组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志(后面讲:重点部分)•③汇总:(第二、三节内容)•④制作统计图表(第四节内容)第二节统计分组•一、统计分组的原则•二、统计分组的方法一、统计分组的原则•1.穷尽性原则即统计分组必须保证总体的每一个单位都能归入其中的一个组•2.互斥性原则互斥性原则也叫不重复原则。即统计分组必须保证总体的每一个单位只能属于其中的一个组,不能出现重复统计的现象。二、统计分组的步骤•(一)选择分组标志1、分组标志选择的原则:①应根据研究的目的和任务选择分组标志,研究目的不同,分组标志也不同;②要选择能够反映事物本质或主要特征的标志;③要结合历史条件及经济条件来选择。•(一)选择分组标志•2、分组标志的种类:①品质标志:选择反映事物属性或本质差异的标志作为分组标志。②数量标志:反映事物数量差异的标志作为分组标志。③空间标志:按地理位置或区域范围进行分组。④时间标志:按资料所属时间先后顺序进行分组。•(二)分组表的编制——简单分组和复合分组:分组标志确定后,下一步的任务就是编制分组表,使用图、表是统计的一个特点。①简单分组:选用一个标志进行分组②复合分组:选用两个或两个以上标志进行分组,可分为层叠式和交叉式。第三节分配数列•一、分配数列的概念和种类•二、变量数列的编制•一、分配数列的概念和种类概念:分配数列是指将统计资料按某一标志分组后,并按一定顺序排列并列出每个组的总体单位数,这种数列称为分配数列,又称次数分配或次数分布。种类:分配数列按分组标志不同,可以分为品质数列与变量数列,还有时间数列,我们将在第8章中介绍。分配数列两个要素:分组和频数(次数)•是指按品质标志分组形成的分配数列,简称品质数列,它由各组的名称和相应的单位数组成。品质数列按质量分组产量(件)比重(%)合格品130091.5不合格品1208.5合计1420100.0品质标志某企业某产品的质量情况分组•变量数列是指按数量标志分组所形成的分配数列。•变量数列包括两个要素:一个是各组的具体数值,即变量值;另一个是分配在各组的总体单位数,即次数或频数变量数列日产量(件)工人数(人)比重(%)5520020653003075400408510010合计1000100某企业工人的日产量情况分组单选题•1、对现象总体只按一个标志分组的是()A.品质标志分组B.数量标志分组C.简单分组D.复合分组•2、属于按品质标志分组的是()A.人口按年龄分组B.人口按性别分组C.居民家庭按总收入分组•3、属于按数量标志分组的是()A.职工按工龄分组B.职工按职别分组C.职工按民族分组D.职工按性别分组•4、对同一总体选择两个及以上的标志叠运用的分组是()A.品质标志分组B.数量标志分组C.简单分组D.复合分组•5、制造业企业按生产能力分组和按资金利税率分组()A.都是按品质标志分组B.都是按数量标志分组C.前者按品质标志分,后者按数量标志分D.前者按数量标志分,后者按品质标志分二、变量数列的编制(一)单项式数列——变量值为一具体值。(二)组距数列——变量值不是用一个具体值表现,而是用一个区间来表示的数列。(一)单项式数列按工人看管的机器台数(台)工人数(人)比率(%)812910201024481112241236合计50100变量值是一个具体的值注:单项式变量数列一般在变量值不多且变量值的变动范围不大的情况下采用。本例中,变量值只有5个,变动范围为12-8=4(二)组距数列按工资分组(元)人数(人)400以下50400-50063500-600110600-70067700-80040800以上25合计355变量值是一个区间重点:组距数列的编制•谈到组距数列的编制,我们可能首先会想到,组距多大?分多少组?1、全距、组距与组数(1)全距:是总体中最大的标志值与最小的标志值之差,用R表示,R=最大的标志值一最小的标志值(2)组距:每组变量值中最大值与最小值之差。每组最大值称为上限,最小值称为下限。组距=最大值-最小值(3)组数:是指将某个变量数列进行划分得到的组的数量。组数与组距关系:组距大小与组数多少成反比。组数越多,组距越小。•那么,组数和组距如何确定呢?公式1:m=1+lgN/lg2=1+3.322LgN(N为总体单位数,m为组数)公式2:i=R/m=R/(1+3.322LgN)(m为组数;i为组距;R为全距;N为总体单位数)注:调整组距必须满足i×m≥R这一条件2、组距数列的种类(1)等距数列与不等距数列:各组组距相等为等距数列,否则为不等距数列。不等距数列是各组的组距不完全相等的分组。按工资分组(元)人数(人)400-50060500-60080600-70040700-80030合计210此数列为等距数列•不等距分组中,如果标志值是按一定比例发展变化的,可以按等比的组距间隔来分组。例如:高炉按有效容积的不等距分组。•更多的不等距分组,是根据事物性质变化的数量界限来确定组距。后例:按职工人数分组的工业企业单位数按职工人数分组(人)工业企业单位数(个)10人以下5761810-5015523650-10073310100-500107078500-1000151571000-300077173000-50009035000-1000058310000以上302合计417904小企业组距小些,大企业组距大些•(2)连续数列、不连续数列:分别以两个变量值为前后两组的上下限的数列,如上表。一般地,连续变量采用连续分组,离散变量采用不连续分组。•(3)开口数列与闭口数列:首末两组使用××以下,或××以上的叫开口数列;否则是闭口数列。•3、组限与组中值组限:每组的两端标志值,组起点值为下限(最小值),组终点值为上限(最大值)组中值:上限与下限的中点值称为组中值。闭口组的组中值=(本组上限+本组下限)/2有上限缺下限的组中值=本组上限-相邻组组距/2有下限缺上限的组中值=本组下限+相邻组组距/2注:当各组内标志值分布均匀时,组中值正好代表各组标志值的平均数值。但,实际上各组标志值分布并不均匀,组中值与各组实际平均水平仍有一定差距,它只是各组实际平均值的近似代表值。•4、频数与频率频数:各组单位数。频数实际上是各组变量值的加权,权衡各组作用大小的值。频率(比率):频数与总体单位数相比求得的百分数称为频率。频率表明各组变量值对总体相对作用的强度,也表明各组变量值出现的概率大小。统计分布:按顺序列出各组标志变量和相应的频率即成变量分布,也称为统计分布。例如:按考试成绩分组人数(人)f频率f/∑f(%)60以下41060-7061570-801537.580-90102590以上512.5合计40100频数频率•5、累计频率和累计频率分析根据累计方向不同,可分为两组:向上累计(从变量值低的组开始,将各组次数与频率逐次向较高的组累计)向下累计(从变量值高的组开始,将各组次数与频率逐次向变量值低的组累计)按考试成绩分组人数(人)f频率f/∑f(%)向上累计次数向上累计频率(%)向下累计次数向下累计频率%60以下4104104010060-706151025369070-801537.52562.5307580-9010253587.51537.590以上512.540100512.5合计40100•组距数列编制步骤:•1、将原始资料数值按大小顺序排列;•2、确定组数或组距,为计算方便,组距宜采用5、10的倍数;•3、确定组限。如果变量值分布均匀,则使用等距数列;若变量值分布不均匀,则使用异距数列。当变量值无最值时,设置开口组。按穷尽原则,第一组下限应小于最小变量值,最末组的上限应大于最大变量值。划分连续变量时,相邻组限必须重叠,并遵循“上限不在内”原则。划分离散型变量时,相邻组限可以间断(不重叠),因为变量值只能用整数表示。但在统计实务中,为了统一和方便,避免组距和组中值计算麻烦,对离散型变量也常采用重叠分组。•例(单项式数列的编制)第四节统计数据的显示•一、统计表•二、统计图一、统计表•统计表是由纵横交错的线条绘制的一种表现统计数据资料的表格。广义的统计表是指在统计工作中所使用的一切表格,狭义的统计表主要是指在统计汇总与整理过程中使用的表格•1.统计表的结构数字资料横行标题纵栏标题指标名称苏南地区绝对额(元)比重(%)2002-2003年平均递增(%)全年人均纯收入58281007.5一、工资性收入385966.312.01、在本地域劳动所得282673.212.72、外地从业收入40310.414.9二、家庭经营纯收入160127.5-2.91、第一产业纯收入77248.2-12.92、第二、第三产业纯收入82951.812.6三、财产和转移性纯收入3656.322.92003年江苏省苏南地区农村居民收入构成及变化分析表总标题注:表中在本地域劳动收入、外出从业收入为其分别占工资性收入的比重。资料来源:江苏统计信息表附加•2.统计表的制作•①统计表的各种标题,特别是总标题的表达应该十分简明、确切,概括地反映出统计表的基本内容。总标题还应该标明资料所属的时间和空间•②合理安排统计表的结构,比如横行标题、纵栏标题、数字资料的位置应该安排合理•③统计表中必须注明数字资料的计量单位•④表中数字应该填写整齐,对准位数•⑤统计表一般采用的是“开口”式,在表的左右两端不封口•⑥统计表中如果栏数较多,习惯上对主词各栏采用甲、乙、丙、……次序编栏;对宾词栏别采用1、2、3、……次序编栏•⑦对于需要特殊说明的统计资料,应在表下加注说明。二、统计图•统计图与统计表相比较,有其显著特点:鲜明直观、形象生动、通俗易懂、具体明确,便于记忆,给人以醒目而深刻的印象。•柱形图、条形图、饼图主要适用于分类数据和顺序数据。直方图、茎叶图、箱线图主要适用于数值型数据。•1.柱形图和、条形图和饼图柱形图与条形图是用矩形的宽度和长度来表示各类别数据的频数或频率。绘制时,各类别可以放在横轴,称为柱形

1 / 74
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功