第二节统计数据的整理本节内容:一、统计整理概述二、统计分组三、统计分布(频数分布)下一页返回目录一、统计整理概述(一)统计整理意义(二)统计整理的程序(三)Excel中的统计整理工具返回本节首页(一)统计整理意义狭义:根据研究的任务,将调查的原始资料进行分类和汇总,使之系统化、条理化,从而有效的显示所包含的信息。有广义和狭义之分广义:既包括对原始资料的分类和汇总,也包括对次级资料的再整理。本节指狭义的整理10;60;60;60;63;64;66;66;68;68;69;70;71;71;73;75;76;76;77;……;78;79;79;80;81;82;83;83;83;86;87;87;88;97。42名学生统计学成绩:试显示其规律Fanhui3学生统计学成绩分布表分数人数60以下60~7070~8080~9090以上11020101合计42通过整理可以将数据的规律显示出来。对称分布Fanhui3整理的地位在统计工作过程中起着承前启后的作用统计调查统计分析统计整理Fanhui3(二)统计整理的程序返回本问题分一下几步:1、对原始数据进行审核2、对数据进行排序3、将数据分组和汇总4、制作统计表和统计图5、积累和保管统计数据1、对原始数据进行审核返回本问题即检查数据中的错误☆审核无误后将数据录入计算机中以建立数据表录入的数据一般是无序的,不能反映现象本质与规律性。为了发现数据的一些明显特征或趋势,可对其进行排序。2、对数据进行排序☆排序可借助于计算机完成3、将数据分组和汇总为了更加清楚的显示数据的规律和特征,可将已排序的数据进行分组,并汇总出各种统计指标。分组的目的是使性质相同的数据归为一组,性质不同的数据分开,使数据之间的差异性显示出来旭日升冰茶可口可乐旭日升冰茶汇源果汁露露露露旭日升冰茶可口可乐露露可口可乐旭日升冰茶可口可乐可口可乐百事可乐旭日升冰茶可口可乐百事可乐旭日升冰茶可口可乐百事可乐百事可乐露露露露百事可乐露露可口可乐旭日升冰茶旭日升冰茶汇源果汁汇源果汁汇源果汁旭日升冰茶可口可乐可口可乐可口可乐可口可乐百事可乐露露汇源果汁百事可乐露露可口可乐百事可乐可口可乐露露可口可乐旭日升冰茶百事可乐汇源果汁旭日升冰茶某超市随机抽取50人进行调查,了解哪种饮料更受欢迎,结果如下。使显示其规律分组人数可口可乐旭日升百事可乐汇源果汁露露1511969合计50频数可口可乐旭日升百事可乐汇源果汁露露饮料分组表饮料分组图4、制作统计表和统计图返回本问题两者均可借助于计算机完成统计表和统计图是统计数据显示的方式更形象更直观社会电冰箱消费者对广告宣传途径的效果评价?您觉得哪种类型的广告宣传效果最好?(仅选一项)1.电视2.网络3.杂志4.报纸5.路牌6.宣传页电视1120.56056.0网络510.25525.5杂志90.0454.5报纸100.0505.0路牌20.0101.0宣传页160.0808.0广告类型人数(人)比例频率(%)11251910216020406080100120电视网络杂志报纸路牌宣传页返回26(三)Excel中的整理工具1、数据排序2、频数分布表(Frequency)3、数据透视表4、统计图返回本问题Excel可以根据用户的要求对数据表的行或列数据进行排序。排序时,Excel将利用指定的排序顺序重新排列行、列或各单元格,从而使现象的规则性更加简洁地表现出来。1.数据排序2.频数分布函数(Frequency)频数分布函数是Excel的一个工作表函数,是编制次数分布的主要工具,通过频数分布函数,可以对数据进行分组与归类,从而使数据的分布形态更加清楚地表现出来。返回本问题3.数据透视表数据透视表是一种交互式工作表,用于对已有数据表和数据库中的数据进行汇总和分析的一种工具。Excel可以绘制许多,能够直观形象地描述现象的数量规律性。返回本问题4.统计图二、统计分组(一)统计分组的意义和种类(二)统计分组的原则和方法返回本节首页(一)统计分组的意义和种类1、定义:根据统计研究目的,将总体按照一定的标志区分为若干个组成部分。分组有两方面含义对总体是“分”,对个体是“合”返回本问题(1)划分现象的类型,揭示内部结构,发现其本质与规律。(2)分析现象之间的依存关系。返回本问题2、统计分组的作用某年某地区居民的消费结构分类比重(%)消费品97.76食品62.68其他37.32劳务2.24合计100=100%年度第一产业第二产业第三产业195250.520.928.6196239.431.329.3197232.943.124.1198528.443.128..5199221.843.934.3200015.950.933.2200513.146.240.7200910.646.842.6201010.146.843.1201110.1246.7843.1我国历年三次产业结构(%)我国的产业结构状态:第一产业比重下降,第二、第三产业比重上升,合乎经济发展趋势。但第二产业比重偏高,第三产业比重偏低,说明产业结构需进一步优化.发达国家第一产业在2%~3%之间,第二产业在30%~40%之间,第三产业在60%以上。如美国三者的比例为:2%、25%和75%日本约为:2%、38%、60%人均月收入(元)月储蓄(元)家庭数(630户)15001800200025002800300036003800300500600680700880900110025701375400181020居民月收入和储蓄额之间有正依存关系商场按流转额分商场数各组商品流通费用率%50万元以下50~200万元200~400万元400~600万元600~800万元800~1000万元1000万元以上25701307540181011.210.49.96.75.95.05.5商品流转额和流通费用率之间有反依存关系(流通费用率=费用额/销售额)3、统计分组种类(1)按分组标志的多少:复合分组:用两个或两个以上的标志层叠在一起对总体进行分组简单分组:按一个标志对总体进行分组对学生按学科、学历、性别分学科学历性别文科大专男生女生本科研究生及以上理工科平行分组体系和复合分组体系平行分组体系:多个简单分组构成一个平行分组体系复合分组体系:复合分组本身构成复合分组体系(2)按分组标志的性质不同品质分组:变量分组:又称属性分组,按品质标志分组而成。又称数量分组,按数量标志分组而成学生按籍贯分学生按身高分(米)安徽省山东省河北省……1.5以下1.5~1.61.6~1.71.7~1.81.8以上品质分组变量分组变量分组:变量分组单项式分组:一个变量值代表一组组距式分组:一组变量值代表一组等距分组和异距分组间断式分组和连续式分组单项式分组:返回本问题产量(件)2345某厂工人按日产量分组组距式分组,等距分组某校学生按成绩分(分)60以下60~7070~8080~9090以上异距分组,连续分组某厂职工按收入分(元)600以下600~10001000~15001500以上异距分组,间断分组:某市所有企业按人数多少分组100以下101~10001001以上说明:单项式分组只适用于离散型变量且变量值较少的情况,因为如果数据过多,单项式分组达不到显示数据规律的目的。在数据较多或连续型变量的情况下,需使用组距分组。(二)统计分组的原则和方法要满足:穷尽性和互斥性1、统计分组的原则某百货公司:服装分类销售额(万元)男装女装童装西装101568上述分组是否正确?企业人数企业人数职工工资职工工资100以下101~500501~10001001以上100以下100~500500~10001000以上1000以下1001~30003001~50005001以上1000以下1000~30003000~50005000以上上述分组是否正确?2、统计分组方法(1)品质分组的方法:方法比较简单。(2)数量分组的方法:须注意:采用正确的分组形式确定合适的分组界限采用单项式还是组距式分组;等距还是异距分组;间断式还是连续式分组….能反映事物质的差异组距式分组相关指标介绍组数(n)组距(d)组限组中值返回本问题A、组数(n)的计算公式美国统计学家斯特吉斯:n=1+3.322lgN其中,n为组数,N为总体单位总数经验分组见27B、组距(d)组的最大值减组的最小值返回本问题即:R是已知的,在组数确定后,d=R/组数注意:组数和组距的关系:当全距(R)一定时,两者成反比。100~110110~120……C、组限分上限和下限70~8080~9090~100组下限组上限若变量为连续型:组限的划分方法:若变量为离散型:相邻组的组限必须重叠;在统计次数时,应遵循的原则为:上组限不统计在本组内。相邻组的组限必须断开D、组中值各组上限和下限之间的中点值上限+下限2返回本问题开口组的组中值的求法首组的组中值=首组上限–邻组组距/2末组的组中值=末组下限+邻组组距/2返回本问题注意实际问题:西瓜重量组中值2斤以下2---6斤6斤以上?4?三、频数分布(统计分布)——是统计整理的结果(一)频数分布的概念(二)频数分布的编制方法(三)累计频数和累计频率分布表返回本节首(一)频数分布的概念1、定义:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布。返回本问题又称统计分布、次数分布、频数分布、分布数列2、频数分布的构成要素返回本问题频率:次数的相对数,即:总体按某种标志所分的组各组出现的单位数(次数或频数)ff/∑f3、频数分布的种类变量数列品质数列异距数列等距数列组距式数列单项式数列返回本问题注意变量数列的构成要素:标志值和次数品质数列:某班学生籍贯分布表地区分绝对数人数比重(%)安徽3075非安徽1025合计40100返回本问题单项式数列:产量(件)绝对数比重(%)83016.794022.2106033.3113016.7122011.1合计180100.0工人生产情况表工人数返回本问题组距式数列、等距数列:考分人数(人)比重(%)50~6025.060~70717.570~801127.580~901230.090~100820.0合计40100.0某班学生考试成绩返回本问题组距式数列、异距数列:人口按年龄分组人口数(万人)1岁以下(婴儿组)11~7岁(幼儿组)67~17岁(学龄儿童组)1218~55岁(有劳动能力的人口组)24.655岁以上(老年组)8.1合计51.7某地区人口年龄分布返回本问题说明:利用频数或频率可以观察和比较等距数列中各组标志值出现的次数的多少。分数人数60以下60~7070~8080~9090以上31020103人口年龄人数(万人)1以下1~77~1818~6060以上1510259对于异距数列要观察和比较各组标志值出现的次数的多少,需用频数密度或频率密度频数密度=频数/组距含义:单位组距内分布的频数年龄(岁)人数(万人)频数密度1以下1~77~1818~6060以上151025910.830.910.60.21注意频数分布和分组的区别频数分布是在分组的基础上加上次数(频数)的分布。下一页分布数列的要素构成:分组和次数变量数列的构成要素:标志值和次数(二)频数分布的编制方法1、品质数列的编制(略)2、变量数列的编制返回到节首页2、变量数列的编制第一、对数据进行排序,以了解全部数据的变动范围,确定全距R。第二、确定分组组数n,计算各组组距d=R/n。第三、确定分组的组限。第四、统计各组数值所出现的频数,形成频数分布表如学生英语课的考试成绩(1)编制步骤第一、对数据进行排序对数据进行排序,找出最大值和最小值。假设组数据中最大为96,最小为48全距等于48。返回本问题排序可利用计算机完成第二、确定分组的组数和组距A、组数的确定一般使用经验公式,即用斯特吉斯的组数公式。本例中为6.67组,实际中可取6组或7组返回本问题B、计算各组距组距=全距/组数假设本例分6组,全距为48,则:组距=48/6=8返回本问题该组距通常称之为理论组距,实际计算时一般以5或10的倍数