第二章统计数据的收集与整理◆第一节数据的计量尺度与类型◆统计调查方案设计◆统计数据收集◆统计数据整理◆第二节统计数据表现形式◆第三节统计数据特征描述◆教学目的–了解数据的计量尺度–了解数据的类型◆重点和难点–正确理解计量尺度之间的区别第一节数据的计量尺度与类型1、定类尺度(NominalScale)◆也称列名尺度、名义尺度、分类尺度◆例如:性别、民族、职业◆计量层次最低◆数据表现为“类别”◆各类之间无等级次序◆各类别可以用数字代码表示◆使用时必须符合类别穷尽和互斥的要求◆具有=(是)或(不是)的数学特性一、数据的计量尺度2、定序尺度(OrdinalScale)也称顺序尺度对事物分类的同时给出各类别的顺序例如质量等级、考试成绩等级数据表现为“类别”可对等级、大小等排序未测量出类别之间的准确差值具有或的数学特性3、定距尺度IntervalScale◆也称间隔尺度◆对事物的准确测度◆例如年份、摄氏温度◆数据表现为“数值”◆“0”只是尺度上的一个点,不代表“不存在”◆具有+或-的数学特性4、定比尺度RatioScale◆也称比率尺度◆例如体重、身高◆与定距尺度处于同一层次◆数据表现为“数值”◆可以进行+、-、或运算◆“0”表示“没有”或“不存在”定距尺度与定比尺度的区别◆0的含义不同◆可以进行的数学运算不同◆在实际应用中定距尺度与定比尺度差别微不足道,往往不作区分。例如在SPSS软件中,数据的计量尺度被分为3类:–名义(Nominal)–有序(Ordinal)–度量(Scale)定类尺度定序尺度定距尺度定比尺度精确程度良好198891公斤美国国籍:健康状况:出生年份:体重:例子:四种计量尺度的比较◆1、四种尺度所包含的信息量是依次递增的,级别由低到高。◆2、根据较高层次的计量尺度可以获得较低层次的计量尺度。◆3、不同的尺度数据对应着不同数据显示方法和分析方法。四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类(=,≠)排序(,)间距(+,-)比值(×,÷)√√√√√√√√√√“√”表示该尺度所具有的特性数据的计量尺度定类尺度定序尺度分类数据数值型数据定距尺度定比尺度顺序数据数据的类型定性数据(品质数据)定量数据(数量数据)◆重点和难点:◆统计表的设计,常用统计图的绘制方法第二节统计数据表现形式一、统计表◆统计资料最常用的表达形式,将统计工作过程中所取得的各种数字资料,经过汇总整理后,按一定的项目和顺序填写在一定的表格内,这种表格称为统计表。(一)统计表的结构形式项目国民生产总值产值(亿元)比重(%)第一产业14212.015.9第二产业45487.850.9第三产业29703.833.2合计89403.6100.02000年全国国民生产总值横行标题纵栏标题指标数值表题资料来源:《中国统计摘要》,中国统计出版社,2002年版,第100页主词宾词(二)统计表的种类简单表—主词未经任何分组的统计表。分组表—主词按照某一标志进行了分组的统计表。复合表—主词按照两个或两个以上标志进行复合分组的统计表。分组表举例表2-111982~1990年北京市人口(单位:万人)年份总人口198219831984198519861987917.83933.20945.20957.90971.23987.97资料来源:《80年代中国人口变动分析(中国人口续篇)》复合表举例某年某地区工业净产值和职工人数项目净产值(万元)职工人数(人)国有大975013800中860045000小420010050集体大73007500中520010400小44004500合计3945091250(三)编制统计表的基本原则1、统计表的各种标题力求简明、确切和概括地反映资料和主要内容以及所属的地区和时间;纵横各栏的排列要注意表述资料的逻辑系统,反映现象的内在联系。2、统计表的分组层次和宾词指标不宜过多,一般分组最多不超过两到三个标志。3、表中必须注明数字资料的计量单位。当全表只有一个计量单位时,写在表的右上方。当一个横行一个计量单位时,可以专设“计量单位”栏。纵栏的计量单位与纵栏标目写在一起。4、对于栏数较多的统计表,通常加以编号。主词栏用甲、乙等文字标明;宾词栏用(1)、(2)、(3)等标明。5、表中数字上下位置要对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。遇有相同数字应照写,不能写“同上”。无数字的空格,用符号“--”表示;缺数字时,用符号“……”。表中还应列出合计栏。6、统计表的格式一般是开口式,即表的左右两端不画纵线,上下用粗线封口。7、必要时,统计表要加注解。数据类型定性数据定量数据条形图饼图线图茎叶图箱形图直方图二、统计图折线图1、条形图(BarChart)◆用宽度相同的条形的高度或长短来表示数据频数分布变化的图形,条形的排列可以横排,也可以纵排。3654616077218090500010000150002000025000300003500040000第一产业第二产业第三产业2003年我国就业人员情况(万人)2、圆形图(PieChart)◆也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。第一产业15%第二产业52%第三产业33%2003年我国国内生产总值中各产业比重3、直方图(Histogram)◆用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。◆手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表审计时间(天)频数10-15415-20820-25525-30230-351合计200246810510152025303540审计时间(天)频数直方图与条形图的异同◆都是用来反映数据的分布状况,适用于不同类型的数据。◆条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。◆直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。◆直方图的各矩形通常是连续排列,条形图则是分开排列。4、折线图(Frequencypolygon)◆折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。◆折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。◆组数越多,组距就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。审计时间的折线图0123456789510152025303540审计时间(天)频数◆主要用于显示未分组的原始数据的分布。“茎”和“叶”两部分构成,其图形是由数字组成的。◆通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。◆树叶的竖列要对齐,以计算各组的次数。原始数据:24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:茎叶图:30284121446775、茎叶图(Stem-and-LeafDisplay)21,24,24,26,27,27,30,32,38,41◆40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64Stem-and-LeafPlotFrequencyStem&Leaf9.002.6778889994.003.33448.003.5556667910.004.00112222333.004.5884.005.01121.005.51.00Extremes(=64)Stemwidth:10.00Eachleaf:1case(s)SPSSStatistics生成的一个茎叶图6、箱形图◆箱形图是由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制的一个箱子和两条线段的图形。简单箱形图不同箱形图对应不同数据分布特征◆例:2012年度某高校经济管理学科共有10篇博士学位论文需要评审,分别请该领域8位专家进行审稿,论文得分数据如下表所示。◆利用SPSS软件中的“graph”功能可绘制出各博士学位论文得分情况的箱形图7、线图(LineChart)◆利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。0.010000.020000.030000.040000.050000.060000.070000.080000.019961997199819992000200120022003定期活期1996年-2003年城乡居民人民币储蓄存款年底余额绘制统计图时的注意事项◆1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。–线图•时间一般绘在横轴,指标数据绘在纵轴。•长宽比例要适当,其长宽比例大致为10:7。•一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。◆2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。◆3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。◆4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。◆思考题:◆1、统计表由哪几个主要部分组成?◆2、制作统计表应注意哪几个问题?◆3、各种常用统计图各有什么特点?◆4、绘制统计图时应注意哪几个问题?◆5、某百货公司连续40天的商品销售额如下(单位:万元)根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。4125294738343038434046364537373645433344352846343037442638444236373749394232363539解:(1)组数的确定分组组数参考表N15~2425~4445~8990~179180~359k56789(2)组距的确定(49-25)/6=4为便于计算,组距宜为5或10的倍数,结合实际数据,此处组距应为5,分组的组数相应从6减少为5最小值为25,下限可以从25开始,按5组,5万元作为组距,进行分组25-30,30-35,35-40,40-45,45-5040销售额的频数分布表(次数分布表)销售额分组次数25-30430-35635-401540-45945-506合计40重点和难点◆掌握数据集中趋势和离散程度的测度方法◆掌握分布偏态与峰度的测度方法第三节统计数据特征描述数据描述的数值方法分布的形状集中趋势离散程度众数中位数离散系数方差和标准差峰态四分位距极差偏态分位数平均数一、集中趋势◆常用的集中趋势的测度指标:–众数–中位数–分位数–平均数集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。1、众数◆众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度(M0)。◆①未分组资料,M0就是出现次数最多的变量值。◆20,15,18,20,20,22,20,23◆20,20,15,19,19,20,19,25◆10,11,13,16,15,25,8,12众数为19,20众数为20不存在众数②分组资料:在组距式分组的情况下,频数最多的组是众数组,在该组内确定众数。10111011()()()()iiiiiiiiiiiiiiiiffMLdffffffMUdffff设众数在第i组,则Li是众数所在组的下限,Ui是众数所在组的上限;fi是众数所在组的次数。di=Ui-Li是众数所在组的组距=上限-下限某单位80工人一周生产零件