社会统计资料的整理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

主要内容第三章社会统计资料的整理原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。统计表变量数列的编制统计图统计分组的原则与标准统计分组的原则第一节统计分组的原则与标准1.分组应使各类别构成之和等于总体“穷举”“互斥”2.分组设计应能反映统计总体的分布规律性统计分组主要是为了能很好地反映统计总体的构成状况,即反映总体中各单位的分布特征。分组设计要适应这一要求,必须在分组后使总体单位总数在各组的分配情况能够反映总体的分布规律性。某社团成员的构成性别人数男女2822人数年龄3712181055--6535--4545--5525--3515--25频数分布数列在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。品质数列变量数列100名男性青年的身高表单位:厘米第二节统计表166181173171168164178167156194169175183168165180170172167175173169174172171169173184173169170181185168174187167174169165167172174173155179164158165162157175182168176161171163176159171178172169158163166168160178170164160170166178171167162169165171165168176174163177164170161179177162149169166153177164统计调查搜集来的资料往往是没有次序的原始资料(参见右表),使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。2002年我国城乡人口情况按城乡分比重(%)人口数(万人)12845339.0960.917824150212统计表1.格式统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。总标题乡村城镇100.00合计纵栏标题统计数值横行标题表3.4离婚案件构成草率型外遇型猜疑型虐待型再婚型家务型生理型分居型其他型合计离婚案件(件)比重(%)851479136410447447188314671425996231002.内容主词——统计表所要说明的对象。宾词——用来说明主词的标志和标志值。如需要,主宾词可互换。●简单表我国城市居民家庭基本情况(2002年)主要指标单位数值平均每户家庭人口平均每户就业人口平均每个就业者负担数平均每人全部年收入平均每人可支配收入平均每人消费性支出人人人元元元3.041.581.928177.407702.806029.883.统计表按主词是否分组以及分组的程度可分为简单分组表复合分组表简单表简单设计复合设计中国人口年龄结构状况单位:%年龄组1953年1964年1982年1990年2000年0―14岁15―64岁65岁以上36.359.34.440.755.73.633.661.54.927.766.75.622.970.17.0资料来源|:《2003中国统计年鉴》第99页。●简单分组表●复合分组表我国社会福利主要费用情况单位:亿元项目1998199920002001(一)优抚对象补助金额国家支出集体供给(二)农村传统救济金额国家支出集体供给(三)城乡各种福利院支出国家支出集体供给68.032.435.629.87.022.820.210.39.991.451.140.328.57.920.623.113.79.4107.660.746.931.78.323.428.719.09.7108.169.538.629.512.117.440.526.414.1合计118.0143.0168.0178.1资料来源|:《2003中国统计年鉴》第838页。标题部分1、标题置于表格正上方2、总标题所示要点与表中项目一致,在需要时还应表明资料所属的时间和地区3、表次:左;单位:右4、对分页的同一表格,在每页上端都要写标题,加(续一)、(续二)栏目部分1、先局部后整体2、若栏目较多,可加以编号;统计数字间有计算关系的,可用计算式表达。统计表的制作规则线格部分1、统计表上下两端线应以粗线或双细线标划,表的左右两侧开口。2、各栏间用直线标划,大项目间线条较粗,小栏目线条较细;各行间不必划线条。数字部分1、表中数字要对准位数。2、不存在某数字时,用“——”表示;缺少某项数字时,用“……”表示。3、数字较大时,加分位点。其他规则1、资料来源写在表格下方。2、有说明解释需要时,在表下方注释。3、单位有数种时而不能在表右上角划一标注时,分两种情况处理。变量数列的构成要素第三节变量数列的编制在社会统计学中,总体中各单位的分布特征首先是用统计表来表示的。能够表示变量分布及其特征的统计表,即变量数列。它有两个构成要素:变量值Xi频数fi=NfPiiNfnii111niiP相对频数Pi离散变量数列离散变量所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数,因而能编制出单项式和组距式两种变量数列。单项数列组距数列组距(hi)=上限(ui)―下限(li)组中值(mi)=或组中值(mi)=2iiul2iiilul1.单项式变量数列——数列中每一组的变量值只有一个。单项数列用于离散变量整数值变动幅度较小时。某社区各户人口数统计表人口数(X)户数(f)频率(P)23456785816106410.100.160.320.200.120.080.02合计501.00●离散变量单项数列if组中值(间距组中值()学校数()8―1415―2122―2829―3536―421118253239251084合计——29●离散变量组距数列某地区小学班级数2.组距式变量数列——离散变量的整数值如果变动幅度较大,而且总体单位数N又很大,则要编制组距数列。连续变量数列连续变量因其数学特征,在一个区间可以有无限多数值,无法按顺序一一列举,所以只能编制组距数列。与离散变量组距数列不同之处在于,根据连续变量的特征,此时组距数列中相邻两组的上限和下限共有一个组限,即相邻两组交界处的组限重合。至于恰等于某一组限的数据(如下表中身高164厘米)归于哪一组,应该按照“上限不包括在内”的原则处理。这就是说,164应归于“164—168”这一组,而不应归于“160—l64”这一组。有了这一规定,就不会在编制连续变量的数列时,发生违背“穷举”与“互斥”这两个基本原则的情况了。男青年身高按4厘米的间距分组时的频数分布身高间距(厘米)组中值(Xi)频数(fi)频率(Pi)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―196150154158162166170174178182186190194125101925171253010.010.020.050.100.190.250.170.120.050.030.000.01合计——100——●连续变量数列对于等距分组且为闭口组的情况,确定组距已有某些数学公式可供参考但最佳决定还是依据常识和数列使用的目的而定。一般地说,组距应不小于可以忽略的数值之差。注意,在资料被整理成数列时,全距可适当放大(但不能缩小),以便组数(或组距)取整数值。IgNRh322.31确定组距和组数)组距()全距()组数(hRn异距分组异距分组主要在变量变动并不是均匀的、有急剧上升或突然下降之类情况发生时考虑。标准组距频数的换算方法:(1)选定某一合适的组距为标准组距;(2)用标准组距除以各组组距,得到折合系数;(3)将各组的折合系数乘以各组的频数。组距频数频数密度组距频率频率密度频数密度和标准组距频数计算表男青年按身高分组(厘米)频数组距频数密度折合系数(取标准组距4)标准组距频数148―156156―164164―168168―172172―176176―180180―188188―1963151925171281884444883/815/819/425/417/412/48/81/81/21/211111/21/21.57.519.025.017.012.04.00.5合计100————————累计频数(F)向上累计——以变量数列首组的频数为始点,逐个累计各组的频数,展示小于该组上限的频数和。向下累计——以变量数列末组的频数为始点,逐个累计各组的频数,展示大于该组下限的频数和。频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现。用统计图表示频数分布,较之用统计表,要直观便捷得多。但缺点是不及统计表精确。统计图的种类很多,本节仅就与频数分布数列相衔接的统计图加以介绍。根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。具体方法是:先画直角坐标系,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。第四节统计图条件下,很显然各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数或频率,而且看起来更形象直观。如果取各矩形的总面积为1,各矩形的面积必定等于各组的相对频数。直方图(Histograms)直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。对于定类变量和定序变量的分组,矩形(或长条)的宽度是没有意义的,各矩形之间要留出一定的空隙;对于定距变量(和定比变量)的分组,矩形的宽度表示各组组距,各矩形之间一般不留空隙。在等距分组的其实,在频数分布图中,用面积来理解频数分布状况更合适。比如直方图,当处理异距分组时应该用矩形面积而不是用矩形高度来显示频数分布。下面是根据表3.15绘制出的两个直方图。左图用矩形高度来表示各组频数就会产生错觉。右图是按照标准组距频数作出来的,用矩形面积来表示各组频数就避免了不必要的错觉。以后当我们接触正态曲线等曲线后,将进一步体会到用面积来表示频数分布的好处。折线图(Polygon)表示频数分布的另一种图形是频数多边形图,简称折线图。直接把直方图各矩形顶部的中点用直线连接起来,并把原来的矩形抹掉,就得到频数多边形图。01020304050148-156156-164164-172172-180180-188188-196当变量数列中的组数愈加增多,变量值也非常多时,折线图会逐步过渡到平滑曲线。频数分布曲线图实质上是对应于连续变量的频数分布的函数关系图。曲线图01020304050148-156156-164164-172172-180180-188188-196系列1下表是诺贝尔获奖者的年龄分布表。(1)请根据数据制作直方图和折线图;(2)将折线图修匀为一条曲线图,并描述该曲线的特点。年龄获奖人数25岁以下25~3030~3535~4040~4545~5050岁以上15347068533728合计305常见曲线图类型●钟形曲线:“中间大,两头小”对称分布:正态分布非对称分布:偏态分布——右偏、左偏以横轴为渐近线,与横轴所围的面积为1,代表变量X全部可能取值的概率婚龄、学生身高——近似正态分布收入分配、资源配置——偏态分布●U形曲线:中间小,两头大●J形曲线:正J分布,反J分布●逻辑斯蒂曲线:变量值分布的次数随变量值增大而增多或相反,但有上限。●累计频数分布曲线显然,累计频数分布曲线只有两种形状:或持续增长的或持续减少的。这分别取决于向上累计或向下累计。累计频数分布曲线一般都呈逻辑斯谛曲线形,其斜率最大的地方对应于频数最大的组,其水平

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功