LOGO第二章数据的组织与展示LOGO本章主要内容一、什么是变量?二、数据的测量层次三、不同类型数据的展示方法LOGO概念(Concept):人们对事物本质的认识,是研究的基本单位,具有抽象性。定义(Definition):将概念呈现、描述出来,从而明确认识对象。操作化定义(Operationaldefinition):用一系列可以观察、可以测量的指标来模拟或表述定义,使得非量化的概念得以运算并得以操作测量。几个容易混淆的概念LOGO概念抽象定义操作化定义都市化现代都市的生活形态妇女就业人数、子女数、交通;通讯手段等个人现代化一个人由于经济、工业等现代因素所产生的内部变化对时间、效率、家庭、亲属、消费、自信等具体问题的看法子代中心经济上、感情上和生活上对子代过分的偏重子代抚育费与家庭平均消费的比较、子代过生日的花费与长辈生日花费的比较、花在子代闲暇时间的多少等LOGO变量(Variables)——在统计学中表示研究对象的特征,变量下的各种表现形式或不同取值,就是变量值。变量变量变量值性别家庭子女数重要性文化程度男;女1个;2个;3个;…非常重要;一般;不重要大学;中学;小学;文盲变量取值时注意的问题:穷尽性互斥性LOGO变量的类型连续型变量离散型变量年龄收入民族职业LOGO7二、变量的测量层次史蒂文斯在1951年创立了被广泛采用的测量层次分类法,对社会现象各种不同性质和特征的测量分为四种,定类测量、定序测量、定距测量和定比测量,不同测量层次对应的测量对象则分别称为定类变量、定序变量、定距变量和定比变量。LOGO8定类测量其在本质上是一种分类体系,即将调查对象的不同属性或特征加以区分,变项的值只能把研究对象分类,即只能决定研究对象是同类抑或不同类,具有等于或不等于的数学特质。如对人们的性别、民族、婚姻状况、职业等的测量就是定类测量的例子。LOGO9定类变量实质是一种分类体系,分类既要具有穷尽性,又要具有互斥性。所分的类别是相互排斥,又要对可能的各种情况包罗无遗,每个调查者属于其中的一种情况。LOGO10定类变量的两种属性对称性。是指甲对乙的关系也就是乙对甲的关系,如果甲和乙同类,乙一定与甲同类。传递性。指的是如果甲与乙同类,而乙与丙同类,那么甲一定与丙同类。LOGO11定序测量其取值按照某种逻辑顺序将调查对象排列出高低或大小,确定其等级及次序。其取值不仅具有等于不等于的特征,还具有大于或小于的特征。如文化程度、收入水平(高、中、低)、城市规模(特大城市、大城市、中等城市、小城市等等)LOGO12除了具有定类测量区分事物类别的特征外,还能反映事物或现象的高低、大小、强弱等等级序列上的差异。其数学特征是大于或小于,因此具备不对称性。传递性关系依然存在。LOGO13定距测量也称为间距测量或区间测量。它不仅能够将社会现象或事物区分出不同的类别、不同的等级,而且可以确定它们相互之间的距离和数量等级差异。如测量人的智商:张三120-李四110=10测量温度:厦门28-南京24=4南京24-济南24=0LOGO14注意:定距测量所得的值可以为0,但这个0不具备数学中0的含义。如0度,我们不能说没有温度,表示的是一个特定的数字。LOGO15定比测量定比测量除了具有上述3种层次测量的全部性质外,还有一个绝对的0值。因此,它测量得到的数据既能进行加减运算,又能进行乘除运算。如张三的月收入是3000元,李四的月收入是2000元。(1)在分析的时候,即可以说张三的收入高于李四的收入(定序),(2)也可以得到张三的月收入比李四高1000元(定距),(3)还可以说张三的月收入是李四月收入的1.5倍。(定比)LOGO16四种测量层次的数学特性定类测量定序测量定距测量定比测量类别区分(=、≠)√√√√次序区分(>、<)√√√距离区分(+、-)√√比例区分(×、÷)√LOGO17请判断下列变量属于哪种类型的变量他们的年龄分别是:17,18,22,24,27,29,32….他们是:中年,青年,老年,儿童,青少年,…..他们的月收入分别是:3000,5000,6000,2000,8000,1000,…..他们的收入分别是:1000-2000,2000-3000,3000-4000,……他们的态度分别是:同意,不同意,说不清,同意,不同意,不同意,同意,……LOGO1.在社会学研究中,一般不区分定距和定比变量,而是当作一类,称作定距变量。2.一个变量的层次并不是唯一的,高层次的变量必然会包含低层次的所有特征。测量层次愈高愈好,统计分析时愈方便。3.变量之间是可以相互转换的,这对于后期的数据处理很重要:定距层次的转换为定序;定序层次的转换为定距层次。100名男性青年的身高表单位:厘米三、数据的组织与展示166181173171168164178167156194169175183168165180170172167175173169174172171169173184173169170181185168174187167174169165167172174173155179164158165162157175182168176161171163176159171178172169158163166168160178170164160170166178171167162169165171165168176174163177164170161179177162149169166153177164统计调查收集来的资料往往是没有次序的原始资料(参见右表),使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。LOGO三、数据的组织与展示(一)定类数据的组织与展示(二)定序数据的组织与展示(三)定距数据的组织与展示LOGO(一)定类数据的组织与展示1、定类变量的组织:频数分布表先分类、建立频数分布表、计算每一类别的百分比性别频次百分比(%)男女2747155963.836.2总计4306100表1:微博用户的性别统计表(N=4306)(资料来源:SSI在线样本库,调查地包括北京、上海、广州、深圳、成都、沈阳、西安、杭州八市)表头表号标识行主体行表尾表2:我国社会福利主要费用情况单位:亿元项目1998199920002001(一)优抚对象补助金额国家支出集体供给(二)农村传统救济金额国家支出集体供给(三)城乡各种福利院支出国家支出集体供给68.032.435.629.87.022.820.210.39.991.451.140.328.57.920.623.113.79.4107.660.746.931.78.323.428.719.09.7108.169.538.629.512.117.440.526.414.1合计118.0143.0168.0178.1资料来源|:《2003中国统计年鉴》第838页。标题部分1、标题置于表格正上方2、总标题所示要点与表中项目一致,在需要时还应表明资料所属的时间和地区3、表号:左;单位:右4、对分页的同一表格,在每页上端都要写标题,加(续一)、(续二)栏目部分1、先局部后整体2、若栏目较多,可加以编号;统计数字间有计算关系的,可用计算式表达。统计表的制作规则线格部分1、统计表上下两端线应以粗线标划,表的左右两侧开口。2、各栏间用直线标划,大项目间线条较粗,小栏目线条较细;各行间不必划线条。数字部分1、表中数字要对准位数,小数点对齐。2、不存在某数字时,用“——”表示;缺少某项数字时,用“……”表示。3、数字较大时,加分位点。其他规则1、资料来源写在表格下方。2、有说明解释需要时,在表下方注释。3、单位有数种时而不能在表右上角划一标注时,可在标识栏中注明,也可注释说明。LOGO2.定类数据的图示1.条形图2.对比条形图3.饼图LOGO(二)定序变量的数据组织表3:微博用户的教育程度统计(N=4306)受教育程度频数百分比初中及以下高中、职高、技校大专大学本科研究生及以上1723786627524340.45.520.163.910.1总计4306100(资料来源:SSI在线样本库,调查地包括北京、上海、广州、深圳、成都、沈阳、西安、杭州八市)累积频数表(CF)•向上累计——以变量数列首组的频数为始点,逐个累计各组的频数,展示小于该组上限的频数和。•向下累计——以变量数列末组的频数为始点,逐个累计各组的频数,展示大于该组下限的频数和。受教育程度频数百分比Cfcf初中高中、职高、技校大专大学本科研究生及以上1723786627524340.45.520.163.910.10.45.926.089.9100.0100.099.694.174.010.1总计4306100LOGO(三)定距和定比变量统计表定距和定比变量的两种类型:•离散型变量——取值为有限个或列为有限个,如子女数•连续型变量——取值为有限或无限区间内的任意实数,即变量的取值连续,如身高若变量为离散型变量,且取值相对较少,可以按照定类或定序统计表方式统计频次或百分比。若变量为连续型变量,则需要将变量值分为若干个区间或组,统计每一个组内的频次或百分比。•数据分组时需要考虑的几个问题:A组数B组距C组限LOGO如何制作分组统计表1、确定组数:一般调查总数N与分组数有如下经验关系调查总数N分组数K50~1006~10100~2507~12250以上10~202、确定组距:分为等距分组与非等距分组,一般来说为等距分组等距分组组距计算公式:组距(h)=(最大值-最小值)/组数斯特格斯(Sturges)经验公式确定组数:K=1+3.322lgNLOGOi+i2ib第组上限值第组下限值3、确定组限:一个组的最小值叫下限,最大值叫上限各组中心值bi计算公式4、分组原则:不重复、不遗漏,组上限不在内5、中心值计算缺上限开口组组中值bi=下限+邻组组距/2缺下限开口组组中值bi=上限-邻组组距/2LOGO收入组组中值百分比1000元以下20.21000-2000150045.12000-3000250022.83000-400035007.64000元以上4.3**地区残疾人月收入统计表(N=1000)5004500LOGO分组统计表例表例:某车间50名工人日加工零件数117122124129139107117130122125110118123126133134127123118112108131125117122133126122118108112134127123119113120123118112137114120128124115139128124121LOGO分组步骤:1、确定组数:K=1+3.322lg50≈72、计算组距:h=(L-S)/K=(139-107)/7=4.6≈53、确定组限,编制频数分布表组号日加工零件数中心值频数频率(%)累计百分比%cf1105-110107.53662110-115112.5510163115-120117.5816324120-125122.51428605125-130127.51020806130-135132.5612927135-140137.548100合计50100表1:工人日加工零件频数分布表100名男性青年的身高表单位:厘米三、数据的组织与展示166181173171168164178167156194169175183168165180170172167175173169174172171169173184173169170181185168174187167174169165167172174173155179164158165162157175182168176161171163176159171178172169158163166168160178170164160170166178171167162169165171165168176174163177164170161179177162149169166153177164课堂练习