3-1第3章数据的整理与显示3-2第3章数据的整理与显示3.1数据的预处理3.2分布数列3.3统计报表3-3学习目标1.了解数据预处理的内容和目的2.掌握分配数列的整理与显示方法3.用SPSS作频数分布表和形图3-43.1数据的预处理一.数据审核二.数据筛选三.数据排序3-5数据的预处理1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征3-6数据审核—原始数据(rawdata)审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等3-7数据的审核—原始数据(rawdata)审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核3-8数据的审核—二手数据(secondhanddata)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否必要做进一步的加工整理3-9数据筛选(datafilter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔3-10用SPSS进行数据筛选8名学生的考试成绩数据数据筛选(datafilter)3-11数据排序(datarank)1.按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2.排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3.在某些场合,排序本身就是分析的目的之一4.排序可借助于计算机完成3-12数据排序(方法)1.分类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.数值型数据的排序递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)x(2)…x(n)递减排序:可表示为:x(1)x(2)…x(n)3-133.2分布数列一、分布数列的概念和种类二、品质数列的整理和显示三、变量数列的整理和显示四、频数分布的类型3-14分布数列的概念•在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组简的分布,又称次数分配或分布数列。频数(frequency):又叫次数,落在各类别中的数据(单位)个数,记作Fi。频率(ratio):又叫比率,各组次数(频数)与总次数(频数)之比。3-15分布数列的概念频率分布的性质:====110111NiNiiiNiiiFFFF3-16分布数列的种类•品质分布数列(属性分布数列):按品质标志分组形成的分配数列。•变量分布数列(变量分布数列):按数量标志分组形成的分配数列。单项数列:总体按单项式分组而形成的变量数列,每个变量值是一个组,顺序排列。组距数列:总体按组距式分组而形成的变量数列,每个组是由若干个变量值形成的区间表示。分配数列品质数列变量数列单项数列组距数列3-17一、品质分布数列的整理与显示1.分类数据的整理2.顺序数据的整理3-18品质分布数列的整理1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类频数比例百分比比率ABCDE3-19分类数据整理—频数分布表(例题分析)【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据用SPSS制作频数分布表3-20分类数据的图示—条形图(barChart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图3-21分类数据的图示—条形图(例题分析)15119690481216频数可口可乐旭日升冰茶百事可乐汇源果汁露露品牌不同品牌饮料的频数分布3-22分类数据的图示—饼图(pieChart)1.也称圆形图,是用圆形及园内扇形的面积来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3.绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的3-23分类数据的图示—饼图(例题分析)3-24顺序数据的整理1.累积频数(cumulativefrequencies):各类别频数的逐级累加2.累积频率(cumulativepercentages):各类别频率(百分比)的逐级累加3-25顺序数据的频数分布表(例题分析)【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)累计户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.0合计300100.0——3-26顺序数据的频数分布表(例题分析)乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)累计户数(户)百分比(%)非常不满意不满意一般满意非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.0合计300100.0——3-27顺序数据的图示—累计频数分布图(例题分析)甲城市家庭对住房状况评价的累积频数分布3-28环形图(annularchart)1.环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示2.环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环3.环形图可用于结构比较研究4.环形图主要用于展示分类和顺序数据3-29环形图(例题分析)8%36%31%15%7%33%26%21%13%10%非常不满意不满意一般满意非常满意甲乙两城市家庭对住房状况的评价3-30二、变量数列(数值型数据)的整理与显示1.数据分组2.累计频数分布3.数值型数据的图示3-31数据分组3-32分组方法分组方法等距分组异距分组单变量值分组组距分组3-33单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况3-34组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组3-35等距分组(步骤)2.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K3.确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数4.统计出各组的频数并整理成频数分布表lg()113.322lg()lg(2)nKn==1.确定全距(极差):全部变量的最大之与最小值的距离3-36频数分布表的编制(例题分析)【例】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。3-37频数分布表的编制(步骤)1.确定组数:根据Sturges提出的经验公式得组数K为:2.确定各组的组距:组距=(237-141)÷10=9.6103.用SPSS制作频数分布表108)2lg()120lg(1=K3-38组限和组中值1.组限(classlimit):各组的上限界限值2.组下限(lowlimit):一个组的最小值3.组上限(upperlimit):一个组的最大值4.闭口组:上限和下限都齐全的组5.开口组:上限或下限有一个没有的组3-39组限的确定•组限确定有一个基本原则:即按这样的组限分组后,标志值在各组的变动能反映事物的质的变化。•常用的组限表示方法:1.按连续变量分组,由于相邻两组的上限和下限常时同一数值,每组的界限会重叠,为避免计算各组次数时出现混乱,一般的原则是“上组限不在内,或下组限不在内”。2.按离散变量分组,则相邻的上限和现象通常是以两个确定的不同整数值来表示,故相邻两组的上下限可以不重合。3-40等距分组表(上下组限重叠)3-41等距分组表(上下组限间断)3-42等距分组表(使用开口组)3-43组中值(classmidpoint)•组中值(classmidpoint):下限与上限之间的中点值。2邻组组距缺上限的开口组组中值=下限+下限值+上限值2组中值=2邻组组距缺下限的开口组组中值=上限-3-44组距分组与不等距分组(在表现频数分布上的差异)1.等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征2.不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度反映频数分布的实际状况3-45异距分组(几个概念)•标准组距:数列中能被各组组距整除的最大组距。常用数列中的最小组距作为标准组距。各组频数(次数)频数(次数)密度=各组组距各组频率频率密度=各组组距3-46异距分组(例题分析)某厂工人年龄分布情况工人按年龄分组组距人数(人)标准组距人数次数密度15~2020~2525~3030~3535~4545~5055551051728407065101728407032.5103.45.68146.52合计-230——3-47异距分组(例题分析)异距分组的曲线图0102030405060708012.517.522.527.532.540.047.552.5年龄人数系列2系列13-48异距分组(例题分析)标准组距分组的曲线图0102030405060708012.517.522.527.532.540.047.552.5年龄人数0246810121416次数密度系列2系列13-49累计频数分布3-50累计频数分布•在频数分布的基础上将各组频数逐一累计,称为频数分布累计。向上累计:从变量值最低组开始向变量值高的组累计,表明小与该组上限的频数(频率)一共有多少;向下累计:从变量值最高组开始向变量值低的组累计,表明大与该组下限的频数(频率)一共有多少。特点:同一数值的向上累计和向下累计次数之和等于总体总次数。•累计频数分布图:以变量值为横坐标,累计频数和频率为纵坐标。3-51累计频数分布(例题分析)1411591661721771821881962032141431601671731771831891962032151441601681731781841891962052181491611681741781851891962062231501611681741781861901962072251521621701741791861901972082261531631711751791871911972092281531631711751791871921982102331541641721751801871941982102331551651721751801871942002112341561651721761