statistics《统计学》广东商学院华商学院经济系《统计学》广东商学院华商学院经济系《统计学》广东商学院华商学院经济系第一节数据的预处理数据的预处理包括三个方面:一、数据审核二、数据筛选三、数据排序statistics《统计学》广东商学院华商学院经济系一、数据审核1、原始数据的审核①完整性审核——缺失值②准确性审核——异常值:逻辑检查计算检查2、二手数据的审核①适用性审核②时效性审核statistics《统计学》广东商学院华商学院经济系二、数据筛选1、将某些不符合要求的数据或有明显错误的数据予以剔除;2、将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。如:找出所有的一等品;找出成绩高于70分的同学等。数据筛选中逻辑词的使用:“或”、“且”、“非”。具体的操作,见课本P44-46。statistics《统计学》广东商学院华商学院经济系三、数据排序1、按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2、排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3、在某些场合,排序本身就是分析的目的之一如:《福布斯富豪排行榜》、《胡润富豪排行榜》、《中国大学排行榜》statistics《统计学》广东商学院华商学院经济系第二节数据的整理与展示一、分类型数据的整理与展示二、顺序型数据的整理与展示三、数值型数据的整理与展示statistics《统计学》广东商学院华商学院经济系一、分类型数据的整理与展示1、分类数据的整理①目标:制作频数分布表A、在频数分布表的第一列列出各类别B、整理指标(可计算的统计量):频数(frequency):落在各类别中的数据个数比例(proportion):某一类别数据占全部数据的比值百分比(percentage):将对比的基数作为100而计算的比值比率(ratio):不同类别数值的比值②例题:P51,例3.3(P52,表3-5,3-6)③练习:P78,练习题3.1(将数据作为分类数据来整理)statistics《统计学》广东商学院华商学院经济系、分类数据的展示——图①条形图(BarChart)用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布。绘制时,各类别可以放在纵轴,称为条形图;也可以放在横轴,称为柱形图。例题:根据P52,表3-5的数据绘制条形图练习:P78,练习题3.1statistics《统计学》广东商学院华商学院经济系②帕累托图(ParetoChart)以意大利经济学家V.Pareto的名字命名制作:现将各类别数据按频数由大到小排序,再绘制条形图。优点:A、容易看出哪类数据出现得多,哪类数据出现得少,可用于观察各类别的影响顺序;B、适用于数据类别较多时,是对条形图的改进。例题:根据P52,表3-5的数据绘制帕累托图(先排序)statistics《统计学》广东商学院华商学院经济系③饼图(PieChart)也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形。主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用。绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占360度的相应比例确定的。例题:根据P52,表3-5的数据绘制条形图statistics《统计学》广东商学院华商学院经济系②环形图(annularchart)A、环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。B、环形图与圆形图类似,但又有区别:圆形图只能展示一个总体各部分所占的比例;环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环;环形图主要用于结构比较研究。statistics《统计学》广东商学院华商学院经济系二、顺序数据的整理与展示1、顺序数据的整理①目标:制作频数分布表A、在频数分布表的第一列列出各类别B、整理指标(可计算的统计量):【一个重要规律】在分类数据、顺序数据和数值型数据中,我们常称分类数据相对另两种为低级数据,顺序数据级别稍高,数值型数据为最高级数据。则有:低级数据的方法,高级的数据可以用;但高级数据的方法,低级的数据不可以用。statistics《统计学》广东商学院华商学院经济系因此,顺序数据的整理可以使用分类数据的整理指标:频数、比例、百分比、比率此外,顺序数据的整理有其特有指标:累积A、从内容上看,有:累积频数、累积比例、累计百分比等B、从方向上看,累积有两种:向上累积和向下累积向上累积:顺序数据从顺序开始的一方向顺序的最后的一方累加;向下累积:顺序数据从顺序最后的一方向顺序的开始的一方累加;statistics《统计学》广东商学院华商学院经济系②例题:P59,例3.5,表3-10③练习:P78,练习题3.1【总结1】对向上和向下的重新理解:顺序开始的一方是指差的一方,小的一方;顺序最后的一方是指好的一方,大的一方,因此:向上累积:是从开始→最后;差→好;小→大向下累积:是从最后→开始;好→差;大→小【总结2】累积表示的含义(如:表3-6中)向上累积频数“132”表示:态度不高于“不满意”的有132个向下累积频数“75”表示:态度不低于“满意”的有75个statistics《统计学》广东商学院华商学院经济系、顺序数据的展示根据【规律】,顺序数据可以使用分类数据的条形图、帕累托图、饼图和环形图来展示。顺序数据所特有的图为:累计频数分布图向上累积频数分布图向下累积频数分布图例题:根据P59,例3.5,表3-10的数据制作“向上累积频数分布图”和“向下累积频数分布图”statistics《统计学》广东商学院华商学院经济系三、数值型数据的整理与展示1、数值型数据的整理目标:制作频数分布表:在频数分布表的第一列列出各类别。以P61,例3.6,表3-12为例【问题】数值型数据并无类别解决办法:需创造类别,即“分组”。statistics《统计学》广东商学院华商学院经济系(1)数据分组①单变量值分组:将数据按照总体(或样本)的某个特征变量进行分组,适合于离散变量,适合于变量值较少的情况。如:将某个班学生的年龄,按照学生的性别分组,分为男生的年龄和女生的年龄。②组距分组(距离分组):将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,常用的方法有两种:A、不等距分组:各组的组距不全相等。如:国际上对人口年龄的分组,根据人口成长的生理特点分组为:0~6岁:婴幼儿组;7~17岁:少年儿童组;8~59岁:中青年组;60岁以上:老年组。B、等距分组:每组的组距均相等statistics《统计学》广东商学院华商学院经济系(2)等距分组的步骤(P61,表3-12)①找出数据中的最大值max、最小值min、数据个数n,并计算总距离d=max-min。②确定组数:组数的确定应以能够展示数据的分布特征和规律为目的。在实际分组时,可以按美国学者斯特杰斯Sturges提出的经验公式来确定组数:。该公式求出的结果可以根据需要和方便的原则进行调整。③确定组距:。④写出分组结果。2lg/lg1log12nnKKdd//组数总距离statistics《统计学》广东商学院华商学院经济系(3)制作频数分布表①在频数分布表的第一列列出分组结果②整理指标(可计算的统计量):A、使用分类数据和顺序数据的整理指标:频数、比例、百分比、比率累积频数、累积比例、累积百分比等。B、将比例和百分比统称为“频率”。statistics《统计学》广东商学院华商学院经济系③几个重要问题:A、临界值的处理(如P62,表3-8中150归140~150还是150~160)【两个原则】“不重不漏”“上组限不在内”区间的表示方法:小括号与中括号,四个组合(),[],(],[);根据以上两个重要原则,可知这里区间使用[),因此150归在[150,160)组中。【思考】为何制定“上组限不在内”的原则,而不选取“下组限不在内”的原则?statistics《统计学》广东商学院华商学院经济系、几个重要的概念:下限(lowlimit):一个组的最小值上限(upperlimit):一个组的最大值组距(classwidth):上限与下限之差,组距=上限—下限组中值(classmidpoint):下限与上限之间的中点值☆一般的组中值:组中值☆开口组的组中值计算:组中值例题:P62,例3.6,表3-12练习:P78,练习题3.2,将题中数据按等距分组的方法进行分组。2上限下限22临组组距上限或临组组距下限statistics《统计学》广东商学院华商学院经济系、数值型数据的图示(1)分组数据—直方图和折线图①直方图(histogram)A、制作:在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。B、特点:用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布;直方图下的总面积等于1。C、直方图与条形图的区别:a、条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;b、直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;c、直方图的各矩形通常是连续排列,条形图则是分开排列(由于直方图的横轴是数轴,而条形图的横轴不是数轴);d、条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。例题:利用P62,表3-13的数据制作直方图(选中图形-数据序列格式-选项-分类间距为0)。statistics《统计学》广东商学院华商学院经济系②折线图(frequencypolygon)A、制作:折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。折线图的两个终点要与横轴相交,具体的做法是:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。B、特点:折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。例题:在以上直方图的基础上绘制折线图。statistics《统计学》广东商学院华商学院经济系(2)未分组数据—茎叶图和箱线图①茎叶图(stem-and-leafdisplay)A、制作:由“茎”和“叶”两部分构成,其图形是由数字组成的。以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字,即最后一位。B、特点:用于展示未分组的原始数据的分布;对于n(20n300)个数据,茎叶图最大行数不超过L=10×lgn。C、茎叶图类似于横置的直方图,但又有区别:直方图可观察一组数据的分布状况,但没有给出具体的数值;茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。直方图适用于大