Session2THEME:DescriptiveStatistics(一)数据的整理与显示2.1数据的预处理数据的审核与筛选数据的排序原始数据的审核:完整性、准确性二手数据的审核:适用性和及时性2.2品质数据的整理与显示(一)数据的整理与显示1.定类数据的整理与显示频数与频数分布1)频数:也称次数,是落在各类别中的数据个数;频数分布:用数据概括表的形式来列示若干个互不重叠分组中每组数据出现的次数2.2品质数据的整理与显示例:由购买50台计算机的样本数据得到的频数分布表:公司发生频数相对频数百分比频数苹果130.3626康柏120.3424盖特威-200050.1010IBM90.1818帕科特.贝尔110.2222合计501.001002.2品质数据的整理与显示2)比例(Proportion):总体中各个部分的数量占总体数量的比重,通常用于反映总体的构成或结构。又可以称为相对频数。N1N2N3N4………….,Nk比例:Ni/N。比例的性质含义。2.2品质数据的整理与显示3)百分比频数(Precentage):将比例乘以100,用%表示。4)比率(Ratio):各不同类别的数量的比值。比例与比率的区别。2.2品质数据的整理与显示公司发生频数相对频数百分比频数苹果130.3626康柏120.3424盖特威-200050.1010IBM90.1818帕科特.贝尔110.2222合计501.001002.2品质数据的整理与显示定类数据的图示1)条形图(Barchart)、柱形图频数051015苹果康柏盖特伟IBM帕科特频数频数051015苹果盖特伟帕科特频数2.2品质数据的整理与显示2)圆饼图(Piechart)频数13125911苹果康柏盖特伟IBM帕科特2.2品质数据的整理与显示定类数据整理与显示知识点:条形图和圆饼图是描述频数或百分比分布已经经过汇总的定类数据的图形方法。组别同数据种类关系一致频数总和与数据集中项目总数相同:相对频数总和为1.00;百分比频数总和为100。条形图、柱形图的长度或高度代表频数,其宽度都相同。2.2品质数据的整理与显示2.定序数据的整理与显示累积频数和累积频率1)累积频数(Cumulativefrequencies):就是将各类别的频数逐级累加。向上累加:从类别顺序开始的一方向最后一方累加频数;向下累加:从类别顺序的最后一方向开始一方累加频数。2.2品质数据的整理与显示回答类别甲城市户数(户)百分比(%)向上累积向下累积户数百分比户数百分比非常不满意不满意一般满意非常满意24108934530836311510241322252703008447590100300276168753010092562510合计300100甲城市家庭对住房状况的评价2.2品质数据的整理与显示2)累积频率或百分比(Cumulativepercentages):就是将各类别的百分比逐级累加起来。分向上和向下累积两种方法。定序数据的图示1)累积频数分布图。2)环形图。12345直方图05101512345其他接收频率.00%50.00%100.00%150.00%频率累积%2.3数量数据的整理与显示1.数据的分组:将数据按某种标准化分成不同的组。再进行频数统计,形成频数分布表。单变量值分组:把每一个变量值作为一组。例:某企业10名工人日加工零件数(个)如下:117122107117130115122114118122排序:107114115117117118122122122130(一)频数分布2.3数量数据的整理与显示将上述数据采用单变量分组如下表:零件数(个)频数(人)零件数(个)频数(人)1071114111511172118112231301只适用于离散变量且变量值较少的情况。2.3数量数据的整理与显示组距分组:将全部变量值依次划分若干区间,并将这一区间的变量值作为一组。步骤如下:1)确定互不重叠分组的个数。2)确定每组的组距3)确定组限建议分组数目:5-20个。2.3数量数据的整理与显示例:年终审计时间用时(天)1214191815151817202722232221332814181613第一步:确定组数根据数据集大小确定。Sturgesdes的经验公式本例中N=20,可以取组数为5。2.3数量数据的整理与显示第二步:组距的确定。组距(Classwidth)是一个组上限与下限的差。近似组距=(数据最大值—数据最小值)/组数组限:下限——确定分配给该组可能的最小数据值;上限——确定分配给该组可能的最大数据值。2.3数量数据的整理与显示在本例中,每组的组距近似为:(33—12)/5=4.2采用5作为组宽因此,分组为:10-14,15-19,20-24,25-29,30-342.3数量数据的整理与显示分组中的其他问题:分组的不重不漏原则上组限不在内开口组等距分组和不等距分组频数密度=频数/组距组中值=(下限值+上限值)/2(均匀分布2.3数量数据的整理与显示审计时间数据频数分布审计时间(天)频数10-14415-19820-24525-29229-341合计202.3数量数据的整理与显示(二)相对频数分布和百分比频数分布每组相对频数=每组的频数/nn是数据的个数每组的百分比频数=相对频数*100审计时间(天)相对频数百分比频数10-140.202015-190.404020-240.252525-290.101030-340.055合计1.001002.3数量数据的整理与显示点图直方图(注意区分直方图与条形图的区别)折线图累积分布2.3数量数据的整理与显示051015202530点图:横轴表示数据的值域,数据值打点表示2.3数量数据的整理与显示0102030400.50.40.30.20.1注意:区分条形图与直方图2.3数量数据的整理与显示累积频数分布表格显示小于或等于每组上限的数值次数。审计时间累积频数累积相对频数百分比频数小于等于1440.220小于等于19120.660小于等于24170.8585小于等于29190.9595小于等于342011002.4探索性数据的整理与显示探索性数据分析技术由简单运算和容易绘制的图形组成。常用技术——茎叶图例:6789101189233566011234561222455600246612.4探索性数据的整理与显示交叉(分组)列表:一种同时概括两个变量数据的表格方法,将两个或两个以上具有有限类目数和确定值的变量按一定顺序对应排列在一张表中。分析手段:常常应用行、列的边际分布。2.5交叉分组列表和散点图300家饭店质量等级和餐价交叉列表分组表质量等级餐价/美元总计10-1920-2930-3940-49好42402084非常好3460466150极好214282266总计7811876283002.5交叉分组列表和散点图交叉分组列表的优点:提供了变量之间的关系广泛用于调查两个变量之间的问题交叉列表是统计调查报告最常见的形式之一。2.5交叉分组列表和散点图散点图:12502557314143545454613875638348商店广告次数与销售额资料广告次数销售额0204060800246广告次数销售额销售额2.5交叉分组列表和散点图散点图的类型练习PMP考试要求在4小时内回答200个问题。现在将其中20人正确的答题数列在下表,绘制茎叶图并评估结果。P61,36;P62,38;41。123100688010012389901001321161171201158796102Session2THEME:DescriptiveStatistics(一)数据的数值描述方法主要内容:集中趋势的测度离中趋势的测度探索性数据分析双变量相关关系测度分布集中趋势的测度值反映的是数据一般水平的代表值,或者是数据分布的中心值。从不同的角度考虑,集中趋势的测度值有多个,主要有:•众数(mode)•中位数(median)•分位数(Quartile)•均值(mean)集中趋势的测度集中趋势的测度众数(M0):出现频率最高的一个数据值例:当前手机市场分额:诺基亚摩托罗拉三星TCL波导20.235.716.810.49.6单项式变量数列:找出出现次数最多的标志值就是众数组距式变量数列:首先确定众数组,一般最大频数对应组就是众数组。其次求具体的众数值,通常用下面的近似公式计算:iLM2110(3、1)式中0M表示众数,L表示众数所在组的下组限,1表示众数组与前一组次数之差,2表示众数组次数与后一组次数之差,i表示众数组的组距。众数是一种位置代表值。例如;在农贸市场上某种商品的价格常以众数值为代表。鞋子,帽子等物品的尺码。集中趋势的测度中位数:一组数据从小到大排序后,处于中间位置上的数据值,用Me表示。•如果数据是奇数,中位数处于正中心的一项数据值;•如果数据是偶数,中位数是正中心两项的平均值;计算公式:特点:应用场合。数据是已分组的资料此时原始数值已被隐去,不能直接对其排队求其准确的中位数数值,可用以下的近似公式计算:ifSNLMmme12(3、2)式中2N表示中位数所在位置,L表示中位数所在组的下组限,1mS表示中位数所在组以前各组的累积次数,mf表示中位数所在组的次数,i表示中位数所在组的组距。中位数有这样一个性质,就是数据值与中位数之差的绝对值最小,即min1nieiMX表明数据值与中位数的距离最短,在工程设计中有应用价值。分位数中位数是将统计分布从中间分成相等的两部分,与中位数性质相似的还有四分位数(quartiles)、十分位数(decile)、和百分位数(percentile)。显然,四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布是等分和一百等分的数值。以分位值作集中趋势分析,在西方统计学中讨论和运用较多,在中国较少用到。均值(mean)主要指算术平均数,是数据集中趋势的最主要测度值。任何统计推断和分析都离不开均值。从统计思想看,它反映了一组数据的中心点或代表值,是数据误差互相抵消后,客观事物必然性数量特征的一种反映。从数学公式看,均值有一些非常重要的性质:1数据观察值与均值的离差之和为零,即01NiiXX2数据观察值与均值的离差平方和最小,min21NiiXX3均值是统计分布的均衡点,不论统计分布是对称分布还是偏态分布,只有在均值点上才能支撑这一分布,使其保持平衡,这一均衡点在物理上称为重心。算术平均数它是最常用的集中趋势描述指标,其原因有二:一是因为它的计算方法,与许多客观现象中的个别现象与总体现象之间存在的数量关系相符合;二是算术平均值作为一种变量值的集中值,不仅考虑到变量值的次数,而且考虑到变量值的大小。变量数列中任何次数和变量值大小的变化都会引起算术平均值的改变。因此它是一个最灵敏的指标,也是对资料所提供信息运用最充分的指标。算术平均数的计算通式:由于所掌握资料条件不同,算术平均值有两种具体计算形式:简单算术平均值和加权算术平均值。总体单位总量总体标志总量算术平均数简单算术平均数将被研究标志的各个数值相加,除以具有这个标志的单位数所得之商,就可求出简单算术平均数。即nxnxxxxxn321简单算术平均值的特点是每一变量值出现的次数都等于1。加权算术平均数当变量数列各组次数不等时,计算算术平均值要用加权平均法。这里“权”,是指各组的次数或各组次数占总次数的比重。计算公式:ffxfxfxx:标志的个别数值n:个别数值的项数f:各组次数各组次数占总次数比重实例(单项数列)有三个乡镇企业的工人数及每一企业的月平均工资资料,如何计算所有这些企业共同的月平均工资?表:1999年某地区三个乡镇企业工人工资企业名称工人数(人)月平均工资(元/人)工资总额(元)(甲)fxxf甲1500620310000甲2600625375000