第四章数据的概括性度量4.1集中趋势度量4.2离散程度的度量4.3偏态与峰态的度量数据分布的特征集中趋势(位置)离中趋势(分散程度)偏态和峰度(形状)4.1集中趋势的度量4.1.1.分类数据:众数4.1.2.顺序数据:中位数和分位数4.1.3.数值型数据:均值4.1.4.众数、中位数和均值的比较1、Mode众数2、MedianandQuartiles中位数和分位数3、Mean平均数Outline概要:4.1.1、分类数据:众数(Mode)1)集中趋势的测度值之一2)出现次数最多的变量值3)不受极端值的影响4)可能没有众数或有几个众数5)主要用于分类数据,也可用于顺序据和数值型数据1、众数的概念TheModeisthevalueoftheobservationthatappearsmostfrequently.众数是观察值中出现得最多的变量值。用Mo表示。Inasetofmeasurements,themodeclassistheclassthatoccurswithgreatestfrequency.在数据集中,众数组是出现频率最高的一组。Setofdatamayhaveonemode(ormodalclass),ortwoormoremodes(ormodalclass).数据集可能有一个众数(组),或两(多)个众数(组)。Mode众数Themodalclass众数组Forlargedatasetsthemodalclassismuchmorerelevantthantheasingle-valuemode.对于大的数据集来说,众数组比单个众数更合适。TypesofMode众数的种类Nomode无众数data:10591268Mode:一个众数data:659855Bimodal:双众数data:252828364242Multimodal:多众数data:3232323334343435363636有时众数是一个合适的代表值比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。2、分类数据的众数(算例)【例】根据第三章表3-3中的数据,计算“饮料类型”的众数解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值。我们看到,在所调查的50人当中,喝“碳酸饮料”的人数最多,为15人,占总被调查人数的30%,因此众数为“碳酸饮料”这一品牌,即Mo=碳酸饮料3、顺序数据的众数(算例)【例】根据第三章例3.5表3-10中的数据,计算众数解:这里的数据为顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意表3-10甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.04、数值型分组数据的众数(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算iffffffLM)()(1110MoMo117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例4.1】某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。数值型分组数据的众数(算例)数值型分组数据的众数(算例)表4-1某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.1】计算50名工人日加工零件数的众数)(1235)1014()814(8141200个M4.2.2、顺序数据:中位数和分位数MedianandProperties1、中位数(概念要点)1)集中趋势的测度值之一2)排序后处于中间位置上的值Me50%50%3)不受极端值的影响4)主要用于顺序数据,也可用数值型数据,但不能用于定类数据5)各变量值与中位数的离差绝对值之和最小,即min1nieiMX2、中位数位置的确定未分组数据:组距分组数据:21N中位数位置2N中位数位置3、顺序数据的中位数(算例)【例3.2】根据第三章表3-4中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般”这一组别中。因此Me=一般表3-4甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—4、数值型未分组数据的中位数(计算公式)为偶数时当为奇数时当NXXNXMNNNe1222121数值型未分组数据的中位数(5个数据的算例)原始数据:2422212620排序:2021222426位置:12345中位数22321521N位置数值型未分组数据的中位数(6个数据的算例)原始数据:10591268排序:56891012位置:123456位置N+126+123.5中位数8+928.51)根据位置公式确定中位数所在的组2)采用下列近似公式计算:3)该公式假定中位数组的频数在该组内均匀分布5、数值型分组数据的中位数(要点及计算公式)ifSNLMmme12数值型分组数据的中位数(算例)表4-2某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.3】根据例4.1中的数据,计算50名工人日加工零件数的中位数)(21.12351416250120个eM6、四分位数(Quartiles)1)集中趋势的测度值之一2)排序后处于25%和75%位置上的值3)不受极端值的影响4)主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%四分位数(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4顺序据的四分位数(算例)【例4.4】根据第三章表3-10中的数据,计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为:QL位置=(300)/4=75上四分位数(QL)的位置为:QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此QL=不满意QU=一般表3-10甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—数值型未分组数据的四分位数(7个数据的算例)原始数据:23213032282526排序:21232526283032位置:1234567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30数值型未分组数据的四分位数(6个数据的算例)原始数据:232130282526排序:212325262830位置:123456QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)=28.5数值型分组数据的四分位数(计算公式)上四分位数:UUUUUifSNLQ4LLLLLifSNLQ4下四分位数:数值型分组数据的四分位数(计算示例)QL位置=50/4=12.5QU位置=3×50/4=37.5表2-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.6】根据例4.1中的数据,计算50名工人日加工零件数的四分位数)(81.117588450115个LQ)(75.128510304503125个UQ4.1.3、定距和定比数据(数值型数据):均值(Mean)一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若X=Y且Y=Z,则X=Z吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?”数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”统计学家与数学家如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你相当舒服。调侃统计学家1、均值的概念与性质1)集中趋势的测度值之一2)最常用的测度值3)一组数据的均衡点所在4)易受极端值的影响5)用于数值型数据,不能用于定类数据和定序数据(一)均值(算术平均数2、均值计算公式设一组数据为:x1,x2,…,xN简单均值的计算公式为设分组后的数据为:M1,M2,…,MN相应的频数为:f1,f2,…,fK加权均值的计算公式为121NiNixxxxxNN11221121KiiNNiKNiiMfMfMfMfxffff简单均值SimpleMean原始数据:10591368112345661059136868.5NiixxxxxxxxN加权均值(WeightedMean)【例4.7】根据第三章表3-9中的数据,计算电脑销售量的平均数1122220185120kiiikiiMfxf(台)表4-3某电脑公司销售量数据平均数计算表加权均值(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X):020100人数分布(F):118乙组:考试成绩(X):020100人数分布(F):811x甲0×1+20×1+100×8n10i=1xi82(分)x乙0×8+20×1+100×1n10i=1xi12(分)权数与加权234567819权数与加权权数与加权23456781924.421191817263554432221x权数与加权23456781924.421191817263554432221x算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置3、均值的数学性质1).各变量值与均值的离差之和等于零2).各变量值与均值的离差平方和最小21()minniixx1()0niixx【例】设X=(2,4,6,8),则其调和平均数可由定义计算如下:⒉再求算术平均数:481614121⒈求各标志值的倒数:,,,21416181⒊再求倒数:816141214是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数(二)、调和平均数harmean(harmonicmean)[例]某种蔬菜早上0.4元/斤,中午0.25元/斤,晚上0.20元/斤,某人各买1斤