第四章数据分布特征的描述集中趋势(平均指标)(位置)离中趋势(标志变异指标)(分散程度)偏态和峰度(形状)一、数据分布的特征数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差偏态第三节平均指标变量集中趋势的测度一、集中趋势指标的概念及作用1.概念也称平均指标或平均数用来反映标志值的典型水平或标志值分布的中心位置或集中趋势2.作用反映变量分布的集中趋势和一般水平。可用来比较同一总体在不同空间的发展水平可用来分析现象之间的依存关系是统计推断中一个重要的统计量。3、平均指标的分类数值平均数算术平均数调和平均数几何平均数位置平均数众数中位数及其他分位数二、数值平均数(一)算术平均数最常用的平均数。基本形式是数据和除以数据项数。nxnxxxxxn3211、简单算术平均数应用条件:资料未分组,各组出现的次数都是12、加权算术平均数fxfxffxx应用条件:适用于已分组的统计资料3、举例例1:某车间20名工人加工某种零件资料:按日产量分组(件)x工人数(人)f142154168175181合计20件平均日产量1620319日产总量xf28601288518319举例:按日产量分(kg)工人数f20—301030—407040—509050—6030合计200例2:某车间200名工人日产量资料:公斤平均日产量422008400组中值x日产总量xf25250352450454150551650—8400例3:由比重权数计算的应用条件:已知比重权数(次数是比重)按日产量分组(公斤)人数比重(%)组中值x20—3052530—40353540—50454550—601555ff)(42%1555%4545%3535%525公斤平均日产量抽奖返利,顾客真的受益?某大商场策划了一次“还利给顾客”活动,凡一次购物100元以上(含100元)均可当场抽奖。奖金分配见下表商场提醒:平均每份奖金249元,莫失良机呦!等级一等奖二等奖三等奖四等奖幸运奖奖金数15000800010008020中奖人次41070360560(三)是非标志的平均数是非标志:如果按照某种标志把总体只能分为具有某种特征的单位和不具有该种特征的单位两部分,这个标志就是是非标志。是非标志的平均数平均数的计算:把具有某种特征的用“1”表示,不具有该种特征的用“0”表示。是非标志x单位数f比重10合计N10N1NffpNN1qNN0PNN0N1fxfx01是(四)算术平均数的数学性质1、各个变量值与其算术平均数的离差之和等于零对简单算术平均数:对加权算术平均数:0xx0f)xx(算术平均数的数学性质2、各个变量值与其平均数离差平方和为最小值或xx0设最小值2xx最小值fxx2cxx022222220)()(2)()()()(ncxxncxxcxxcxxcxxxx为最小值22202)()()(0xxxxxxnc算术平均数的数学性质3、给每个变量值增加或减少一个任意数A,则算术平均数也相应增加或减少这个任意数A。AxnAxAxffAx返回算术平均数的数学性质4、给每个变量值乘以或除以一个任意数A,则算术平均数也相应扩大或缩小A倍。xAnAxxA1nAxxAfAxfxA1ffAx(五)算术平均数的适用范围1、当变量值是绝对数时,变量值之间是和的关系,在这种情况下,反映现象的平均水平用算术平均数。2、当变量值是相对数或平均数时,变量值之间既不存在和的关系,也不存在相乘的关系,而且已知的是分母资料,在这种情况下,反映现象的平均水平用算术平均数。(二)调和平均数又称倒数平均数,为各个标志值倒数的算术平均数的倒数。记m为各组标志总量,即m=xf,则公式为:fxfxmmx例1速度x行走里程m201152103合计6)(2912126103152201小时里平均速度)(小时里103152201xm201152103所需时间1、简单调和平均数应用条件:资料未分组,各变量值次数都是1。x1x1x1x1x1nnHn321)(31132201101小时里计算公式:举例:一个人步行两里,走第一里时速度为每小时候10里,走第二里时为每小时20里,则平均速度为:2、加权调和平均数计算公式:应用条件:资料经过分组,各组次数不同。xmnn3322xmn321mxmxmxmmmmmH11例2:按日产量分组(件)x日产总量m142815601612817851818合计319xm已知)(1620319件平均日产量工人数(人)24851203、调和平均数的适用范围当变量值是绝对数时,变量值之间是和的关系,而且已知的是分子资料,在这种情况下,反映现象的平均水平用调和平均数。练习题:甲、乙两地同种商品的资料如下表,比较哪个地区的平均价格高并说明原因等级价格甲地销额(元)乙地销量1级1.3130010002级1.2240010003级1.111002000合计___48004000(三)几何平均数(G)概念:n个变量值连乘积的n次方根。1、简单几何平均数计算公式:应用条件:资料未分组2、加权几何平均数nnn321xxxxxGffnfffnxxxxG321321简单几何平均数例:某企业生产某种产品需经过三个连续作业车间才能完成。总的产品合格率三个车间平均合格率车间投入量产出合格品量合格率%x一100080080二80072090三7205047033%4.50%70%90%8010005047205048007201000800%70%90%80例:将一笔钱存入银行,存期10年,以复利计息,10年的利率分别是第1年至第2年为5%、第3年至5年为8%、第6年至第8年为10%、第9年至第10年12%,计算平均年利率。设本金为0x年份累计存款额本利率%1105%2105%3108%………10112%%105%5000xxx2000%105%5%105%105xxx%108%105%8%105%105202020xxx23320%112%110%108%105x%77108%112%110%108%105102332平均本利率本利率x年数f105%2108%3110%3112%2合计10•平均年利率=8.77%3、几何平均数的适用范围当变量值是相对数,而且变量值之间存在连乘关系,反映现象的一般水平时采用几何平均数。三、众数与中位数(一)众数(概念要点)1.出现次数最多的变量值2.不受极端值的影响,可能没有众数或有几个众数3.主要用于定类数据,也可用于定序数据和数值型数据0m无众数原始数据:10591268一个众数原始数据:659855多个众数原始数据:252828364242定类数据的众数(算例)表3-1某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘类其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100.0【例】根据表3-1中的数据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即Mo=商品广告定序数据的众数(算例)【例】根据表3-2中的数据,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0数值型数据的众数(算例)1、由未分组资料确定众数例:7名工人日产量(件)为4、5、6、6、6、7、8。。2、由单项数列确定众数按日产量分组(件)工人数(人)2015213022202310)(21mo件则众数是63、数值型分组数据的众数(1)众数的值与相邻两组频数的分布有关(4)该公式假定众数组的频数在众数组内均匀分布(2)相邻两组的频数相等时,众数组的组中值即为众数Mo(3)相邻两组的频数不相等时,众数采用下列近似公式计算hffffffLM)()(1110MoMo3、数值型分组数据的众数年人均纯收入(千元)农户数(户)5以下2405—64806—711007—87008—93209以上160合计3000(1)确定众数组(在6—7千元组))(6161)7001100()4801100(48011006千元0m(2)计算众数00000000)()(1110mmmmmmmmhfffffflm以下限公式为例:数值型分组数据的众数(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】根据表3-5中的数据,计算50名工人日加工零件数的众数)(1235)1014()814(8141200个M(二)中位数和分位数em1、概念1)按某一标志值大小顺序排列后处于中间位置上的值Me50%50%2)不受极端值的影响3)各变量值与中位数的离差绝对值之和最小,即min1nieiMX2、中位数位置的确定未分组数据:分组数据:21N中位数位置2N中位数位置1)未分组数据的中位数(计算公式)为偶数时当为奇数时当NXXNXMNNNe12221213、中位数的计算数值型未分组数据的中位数(5个数据的算例)原始数据:2422212620中位数22321521N位置排序:2021222426位置:12345数值型未分组数据的中位数(6个数据的算例)原始数据:10591268位置N+126+123.5中位数8+928.5排序:56891012位置:1234562)由单项数列确定中位数例:中位数为第40名的日产量[]按日产量分组(件)x工人数(人)f2010221524302625合计80)(24件累计次数向上累计向下累计1080257055558025——(1)根据位置公式确定中位数所在的组(2)采用下列近似公式计算(3)该公式假定中位数组的频数在该组内均匀分布3、由组距式分组计算中位数hfSNLMmme12数值型分组数据的中位数(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】根据表3-5中的数据,计算50名工人日加工零件数的中位数)(21.12351416250120个eM4、四分位数(概念要点)1)排序后处于25%和75%位置上的值2)不受极端值的影响3)主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%四分位数(位置的确定)未分组数据:组距分组数据:4下四分位数(QL)位置=N+1上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置