13统计数据的测度表示统计资料的特征数有哪些?集中趋势:对频数分布资料的集中状况和平均水平的综合测度,集中性和共性。离中趋势:对频数分布资料的差异程度和离散程度的测度,用来衡量稳定性和均匀性。2第一节集中趋势的描述集中趋势集中趋势(centraltendency),亦称为趋中性。是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。或者说各观察值有一种向中心集中的趋势,在中心附近的观察值数目较多,远离中心的较少。一般用平均指标来表示。一、集中趋势与平均指标3第一节集中趋势的描述一、集中趋势与平均指标将变量的各变量值差异抽象化,以反映变量值一般水平或平均水平的指标。其数值表现称为平均数。平均指标(AverageIndicators)先进水平,一般水平,落后水平一条平均深度只有0.5米的河,你可以安全走着过河吗?41.平均指标的种类从总体各单位变量值中抽象出具有一般水平的量,这个量是根据各个单位的具体标志值计算出来的,有算术平均数、调和平均数、几何平均数等形式。先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平。具体标志值是确定出来的。有众数、中位数、四分位数等形式。计算方法不同数值平均数位置平均数5二、数值平均数引例某班6个学生的年龄(X)为:16,21,22,23,18,17现求该6个学生的平均年龄?16+21+22+23+18+1719.56如果已知36个学生的年龄,会算吗?62.平均指标的作用利用平均指标可对不同空间的发展水平进行比较可以对某一现象总体在不同时间上的发展水平进行比较,说明现象发展变化的趋势或规律性帮助人们对研究现象的一般数量特征有一个客观的认识利用平均指标可以分析现象之间的依存关系或进行数量上的推算平均指标还可以作为研究和评价事物的一种数量标准或参考7561843212019181719.23636363636(2152061918184173)19.236引例某班36个学生的年龄(X)分布如下表:年龄2120191817人数561843,现求该班的平均年龄?解:年龄人数21201918175618438二、数值平均数(一)算术平均数(ArithmeticAverage)算术平均数称为均值,是观察值的总和除以观察值个数的商12inxxxxxnn1.概念2.分类简单算术平均数加权算术平均数112212iinnnixfxfxfxfxffff9例3.1:《中国统计年鉴2008》资料显示,2007年我国各省份(直辖市)创造的GDP(以当年价格计算,单位:亿元)如表所示,计算各省份(直辖市)GDP的平均规模。省份(市)GDP省份(市)GDP省份(市)GDP北京9353.32辽宁11023.49江西5500.25天津5050.40吉林5284.69山东25965.91河北13709.50黑龙江7065.00重庆4122.51山西5733.35河南15012.46四川10505.30内蒙古6091.12湖北9230.68贵州2741.90上海12188.85湖南9200.00西藏342.19江苏25741.15广东31084.40陕西5465.79浙江18780.44广西5955.65甘肃2702.40安徽7364.18海南1223.28青海783.61福建9249.13云南4741.31宁夏889.20新疆3523.161019353.325050.403523.16318997.97()niixxn亿元简单算术平均数的公式往往用于未经分组整理的原始数据11例3.3:设某厂职工按日产量分组后所得组距数列如下所示,据此求该厂职工的平均日产量。按日产量分组(千克)工人数(人)60以下1060–701970–805080–903690–10027100–11014110以上8合计16412组中值xixifi555506512357537508530609525651051470115920-135501355082.62()164iiixfxf千克加权算术平均数公式往往用于分过组经过整理的数据13按日产量分组(千克)组中值xi(千克)频数(或频率)fifi/∑fi60以下55100.063.360–7065190.127.870–8075500.3022.580–9085360.2218.790–10095270.1615.2100–110105140.099.45110以上11580.055.75合计-1641.0082.62iiifxf权数转换=82.62iiiiiixffxxff(千克)14(2)算术平均数的大小,取决于研究对象的变量值(x)和各变量值重复出现的频数(f)或频率(fi/∑fi)大小的影响。3.注意点121hhiiifffiixxfxfh(3)权数的表现形式(1)简单算术平均数和加权算数平均数的关系if绝对权数iiff相对权数15⒈变量值与其算术平均数的离差之和衡等于零,即:⒉变量值与其算术平均数的离差平方和为最小,即:0)(xxmin)(2xx算术平均数的主要数学性质16离差的概念1x2x3x4x5x6x123456785x-1-1-2130)1(13)2(01)(xx16)1(13)2(01)(2222222xx0175.算术平均数的优缺点优点(1)可用于推算总体标志总量(2)代表性强,在抽样中具有良好的稳定性和可靠性(3)可以进行代数运算缺点(1)当总体中个别单位标志值特别大或特别小时,会导致算术平均数偏大或偏小(2)当组距数列有开口组时,组中值有较大假定性18链接例子1:F1比赛时,A车手第一圈时速300公里,第二圈时速340公里,B车手第一圈时速320公里,第二圈时速318。请问:只赛两圈谁获胜?链接例子2,小学四年级的算术题:一辆小车以每小时80公里的速度从山下开到山顶,又以每小时100公里的速度沿原路返回到山下,问:该车的平均速度。80km/h100km/h11288.89/1111801008010080100SSkmhSS总距离平均速度总时间如果该车山下,山顶来回开,n次的速度分别为x1,x2,x3,…,xn,则平均速度就成为:22318.75/11300340300340ASHkmhSS22319.00/11318320318320BSHkmhSS推广121111nnnHxxxx这一计算方式被定义为“调和平均数”(H)111112121111nnxxxHnxxxn变量值倒数的算术平均数的倒数,故又称为“倒数平均数”(二)调和平均数(harmonicmean)1.简单调和平均数121111innnHxxxx(1)作为算术平均的变形例3.4:三种不同等级的桔子,每公斤单价分别为2元、4元、5元。每种等级各买1元,则均价是多少?定义:调和平均数是变量值倒数的算术平均数的倒数。又称倒数平均数。调和平均通常是作为算术平均数的变形来使用的。但一些特殊的领域,如综合评价,调和平均却是一种独立的统计平均数,有着特定的应用价值。3111124533.16/0.95inHx元公斤例3.4等价于:三种等级的桔子单价分别为2元/公斤、4元/公斤、5元/公斤,分别购买0.5公斤、0.25公斤、0.2公斤,要求计算平均价格。20.540.2550.20.50.250.233.16/0.95iiixfxf元公斤适用于总体资料未经分组整理、尚为原始资料的情况2.加权调和平均数例3.7:法拉利队的车王迈克尔·舒马赫在2004年9月初的一次试车中(F2004),以每小时320公里的速度开了52圈,以每小时345公里的速度开了35圈,而队友巴里切罗以每小时322公里的速度开了45圈,以每小时337公里的速度开了42圈,求两人各自的平均车速。例3.8:三种不同等级的桔子分别买5元、6元、10元,每公斤单价分别为2元、4元、5元,则平均价格是多少?523587329.61/52350.2639320345SSHkmhSS舒距离时间5610213.5/56106245H金额元斤重量454287329.07/45420.2644322337SSHkmhSS巴距离时间加权调和平均数的基本公式1212,,,,,,()nnmmmxxx为变量值相应权重标志值121212inninimmmmHmmmmxxxx选择合适的xi,合适的权重mi应该以组平均作为xi,若无,则用组中值近似代表权重mi应该是具有实际意义的“各组标志总量”适用于总体资料经过分组整理形成变量数列的情况25调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。只要有一个变量值为零,就不能计算调和平均数。当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,这时,调和平均数的代表性就很不可靠。调和平均数应用的范围较小。D.调和平均的特点26甲乙两农贸市场三种农产品的价格和成交量和成交额如下:产品价格甲市场成交额乙市场成交量(元/斤)(万元)(万斤)A1.21.22B1.42.81C1.51.51分别求两个市场农产品的平均价格。思考题:27是N项变量值连乘积的开N次方根。几何平均数各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。简单几何平均数NNNGXXXXX21适用于总体资料未经分组整理尚为原始资料的情况式中:为几何平均数;为变量值的个数;为第个变量值。iiXNGX适用对象:现象的总比率是若干项变量的乘积,或现象的总发展速度是各时期发展速度的连乘积时,计算平均比率或平均发展速度。28【例5】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95﹪、92﹪、90﹪、85﹪、80﹪,求整个流水生产线产品的平均合格率。设最初投产100A个单位,则第一道工序的合格品为100A×0.95;第二道工序的合格品为(100A×0.95)×0.92;……第五道工序的合格品为(100A×0.95×0.92×0.90×0.85)×0.80;因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为:100A×0.95×0.92×0.90×0.85×0.80;则该流水线产品总的合格率为:80.085.090.092.095.0100A80.085.090.092.00.95100A总产品总合格品29﹪24.885349.080.085.090.092.095.055GX解:因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为100A×0.95×0.92×0.90×0.85×0.80;则该流水线产品总的合格率为:即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。30思考若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。几何平均数的计算方法因各车间彼此独立作业,所以有第一车间的合格品为:100×0.95;第二车间的合格品为:100×0.92;……第五车间的合格品为:100×0.80。则该企业全部合格品应为各车间合格品的总和,即总合格品=100×0.95+……+100×0.8031﹪4.8850044210010010080.010095.0fX