第4章 数据分布特征的测度

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4章数据分布特征的测度数据分布特征的描述Std.Dev=1.09Mean=-.04N=100.00数据的“中间位置”离散程度的度量这两个数据“胖瘦”一样吗?数据分布的特征集中趋势(位置)偏态和峰态(形状)离中趋势(分散程度)数据分布特征的描述离散程度变异系数标准差方差全距分布的形状峰度系数偏态系数集中趋势众数中位数位置平均数数值平均数算术平均数几何平均数数据的分布特征和测度数据分布特征的测度4.1集中趋势的测度4.2离中趋势的测度4.3偏度和峰度的测度学习目标了解集中趋势指标的概念、特点和作用,掌握各种平均数的计算方法、应用条件以及几种平均数之间的关系。了解离中趋势指标的概念、种类和作用及与平均指标的区别。其中重点是标准差与离散系数的计算。了解数据的分布形态测定方法。了解各项指标的应用原则,能结合实际调查资料计算有关指标和进行初步的分析。4.1集中趋势的测度数据集中位置变量x集中趋势指标(也叫平均指标)反映同类现象的一般水平或平均水平,是总体内各单位参差不齐的标志值的代表值,也是对变量分布集中趋势的测定。集中趋势指标它是一个抽象值;它是一个代表值;它反映了总体(各单位标志值)分布的集中趋势。x按计算方法不同算术平均数调和平均数几何平均数众数中位数数值平均数(位置平均数)数值型数据定序数据定类数据低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据4.1.1众数(mode)1.一组数据中出现次数最多的变量值;2.适合于数据量较多时使用;3.不受极端值的影响;4.一组数据可能没有众数或有几个众数;5.主要用于分类数据,也可用于顺序数据和数值型数据。众数无众数原始数据:10591268多于一个众数原始数据:252828364242一个众数原始数据:659855定类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个定类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占被调查总人数的30%,因此众数为“可口可乐”这一品牌,即Mo=可口可乐定序数据的众数(例题分析)解:这里的数据为定序数据。变量为“回答类别”该城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意表4-1某城市家庭对住房状况评价的频数分布回答类别户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0统计函数—MODE4.1.2中位数(median)1.按数值大小排序后处于中间位置上的值;Me50%50%2.不受极端值的影响;3.主要用于定序数据,也可用定量数据,但不能用于定类数据;数值型数据的中位数(奇数个数据)例4-1:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数Me1080521921n位置统计函数—MEDIAN数值型数据的中位数(偶数个数据)例4-2:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:123456789105.5211021n位置102021080960中位数箱式图中位数(位置和数值的确定)位置确定21n中位数位置为偶数为奇数nxxnxMnnne1222121数值确定未分组数据—箱线图(boxplot)1.用于显示未分组的原始数据的分布;2.由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成;3.绘制方法:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU);连接两个四分位数画出箱子,再将两个极值点与箱子相连接;该箱线图也称为Median/Quart./Range箱线图。箱线图的构成4681012中位数QUQLX最大值X最小值Median/Quart./Range箱线图箱线图的构成:单批数据箱线图最小值141最大值237中位数182下四分位数170.8上四分位数197140150160170180190200210220230240某电脑公司销售量数据的Median/Quart./Range箱线图分布的形状与箱线图对称分布QL中位数QU左偏分布QL中位数QU右偏分布QL中位数QU不同分布的箱线图未分组数据—箱线图(boxplot)箱式图包含的信息比直方图和茎叶图都少,所以它的最佳用途是用来同时比较多个分布。例如,为了解不同教育程度的人的收入差别,根据某年71512个人的收入的抽样调查结果,得到的不同受教育程度的人的收入分布如下图:4.1.3算术平均数设一组数据为:X1,X2,…,XN简单算术平均数的计算公式为(未分组数据)设分组后的数据为:X1,X2,…,XK相应的频数为:f1,f2,…,fK加权算术平均数的计算公式为(分组数据)NXNXXXXN1iiN21K1iiK1iiiN21NN2211ffXffffXfXfXX各单位标志值的和总单位数..例4-3:某厂工人各级别工资额和相应工人数资料如下表4-5:工资额(元)工人数(人)46052060070085051518102合计50工资总额(元)xf?试计算工人平均工资。29600xf780070001700108002300=×各组标志值各组单位数各组标志总量表4-3数单位单位标志总量算术平均数工人总数工资总额5925029600各组工人数f各组工资总额xf注意:由组距数列计算加权算术平均数,可用组中值代表各组变量值。..185120222001ikiiiffMx表4-4某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200天数电脑销售总量单位数标志总量每天电脑销售量平均..调和平均数调和平均数的概念:也叫倒数平均数,一般认为是算术平均数的变形。xmmxmxmxmmmmxnnnH......221121..几何平均数几何平均数(G)的概念:它是分布数列中n个单位标志值连乘积的n次方根。适用于计算时间上相互衔接的比率的平均数;主要用于计算平均发展速度;计算公式为:nnxxxxxGn321..几何平均数(例题分析)例4-4:某产品需经三个车间加工,已知第一个车间加工合格率为95%,第二个车间加工合格率为90%,第三个车间加工合格率为98%,求三个车间平均加工合格率。94.275%98%90%95%...x.x.xxG3nn321..几何平均数(例题分析)例4-5:一位投资者持有一支股票,在2000、2001、2002、2003年的收益率分别为4.5%、2.1%、25.5%和1.9%。计算该股票在这四年中的平均收益率。8.0787%9%102.1%104.5%...x.x.xxG4nn3211.101%5.1254.1.4众数、中位数和均值的比较众数、中位数和均值的关系众数、中位数、平均数的特点和应用场合众数、中位数和平均数的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值众数、中位数、平均数的特点和应用1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用1()0niiXX各变量值与均值的离差之和等于零21()minniiXX各变量值与均值的离差平方和最小表4-5数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值众数中位数算术平均数算术平均数—众数众数调和平均数—中位数几何平均数——中位数———众数数据类型和所适用的集中趋势测度值4.2离中趋势的测度离中趋势1.数据分布的另一个重要特征;2.反映各变量值远离其中心值的程度,因此也称为离散趋势。3.从另一个侧面说明了集中趋势测度值的代表程度;4.不同类型的数据有不同的离散程度测度值;甲组:8080808080平均数为80乙组:7075808590平均数为80丙组:2182596259平均数为80异众比率(variationratio)1.对分类数据离散程度的测度;2.非众数组的频数占总频数的比例;3.计算公式为:4.用于衡量众数的代表性。imimirfffffv1异众比率(例题分析)解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好。%707.050151501550rv不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100极差(range)1.一组数据的最大值与最小值之差;2.离散程度的最简单测度值;3.易受极端值影响;4.未考虑数据的分布。R=max(xi)-min(xi)5.计算公式为:平均差1.各变量值与其平均数离差绝对值的平均数;2.能全面反映一组数据的离散程度;3.数学性质较差,实际中应用较少。4.计算公式为:未分组数据组距分组数据nxxMn1iidik1iiidffxMM0x..根据表4-6:试问A、B两组那一组学生的平均考分更有代表性?学生序号考分(分)xAxB甲乙丙丁戊65707580856870768081合计375375AAxx离差-10-50510—解:离差绝对值离差离差绝对值nxxMDAAA(分/人)6530nxxMDBBB(分/人)4.8524∵MDA>MDB故,B组学生平均考分比A组学生平均考分更有代表性。AAxx105051030BBxx-7-5156—BBxx7515624BxxA分75方差和标准差(varianceandstandarddeviation)1.数据离散程度的最常用测度值;2.反映了各变量值与均值的平均差异;3.根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s)。..总体标准差总体标准差的计算方法1.简单标准差2.加权标准差nxxσ2)(ffxxσ2)((未分组数列)(分组数列)样本方差和标准差未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!1)(122nxxsnii1)(122nfxMskiii1)(12nxxsnii1)(12nfxMskiii..根据表4-7:学生序号考分(分)xAxB甲乙丙丁戊65707580856870768081合计375375离差离差平方离差离差平方BBxx-10-50510—10025025100-7-5156492512536—136250试问A、B两组那一组学生的平均考分更有代表性?解:nxxσ2A)((

1 / 63
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功