第4章 数据分布特征的描述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4章统计数据特征的描述4.1分布集中趋势的测度4.2分布离散程度的测度4.3分布偏态与峰度的侧度4.4茎叶图与箱线图4.5统计表与统计图本章小结学习目标1.掌握数据集中趋势和离散程度的测度方法2.掌握茎叶图和箱线图的制作方法3.掌握分布偏态与峰度的测度方法4.掌握统计表和统计图的使用学习重点侧度数据集中趋势指标的计算方法及应用侧度数据离散程度指标的计算方法及应用统计表与统计图学习难点方差、标准差、变异系数的实质授课学时4学时4.1分布集中趋势的测度分布集中趋势的测度值是反映数据一般水平的代表值或者数据分布的中心值。一、众数二、中位数三、四分位数四、均值五、几何均值六、切尾均值七、众数、中位数和均值的比较众数众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据6.众数计算公式见书页。众数(不惟一性)无众数一个众数多于一个众数中位数中位数(median)1.排序后处于中间位置上的值Me50%50%2.不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据4.各变量值与中位数的离差绝对值之和最小,即e1minniixM中位数计算(1)为分组资料中位数位置=(n+1)/2(奇数项与偶数项)(2)分组资料中位数位置=n/2中位数在累计频数刚刚大于中位数位置的组众数计算公式见书页。四分位数四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%四分位数(位置的确定)未分组数据:4)1(341ULnQnQ位置位置分组数据:434ULnQnQ位置位置均值均值(算数平均数)(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据6.注意均值的平均性简单算数平均数(simplemean)设一组数据为:x1,x2,…,xn总体均值NxNxxxniiN121样本均值nxnxxxxniin121加权算数平均数(weightedmean)设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fk总体均值niikiiikkkffxffffxfxfxx11212211样本均值KiiKiiiKKKffxffffxfxfx11212211加权算数平均数(例题分析)(件)67.10330311011kiikiiiffxx均值(数学性质)1.各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小niixx12min)(1()0niixx几何平均数几何平均数(geometricmean)1.n个变量值乘积的n次方根2.主要用于计算平均比率或平均速度3.计算公式为5.可看作是均值的一种变形nniinnmxxxxG121nxxxxnGniinm121lg)lglg(lg1lg几何平均数(例题分析)【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率%0787.81%9.101%5.125%1.102%5.1044G算术平均:%5.84%9.1%5.25%1.2%5.4G几何平均:几何平均数(例题分析)【例】胡锦涛在十七大报告中提出,实现人均国内生产总值(GDP)到2020年比2000年翻两番。204107.18%niGx切尾均值切尾均值(trimmedMean)1.去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为(1)(2)()2nnnnxxxxnn102n表示观察值的个数;α表示切尾系数,切尾均值(例题分析)【例】谋次比赛共有11名评委,对某位歌手的给分分别是:经整理得到顺序统计量值为123456,,,,,,9.22,9.25,9.20,9.30,9.65,9.30,xxxxxx7891011,,,,9.27,9.20,9.28,9.25,9.24xxxxx(1)(2)(3)(4)(5)(6),,,,,,9.20,9.20,9.22,9.24,9.25,9.25,xxxxxx(7)(8)(9)(10)(11),,,,9.27,9.28,9.30,9.30,9.65xxxxx去掉一个最高分和一个最低分,α取1/11111/111111/11211111/111/11(2)(3)(10)112111/111129.29.229.39.269xxxxxxx众数、中位数和均值的比较众数、中位数和均值的关系左偏(负偏)分布均值中位数众数对称(正态)分布均值=中位数=众数右偏(正偏)分布众数中位数均值众数、中位数、均值的特点和应用1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用4.2分布离散程度的测度分布离散程度的测度值反映数据分布离散和差异程度。主要包括:一、极差二、内距三、方差和标准差四、离散系数极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布R=max(xi)-min(xi)5.计算公式为内距(Inter-QuartileRange,IQR)1.也称四分位差2.上四分位数与下四分位数之差内距=Q3–Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性方差和标准差方差和标准差(VarianceandStandarddeviation)1.反映了数据的分布离散程度和差异程度的最常用的测度值。2.反映了各变量值与均值的平均差异。3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体方差和标准差(simplevarianceandstandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式221()niiXXN2211()kiiikiiXXFF21()niiXXN211()kiiikiiXXFF样本方差和标准差(simplevarianceandstandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!1)(122nxxsnii2211()1kiiikiixxfsf1)(12nxxsnii211()1kiiikiixxfsf样本方差自由度(degreeoffreedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本标准差(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—554002xMiiifxM2样本标准差(例题分析)含义:每一天的销售量与平均数相比,平均相差21.58台)(58.211120554001)(12台nfxMskiii离散系数离散系数(coefficientofvariation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为vxsvs在什么情况下使用离散系数呢?当两个数列的性质相同且均值相等的情况下用标准差说明平均数代表性的高低。当两个数列的性质不同或均值不同的情况下需要用离散系数说明平均数代表性的高低。离散系数(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数(例题分析)结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577)(19.309)(25.53611万元万元sxv2=32.521523.09=0.710)(09.23)(5215.3222万元万元sx例题:有甲、乙两个品种的粮食作物,经播种实验后得知乙品种的平均亩产量为998公斤,标准差为162.7公斤,甲品种实验资料如下,试研究两个品种的平均亩产量,确定哪一品种具有较大稳定性,更有推广价值。亩产量(公斤/亩)100095011009001050播种面积(亩)121110984.3分布偏态与峰度的测度偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!偏态及其测度(skewness)1.统计学家Pearson于1895年首次提出2.数据分布偏斜程度的测度3.偏态系数=0为对称分布4.偏态系数0为右偏分布5.偏态系数0为左偏分布6.计算公式:313()KiiiiXXFSKF偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中值(Mi)频数fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计—12054000070100000iifxM3iifxM4偏态系数(例题分析)103311333()(185)120(21.58)5400000.448120(21.58)kiiiiiixxfMfSKsf结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数峰态及其测度(kurtosis)1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=3扁平峰度适中4.峰态系数3为扁平分布5.峰态系数3为尖峰分布6.计算公式414()KiiiiXXFKF峰态系数(例题分

1 / 86
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功