管理数量方法与分析第一章数据分析的基础1.1数据分组与变量数列1.2分布中心的测度1.3离散程度的测度1.4偏度与峰度1.5两个变量之间的相关关系1.3离散程度的测度1.3.1离散程度测度的概念1.3.2离散程度的测度指标与计算方法1.3.1离散程度测度的概念离散程度测度是变量次数分布的另一个重要特征,反映各变量值远离其分布中心的程度(离散程度).从另一个侧面说明了分布中心测度值的代表程度.说明离散程度测度值越小,说明分布中心测度值对各变量值的代表程度就越高;即分布中心值与各个变量值的之间的差异就小.说明离散程度的测度值,也可以用来描述变量分布曲线的形状;测度值越小,其分布取线越陡峭;反之,越平缓.密度曲线下方,横轴上方面积等于1.测度变量值的离散程度的指标主要有极差、四份位差、平均差、方差、标准差、变异系数。1.3.2离散程度的测度指标1.极差也称全距,变量所有取值中最大值和最小值的差,用来表示变量的变动范围.用R表示.既有R=max-min(1)单项式数列R=最大一组变量值-最小一组变量值(2)组距数列R=最大一组上限-最小一组下限说明是测度离散程度最简单、最粗略的测度指标,非常容易受极端值的影响,与中间变量值无关。2.四分位极差也称内距,将变量值从小到大排序,再将其四等分,三个分点称为四分位点,分位点处相应的变量值称为四分位数,依次称为第一、第二、第三分位数,记为Q1,Q2,Q3,称第一分位数与第三分位数差的绝对值为四分位极差,记为IQR=|Q1-Q3|。说明不受极端值的影响,与中间50%的变量值有关,与左侧25%,右侧25%的变量值无关;但仍然存在不能完整地、准确地描述数据的分散程度。Q1Q2Q325%25%25%25%例1.3.1见书P27例题1.163.平均差以平均数为标准,讨论各个变量值与平均数的离散程度.平均差各变量值与其算术平均值离差绝对值的算术平均数,记为AD或Md.平均差反映了变量各个取值离其算术平均数的平均距离.平均差的意义非常明确,但由于计算时牵涉到绝对值.数学性质不好,故不常用.(1)未分组数据(2)组距分组数据nxxMnii1d平均差的计算公式其中xi—第i组的组中值niiniiidffxxM11fi—第i组的频数例1.3.2见书P29例题1.17例1.3.3续例1.3利用电脑公司120天销售数据编制的分布数列.计算每天的平均销售量与平均差.某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040平均销售量含义平均每天销售185台电脑,每一天的销售量平均数相比,平均相差17台.ffffxfxfxxnn21221118512022200平均差niiniiidffxxM111712020403.方差与标准差仍以平均数为标准,讨论各个变量值与平均数的离散程度.避免平均差中的绝对值引出.方差各变量值与其算术平均值离差平方的算术平均数,记为σ2.最常用离散程度的测度指标.标准差各变量值与其算术平均值离差平方的算术平均数的算术平方根,记为σ.最常用的离散程度的测度指标.方差与标准差均是反映了各变量值与均值的平均差异.根据所掌握资料的不同其计算公式不同,有简单平均法,加权平均法未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式221()NiixxN21()NiixxNniiniiiffxx1122)(niiniiiffxx112)(例1.3.4计算下列两组学生成绩的方差与标准差:(1)50,80,95,100,100;(2)75,82,85,88,95;解计算两组学生的平均成绩,85,8521xx25242322212151xxxxxxxxxx3608510085100859585808550512222297.183601,85,8521xx6.4385958588858585828575512222225242322212251xxxxxxxxxx6.66.432例1.3.5见书P30例题1.184.变异系数极差、四分位极差、平均差、方差、标准差用来比较同一属性(单位相同)的两组数据的离散程度,尤其是平均数相同的情况下,用方差、标准差说明数据的离散程度;但当平均数不相同,或不同单位不同属性的两组数据的离散程度可借变异系数来说明数据的离散程度.平均差、方差与标准差均是衡量变量各个取值之间的绝对差异程度的指标,都具有一定的量纲.其大小即与变量值的差异程度有关,还与变量取值的水平即数量级有关.变异系数是衡量变量各个取值之间的相对差异程度的指标,不具有量纲.变异系数消除了数据水平高低和计量单位的影响,用绝对差异指标除以算术平均数获得.变异系数各个衡量变量取值之间的绝对差异指标与算术平均数的比率.变异系数主要有极差变异系数、平均差变异系数、标准差变异系数,具体计算公式%100xRVR%100xMVdMd%100xV例1.3.6某管理局抽查了所属的8家企业,其产品销售数据如表.试比较产品销售额与销售利润的离散程度.某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0解结论计算结果表明,V1V2,说明产品销售额的离散程度小于销售利润的离散程度)(19.309)(25.53611万元万元x)(09.23)(5215.3222万元万元x%100111xV%7.57%10025.53619.309%100222xV%0.71%1005215.3209.231.4偏度与峰度1.4.1偏度与峰度的概念1.4.2偏度的测度1.4.3峰度的测度偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!1.4.1偏度与峰度的概念分布中心的测度值描述变量分布的中心“位置”;离散程度的测度值描述变量分布相对于中心位置的分散程度;然而变量分布是否关于中心位置的对称,偏斜的程度如何度量?变量分布图的平缓与陡峭程度如何度量?描述变量分布的偏斜程度,即变量取值分布非对称的程度的指标—偏度;描述变量分布密度曲线顶部的平缓与陡峭程度的指标—峰度.1.4.2偏态的测度偏态是指变量分布偏斜程度的,是统计学Pearson于1895年首次提出,用偏态系数来衡量偏斜程度,用SKp表示.其方法主要有直观偏度系数测度法与矩偏度系数测度法.当偏态系数SKp=0为对称分布;偏态系数SKp0为右偏分布;偏态系数SKp0为左偏分布.1.直观偏度系数(1)皮尔逊偏度系数直观偏态系数---利用描述变量分布中心的不同指标之间的直观关系而确定的测度变量分布偏斜程度的指标.主要有皮尔逊偏度系数与鲍莱偏度系数.皮尔逊测度法是利用算术平均数与众数的关系来测度变量分布的偏斜程度的方法.当算术平均数与众数的距离越远,说明变量分布偏斜的程度越大.即用算术平均数与众数的离差来反映变量偏斜的程度,为了得到一个纯粹的反映变量分布偏斜程度的指标,除以标准差,此时此量无量纲.皮尔逊偏态系数的计算公式在偏斜程度适度的情况下,-3≦SKp≦3.当均值等于众数,即SKp=0时,变量分布呈对称分布;当均值大于众数,即SKp0时,变量分布呈右偏分布;当均值小于众数,即SKp0时,变量分布呈左偏分布;皮尔逊偏态系数的绝对值越小,说明变量分布的偏斜程度就越小。0MxSKp(2)鲍莱偏度系数鲍莱测度法是利用中位数与四分位数的关系来测度变量分布的偏斜程度的方法.用中位数与第一(下)分位数Q1、第三(上)分位数Q3之间的距离来判断变量分布的偏斜程度.即用|Me-Q1|=Me-Q1与|Me-Q3|=Q3-Me的大小来判断.为了得到一个纯粹的反映变量分布偏斜程度的指标,除以Q3-Q1,此时此量无量纲.鲍莱偏态系数的计算公式在偏斜程度适度的情况下,-1≦SKb≦1.当Me-Q1=Q3-Me,即SKb=0时,变量分布呈对称分布;当(Me-Q1)(Q3-Me),即SKb0时,变量分布呈右偏分布;当(Me-Q1)(Q3-Me),即SKb0时,变量分布呈左偏分布;皮尔逊偏态系数的绝对值越小,说明变量分布的偏斜程度就越小;皮尔逊偏态系数的绝对值越接近于1,偏斜程度越大.)()()(1313QQQMMQSKeeb2.矩偏度系数矩偏态系数---利用变量的矩来确定的测度变量分布偏斜程度的指标.变量的矩有原点矩与中心矩.原点矩变量值的m次方的算术平均数称为变量的m阶原点矩,记为中心矩变量值与变量算术平均数的离差的m次方的算术平均数称为变量的m阶中心矩,记为mxmS矩的计算方法简单平均法原点矩中心矩nxxnimmi1加权平均法kiikiimmffxxi1简单平均法nxxSnimim1)(加权平均法kiikiimimffxxS11)(由中心矩的计算公式知偶数阶中心矩非负,一阶中心矩=0,其余奇数阶的中心矩随变量分布的偏斜程度不同而不同.故用奇数阶的中心矩作为偏斜程度指标.当变量分布右偏时,其三阶及以上的奇数阶的中心矩均大于0;当变量分布左偏时,其三阶及以上的奇数阶的中心矩均小于0.为了得到一个纯粹的反映变量分布偏斜程度的指标,常用三阶中心矩除以标准差的三次方,此时此量无量纲.矩偏态系数的计算公式当S3=0,即SKm=0时,变量分布呈对称分布;当S30,即SKm0时,变量分布呈右偏分布;当S30,即SKb0时,变量分布呈左偏分布;矩偏态系数的绝对值越小,说明变量分布的偏斜程度就越小;33SSKm1.4.3峰态的测度峰度描述数据分布的扁平程度,是以标准状态分布为标准,描述数据分布曲线的顶端相对于正态分布顶端而言是平坦还是尖削的程度;峰态是统计学家Pearson于1905年首次提出;用峰度系数的大小来衡量,用Ku表示.统计中借助于四阶中心矩来测度峰度,此量是绝对量,无可比性.为了得到一个纯粹的反映变量分布陡峭程度的指标,常用四阶中心矩除以标准差的四次方,此时此量无量纲.峰度系数的计算公式可以证明当Ku=3时,变量分布为正态分布,故通常以峰度系数Ku=3为比较的标准;当Ku3时,变量分布密度曲线比较尖峭;当Ku3时,变量分布密度曲线比较平缓;44SKukiikiiiffxx1414)(例1.4.1利用表中资料计算偏态系数与峰态系数,并指出电脑销售量分布偏斜程度与陡峭程度.某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中值(Mi)频数fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计—12054000070100000iifxM3iifxM4解313nsf)xM(SKkii