第六章标志变异指标分析第一节变异度指标的概念与作用第二节变异度指标的种类与计算方法第三节偏度与峰度练习题本章学习目标本章的学习目标明确变异度指标的概念、种类与作用;掌握方差、标准差、离散系数的计算方法;了解偏峰与峰度的含义。本章重点:变异指标的概念;标准差、离散系数的计算。本章难点:如何正确运用标准差和离散系数来判别社会经济现象的代表性。第一节变异度指标的概念与作用一、变异度指标的概念变异度指标又称标志变动度指标,是综合反映总体各单位标志值的差异程度或离散程度的统计指标。平均指标反映总体分布的集中趋势,变异度指标反映总体分布的离中趋势。统计数据的离散趋势越大,说明集中趋势代表性越差,反之离散趋势越小,说明集中趋势代表性越高。二、变异度指标的作用(一)用变异指标反映总体各单位标志值分布的商中趋势。(二)用变异指标是说明平均指标的代表性大小。一般来说,变异指标越大,平均数的代表性越小;反之,变异指标越小,平均数的代表性越大。(三)用变异指标来说明现象变动的均匀性和稳定性程度。一般来说,变异指标越小,现象变动的均匀性和稳定性程度越高。反之,变异指标越大,现象变动的均匀性和稳定性程度越差。(四)计算抽样误差和计算必在样本单位数的依据.第二节变异度指标的种类与计算方法常见的变异度指标主要有:全距和四分位差、平均差、标准差、方差、离散系数;其中标准差、方差最为重要和常用。一、极差1.极差的概念:极差也称全距,是总体单位中最大标志值与最小标志值之差。说明被研究总体标志值的变动范围。2、计算公式:R=Xmax–Xmin3、极差的优缺点:极差很好理解,也容易计算,4、缺点:作为度量离散性的指标,有很大局限性,全距只考虑分布的最大值和最小值,而不顾及数据中其他数值,不能全面反映各单位标志的变异程度。二、四分位差1、四分位差的概念:通过三个数值,将全部变量值分割成为四个相等部分。这三个分割的数值就是四分位数;分别用Q1、Q2、Q3表示;其中:第2个四分位数Q2就是中位数。2、四分位差的计算:若将总体的标志值顺序排列后划分为总体单位数相等的四部分,使每部分单位数各占25%,它们的端点依次为Q0、Q1、Q2、Q3、Q4且Q1~Q3占总体单位数的50%,则:Q0=XminQ4=XmaxQ2=Me;四分位差为:Q=Q3-Q1Q3的位置=3(n+1)÷4Q1的位置=(n+1)÷43、四分位差的优点:四分位差很好理解,也容易计算。4、缺点:作为度量离散性的指标,有很大局限性,四分位差只考虑分布中占50%的的单位之间的差异程度,而不顾及数据中的其他数值,不能全面反映各单位标志的变异程度。三、平均差1、平均差的概念:平均差是总体各单位标志值与算术平均的离差的绝对值的算术平均数。它能综合反映总体中各单位标志值一般的、平均的差异程度。2、平均差的计算公式和计算举例;(1)未分组的资料,采用简单平均法计算:nxxDA||..(2)分组的资料,采用加权平均法计算ffxxDA||..计算举例见课本P126页(自我阅读)其计算方法与平均指标的计算相近。3、平均差的特点和全距相比,平均差能更好地度量离散性,但不适合进一步的代数运算。在实际中不常采用。四、标准差和方差1、标准差的概念各变量值对其均数的离差平方的平均数的开方根。2、方差的概念方差就是标准差的平方。3、标准差计算公式nxx2ffxx2)(4、标准差计算程序(1)求总体各单位标志值的算术平均数;(2)求总体各单位标志值对其算术平均数的离差;(3)求离差平方;(4)求离差平方的平均数的开方根。5、未分组资料的标准差的计算采用简单平均法nxx2注意:上述给出的方差是总体方差公式。若求样本方差和样本标准差,则计算为下面公式:1)(;1)(222nxxsnxxs当n很大时,计算样本方差可用总体方差公式计算。6、分组资料的标准差的计算采用加权平均法ffxxffxx222)()(例4:2012年红星商店职工平均工资为1385元,标准差为20元/人。而与其规模相当的益民商店有180人,其月工资见下表;要求:1、计算益民商店职工月平均工资的标准差;2、比较这两个商店职工平均工资的代表性大小。解:列表计算如下:工资总额(元)组中值x职工人数fxf1200—1300125018225001300—14001350901215001400—1500145063913501500—16001550913950合计—180249300该商店180名职工的月平均工资为:人)元/(8513180004932fxfx解:列表计算如下:工资标准(元)组中值职工人数工资总额离差离差平方×权数xfxf1200—130012501822500-1353280501300—1400135090121500-351102501400—150014506391350652661751500—16001550913950165245025合计—180249300949500益民商店职工月平均工资的标准差为:)/(63.72180949500)(2人元ffxx红星商店职工平均工资为1385元,与益民商店职工月平均工资相同,但红星商店职工平均工资的标准差(20元/人)比益民商店职工月平均工资的标准差(72.63元/人)要小,因此红星商店职工平均工资代表性大。7、标准差的特点和全距、平均差相比,标准能更好地度量离散性,也适合进一步的代数运算。(五)是非标志的标准差pNNNNfxfxp212101是非标志(交替标志)的标准差是非标志的标准差等于具有某一标志表现单位成数与不具有某一标志表现单位成数乘积的平方根。pqqppqNNNpNpffxx222122122)0()1()(pNNNNfxfxp212101例:某车间300件产品,其中合格品270件,求:这批产品平均合格率及标准差%301.09.0:9.0::9.0300270::pqpxpp标准差为平均合格率为则依题意有解五、变异(离散)系数1、变异系数:变异系数是各种变异指标与其相应的算术平均数对比得到的相对数,也称标志变动度系数或离散系数。2、作用:它反映总体各单位离散的相对程度,用百分比表示。3、标准差系数的定义:标准差系数是标准差与其相应的算术平均数对比的相对数。4、平均差系数的定义:平均差系数是平均差与其相应的算术平均数对比的相对数。5、计算离散系数的作用:在不同水平的总体之间,比较标志度的大小,要计算离散系数。6、标准差系数的计算公式:例7顺风达摩托车有限公司2008年10月生产装配车间300名职工完成平均产量为200台,标准差为8台/人;2008年10月四达摩托车有限公司对某生产装配车间进行调查,资料见下表:1、计算四达摩托车有限公司完成平均产量的标准差;2、比较两公司生产的均衡性。解:列表计算如下:xxfxxfxx2)(产量(件)x工人数(人)fxf505250-21.6108.02332.806010600-11.6116.01345.6070151050-1.624.038.4080129608.4100.8846.7290872018.4147.22708.48合计503580—496.07272.00四达摩托车有限公司完成平均产量为:四达摩托车有限公司完成平均产量的标准差为:)/(06.12507272)(2人台ffxx人)件/(71.6050358fxfx四达摩托车有限公司完成平均产量的标准差系数为:%84.166.7106.12xV顺风达摩托车有限公司完成平均产量的标准差系数为:%42008xV顺风达摩托车有限公司完成平均产量的标准差系数小于四达摩托车有限公司完成平均产量的标准差系数,因此,其企业生产均衡性好。偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!第三节偏度与峰度一、偏度及其测度1.统计学家Pearson于1895年首次提出2.数据分布偏斜程度的测度偏态系数SK=0为对称分布偏态系数0为右偏分布偏态系数0为左偏分布偏态系数取值范围是-3~+3若|SK|1,为高度偏态分布;若0.5|SK|≦1,为中度偏态分布;偏态系数越接近于0,偏斜程度越低。偏态系数的计算1/)(/)(0MxSK标准差众数算术平均数偏态系数偏态系数的计算21.未分组的数据:nxx,nxxSKniinii12313)(;)(其中2.分组的数据:kiiniiikiikiiiffxx,ffxxSK1123113)(;)()(其中补充练习:某企业2012年1-4月份电脑销售资料如下表,计算电脑销售量偏态系数按销售量分组(台)频数(天)xf140—1504150—1609160—17016170—18027180—19020190—20017200—21010210—2208220—2304230—2405合计120解:列表计算如下:按销售量分组(台)频数(天)组中值fxxf140—1504145580150—16091551395160—170161652640170—180271754725180—190201853700190—200171953315200—210102052050210—22082151720220—2304225900230—24052351175合计120190022200电脑销售平均数为:台)(18501222200fxfx按销售量分组(台)频数(天组中值fx140—1504145-406400150—1609155-308100160—17016165-206400170—18027175-102700180—1902018500190—20017195101700200—21010205204000210—2208215307200220—2304225406400230—24052355012500合计120190055400xxiifxx2)(电脑销售平均数的标准差为:)(49.2112055400)(2台ffxx按销售量分组台频数天组中值fx140—1504145-40-256000150—1609155-30-243000160—17016165-20-128000170—18027175-10-27000180—1902018500190—200171951017000200—210102052080000210—220821530216000220—230422540256000230—240523550625000合计1201900540000xxiifxx3)(偏态系数为:453.0)49.21(120540000)()(33113kiikiiiffxxSK结论:偏态系数为正值,与0的离差不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数。偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!二、峰度及其测定1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=3扁平峰度适中4.峰态系数3为扁平分布5.峰态系数3为尖峰分布峰态系数的计算1.未分组的数据:nxx,nxxniinii12414)(;)(其中2.分组的数据:kiiniiikiikiiiffxx,ffxx1124114)(;)()(其中补充练习:某企业2012年1-4月份电脑销售资料如下表,计算电脑销售量峰态系数按销售量分组(台)频数(天)f140—1504150—1609160—17016170—18027180—19020190—20017200—21010210—2