第三章统计数据分布特征的描述•数据分布集中趋势的测度•数据分布离散程度的测度•集中趋势与离散程度的综合运用•数据分布偏态和峰度的测度§3.1数据分布集中趋势的测度(MeasuresofCentralTendency)•数值平均数:算术平均数•数值平均数:调和平均数•数值平均数:几何平均数•位置平均数:众数•位置平均数:中位数•众数、中位数和平均数的比较•相对位置:百分位数3-3•定义:一个数据集的算术平均数,称为平均数,也称为均值(mean)。•优点:最简单、最常用的数据集中趋势代表值。•缺点:容易受极端数值的影响。•均值的解释:数据集分布“质量中心”。nxxxnii1观察值个数值之和所有一、数值平均数:算术平均数(arithmeticmean)3-4•数据形成了频数分布,假定各组数据在组中是均匀分布的,均值近似值的计算公式•xi—频数分布中各组组中值,fi—各组的频数(权数),k—分组的组数。1122111kiikkikkiiiifxfxfxfxxff3-5•从统计思想看,均值反映了一组数据的“重心”,是数据高低相抵,误差正负相抵后客观事物必然性数量特征的一种反映。•均值有两个非常重要的性质:•①各个变量值与均值的离差之和为零,即•②各变量值与其均值的离差平方和最小,即min)(12niixx0)(1niixx3-6•也称为倒数平均数,均值的一种变形。•例:三个西瓜批发市场数据,计算三个市场的平均批发价格。41800—合计74000.74丙204000.68乙140000.70甲成交额(元)xifi批发价格(元/公斤)xi市场41800—合计74000.74丙204000.68乙140000.70甲成交额(元)xifi批发价格(元/公斤)xi市场xffxfxxfxHniiniiiniiiiniii11111313110.697(/)iiiiiiixfHxfx元公斤二、数值平均数:调和平均数(HarmonicMean)3-7•定义:时间上相互衔接的比率或速度的平均数。•其中:xi为各期发展速度或各个比率。一般取对数计算,是均值的一种变形。nniinnxxxxG121niinxlognxlogxlogxlognGlog12111三、数值平均数:几何平均数(GeometricMean)3-8•例:某钢厂2004年的钢产量为100万吨,2005年的钢产量为110万吨,2006年为132吨,2007年为165吨。试求该钢厂2005~2007年钢产量的年平均发展速度。•例:某产品要经过三道工序才能加工完成,每道工序均经过工序检验。已知在第一道工序上的加工合格率为95%,在第二道工序上的加工合格率为90%,在第三道工序上的加工合格率为98%,求三道工序的平均合格率。33123110%120%125%118.17%Gxxxx3312395%90%98%94.275%Gxxxx3-9•众数:一组数据集中出现频数最多的观测值。•众数适用于数量数据,也适用于品质数据。•例如:服装、鞋帽生产、公交车辆的调度。•众数是一个位置代表值,它不会受到极端数值(即最大值与最小值)的影响。四、位置平均数:众数(Mode)3-10•中位数:一组数据集按大小依次排序后,处于中间位置上的观测值。•将n个数据x1,x2,…,xn按大小排序:)()2()1(nxxx为偶数为奇数n,xxn,xx~nnn212221五、位置平均数:中位数(Median)3-11•例:某居民楼里20户居民3月份的电费数据如下:(单位:元)•25,33,35,39,46,47,48,50,54,56,58,60,62,65,67,67,68,70,70,75•计算:•Mode=67、70•Median=(56+58)/2=57•Mean=54.75•问题:哪个值更具有代表性?电费数据Stem-and-LeafPlotFrequencyStem&Leaf1.002.53.003.3593.004.6784.005.04686.006.0257783.007.005Stemwidth:10Eachleaf:1case(s)六、众数、中位数、平均数的比较3-12oeMMx对称分布左偏分布右偏分布•定性变量:最好采用众数描述集中趋势。•定量变量:(讨论钟形分布)•当数据呈现对称分布或近似对称分布时,应当选择平均数作为集中趋势的代表值。平均数具有优良的数学性质。•当数据呈现偏斜分布时,应当选择中位数作为集中趋势的代表值。oeMMxxMMeo3-13定义:设x1,x2,…,xn为按递增(或递减)排列的数据集,将全部数据等分为四等分。Q1—第一四分位,即第25百分位数Q2—第二四分位,即第50百分位数Q3—第三四分位,即第75百分位数七、相对位置:四分位数(Quartile)3-14•确定四分位数:•①以递增顺序排列原数据(即从小到大排列)•②计算项次数i•计算Q1,取p=25;•计算Q2,取p=50;•计算Q3,取p=75。•③若i为整数,则取第i、i+1项的平均值;•若i为非整数,则取i向上取整。npi100§3.2数据分布离散程度的测度(MeasuresofDataVariation)•品质数据:异众比率•数量数据:极差•数量数据:四分位差•数量数据:方差•数量数据:标准差•数量数据:变异系数3-16•定义:非众数组的频数占总频数的比例。•用于测度众数对一组数据的代表程度。Vr越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;反之,Vr越小,众数的代表性越好。1rV众数组的频数各组频数和一、品质数据:异众变化率(VariationRatio)3-17•定义:数据集中最大值与最小值之差。•计算方法简单,但只利用了一组数据两端的信息,不能反映中间数据的分散状况,是一个不敏感的离散趋势测定值。最小值最大值R二、数量数据:极差(Range)3-18•定义:与集中趋势代表值中四分位数相对应的离散程度代表值,是两个四分位数之差。•Qd反映的是中间50%数值大小的差异。Qd越小,说明中间数据越集中;反之,Qd越大,说明中间的数据越分散。31dQQQ三、数量数据:四分位差(QuartileDeviation)3-19•离差(deviation):观察值与均值之差。•方差:数据集中所有观察值的离差平方和的“平均值”。•方差是以均值为中心,提取了全部数据中的离差信息,这就使得它在反映离散程度方面更加全面。而且均值具有各变量值与其离差平方和为最小,也保证了方差在说明均值代表性方面的良好性质。nixxdii,,2,1四、数量数据:方差(Variance)3-20kiikiiifxxf1122)(1)(1122kiikiiifxxfs1)(122nxxsniinxxnii122)(未分组数据分组数据总体方差样本方差样本方差算式的分母用n-1而非n,是为了数学上得到较好的总体方差估计量,称为自由度。3-21•标准差:由n个样本观测值组成的数据集,其标准差等于方差的平方根。•总体标准差•样本标准差•标准差和方差都是以均值为中心描述分布的离散程度,因而与均值有同样的弱点,它们都容易受到极端数值的影响。22ss五、数量数据:标准差(StandardDeviation)3-22•例:甲、乙两人打靶,各击五发,命中靶环资料如下:•甲:4、5、6、7、8•乙:3、10、7、4、6•问题:谁的水平发挥稳定?••表明乙每次击中环数之间的差异平均说来更大一些,因此,甲击中环数的均值代表性更高。说明甲的水平发挥更稳定。(环)(环)乙甲66xx甲乙ss(环)(环)乙甲794.2)1()(581.1)1()(22nxxsnxxsii3-23211925.42,()(1)71.618nniiiixxnsxxn21111929.0,()(1)72.026kkkkiiiiiiiiiixxffsxxff未分组分组寿命组限组中值(xi)频数(fi)xifi(xi-929)2fi750-800775177523716800-8508254330043264850-900875121050034992900-9509251816650288950-100097587800169281000-1050102544100368641050-1100107511075213161100-115011252225076832合计—5046450254200均值标准差929.0071.30223-24例:现有内地和沿海两个城市的居民人均年收入资料如下:人均年收入收入标准差变异系数甲城市6000元150元2.5乙城市12000元180元1.5分析:①从标准差看,乙城市的人均年收入两倍于甲城市,而且收入的差距大于甲城市;②从变异系数看,乙城市的实际收入差距相对于它的平均收入来说低于甲城市。用变异系数来衡量和比较两个城市收入分配状况更具实际意义。3-25标准差是以均值为中心计算出来的若均值相同,标准差可以直接说明均值代表性的高低;若均值水平不同,就不能直接使用标准差进行比较。此外,如果两组数据的计量单位不同,也不能用标准差进行直接对比。100V标准差变异系数()均值六、数量数据:变异系数(CoefficientofVariation)§3.3集中趋势与离散程度的综合运用•标准分数•经验规则与切比雪夫定理•异常值检测3-27•设有n个观测值x1,x2,…,xn,计算得到其平均数和标准差s,则•z分数将原始数据进行线性变换,给出了一组数据中各数值的相对位置。•z>0,则表示测定值大于平均数;•z<0,则表示测定值小于平均数;•z=0,则表示测定值等于平均数。xiixxzsz分数()0()1EzDz一、标准分数(StandardScore)3-28•例:在某城市随机抽取9个家庭,调查得到每个家庭的人均月收入数据。家庭编号i123456789人均月收入xi(元)15007507891080850960200012501630xi与平均数的离差(元)299-451-412-121-351-24179949429z分数0.694-1.047-0.957-0.281-0.815-0.5601.8560.1140.996收入最高,人均月收入比平均数高1.856倍的标准差。收入最低,人均月收入比平均数低1.047倍的标准差。3-29•经验规则(empiricalrule):(钟形近似对称分布)•如果样本数据具有均值为,标准差为s的钟形分布,则落入以下三个区间内的观测值个数占总观测值总数的比率如下:xsxsx2sx3≈70%≈100%≈95%二、经验规则与切比雪夫定理3-30•例:有些预定了酒店客房而没有住店的旅客,往往未能及时取消预订。称这样的旅客为“未露面者”。为了防止未露面者和取消预定太晚者给酒店带来损失,酒店一般采取超员预订客房的方法。下表来自于一家有500个客房的大型酒店的30天样本数据,分析酒店每天至少可以超员预订多少客房?1816161614181618141915199201010121418121414171218131513151930天中每天未露面者人数02321234989051331594522133152945213315.~.....sx.s,.x根据经验规则,95%可靠性情形下,每天至少可以超定9个客房,最多可超定21个客房。样本数据直方图024689~1011~1213~1415~1617~1819~20未露面人数频数3-31•切比雪夫定理(chebysheff’stheorem):(任意分布)•样