应用统计学：经济与管理中的数据分析3

fengzhonglv008
1 ℃
2020-05-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第三章统计数据分布特征的描述•数据分布集中趋势的测度•数据分布离散程度的测度•集中趋势与离散程度的综合运用•数据分布偏态和峰度的测度§3.1数据分布集中趋势的测度（MeasuresofCentralTendency）•数值平均数：算术平均数•数值平均数：调和平均数•数值平均数：几何平均数•位置平均数：众数•位置平均数：中位数•众数、中位数和平均数的比较•相对位置：百分位数3-3•定义：一个数据集的算术平均数，称为平均数，也称为均值（mean）。•优点：最简单、最常用的数据集中趋势代表值。•缺点：容易受极端数值的影响。•均值的解释：数据集分布“质量中心”。nxxxnii1观察值个数值之和所有一、数值平均数：算术平均数（arithmeticmean）3-4•数据形成了频数分布，假定各组数据在组中是均匀分布的，均值近似值的计算公式•xi—频数分布中各组组中值，fi—各组的频数（权数），k—分组的组数。1122111kiikkikkiiiifxfxfxfxxff3-5•从统计思想看，均值反映了一组数据的“重心”，是数据高低相抵，误差正负相抵后客观事物必然性数量特征的一种反映。•均值有两个非常重要的性质：•①各个变量值与均值的离差之和为零，即•②各变量值与其均值的离差平方和最小，即min)(12niixx0)(1niixx3-6•也称为倒数平均数，均值的一种变形。•例：三个西瓜批发市场数据，计算三个市场的平均批发价格。41800—合计74000.74丙204000.68乙140000.70甲成交额（元）xifi批发价格（元/公斤）xi市场41800—合计74000.74丙204000.68乙140000.70甲成交额（元）xifi批发价格（元/公斤）xi市场xffxfxxfxHniiniiiniiiiniii11111313110.697(/)iiiiiiixfHxfx元公斤二、数值平均数：调和平均数（HarmonicMean）3-7•定义：时间上相互衔接的比率或速度的平均数。•其中：xi为各期发展速度或各个比率。一般取对数计算，是均值的一种变形。nniinnxxxxG121niinxlognxlogxlogxlognGlog12111三、数值平均数：几何平均数（GeometricMean）3-8•例：某钢厂2004年的钢产量为100万吨，2005年的钢产量为110万吨，2006年为132吨，2007年为165吨。试求该钢厂2005～2007年钢产量的年平均发展速度。•例：某产品要经过三道工序才能加工完成，每道工序均经过工序检验。已知在第一道工序上的加工合格率为95%，在第二道工序上的加工合格率为90%，在第三道工序上的加工合格率为98%，求三道工序的平均合格率。33123110%120%125%118.17%Gxxxx3312395%90%98%94.275%Gxxxx3-9•众数：一组数据集中出现频数最多的观测值。•众数适用于数量数据，也适用于品质数据。•例如：服装、鞋帽生产、公交车辆的调度。•众数是一个位置代表值，它不会受到极端数值（即最大值与最小值）的影响。四、位置平均数：众数（Mode）3-10•中位数：一组数据集按大小依次排序后，处于中间位置上的观测值。•将n个数据x1,x2,…,xn按大小排序：)()2()1(nxxx为偶数为奇数n,xxn,xx~nnn212221五、位置平均数：中位数（Median）3-11•例：某居民楼里20户居民3月份的电费数据如下：（单位：元）•25，33，35，39，46，47，48，50，54，56，58，60，62，65，67，67，68，70，70，75•计算：•Mode=67、70•Median=（56+58）/2=57•Mean=54.75•问题：哪个值更具有代表性？电费数据Stem-and-LeafPlotFrequencyStem&Leaf1.002.53.003.3593.004.6784.005.04686.006.0257783.007.005Stemwidth:10Eachleaf:1case(s)六、众数、中位数、平均数的比较3-12oeMMx对称分布左偏分布右偏分布•定性变量：最好采用众数描述集中趋势。•定量变量：（讨论钟形分布）•当数据呈现对称分布或近似对称分布时，应当选择平均数作为集中趋势的代表值。平均数具有优良的数学性质。•当数据呈现偏斜分布时，应当选择中位数作为集中趋势的代表值。oeMMxxMMeo3-13定义：设x1,x2,…,xn为按递增（或递减）排列的数据集，将全部数据等分为四等分。Q1—第一四分位，即第25百分位数Q2—第二四分位，即第50百分位数Q3—第三四分位，即第75百分位数七、相对位置：四分位数（Quartile）3-14•确定四分位数：•①以递增顺序排列原数据（即从小到大排列）•②计算项次数i•计算Q1，取p=25；•计算Q2，取p=50；•计算Q3，取p=75。•③若i为整数，则取第i、i+1项的平均值；•若i为非整数，则取i向上取整。npi100§3.2数据分布离散程度的测度（MeasuresofDataVariation）•品质数据：异众比率•数量数据：极差•数量数据：四分位差•数量数据：方差•数量数据：标准差•数量数据：变异系数3-16•定义：非众数组的频数占总频数的比例。•用于测度众数对一组数据的代表程度。Vr越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差；反之，Vr越小，众数的代表性越好。1rV众数组的频数各组频数和一、品质数据：异众变化率(VariationRatio)3-17•定义：数据集中最大值与最小值之差。•计算方法简单，但只利用了一组数据两端的信息，不能反映中间数据的分散状况，是一个不敏感的离散趋势测定值。最小值最大值R二、数量数据：极差（Range）3-18•定义：与集中趋势代表值中四分位数相对应的离散程度代表值，是两个四分位数之差。•Qd反映的是中间50%数值大小的差异。Qd越小，说明中间数据越集中；反之，Qd越大，说明中间的数据越分散。31dQQQ三、数量数据：四分位差（QuartileDeviation）3-19•离差（deviation）：观察值与均值之差。•方差：数据集中所有观察值的离差平方和的“平均值”。•方差是以均值为中心，提取了全部数据中的离差信息，这就使得它在反映离散程度方面更加全面。而且均值具有各变量值与其离差平方和为最小，也保证了方差在说明均值代表性方面的良好性质。nixxdii,,2,1四、数量数据：方差（Variance）3-20kiikiiifxxf1122)(1)(1122kiikiiifxxfs1)(122nxxsniinxxnii122)(未分组数据分组数据总体方差样本方差样本方差算式的分母用n-1而非n，是为了数学上得到较好的总体方差估计量，称为自由度。3-21•标准差：由n个样本观测值组成的数据集，其标准差等于方差的平方根。•总体标准差•样本标准差•标准差和方差都是以均值为中心描述分布的离散程度，因而与均值有同样的弱点，它们都容易受到极端数值的影响。22ss五、数量数据：标准差（StandardDeviation）3-22•例：甲、乙两人打靶，各击五发，命中靶环资料如下：•甲：4、5、6、7、8•乙：3、10、7、4、6•问题：谁的水平发挥稳定？••表明乙每次击中环数之间的差异平均说来更大一些，因此，甲击中环数的均值代表性更高。说明甲的水平发挥更稳定。（环）（环）乙甲66xx甲乙ss（环）（环）乙甲794.2)1()(581.1)1()(22nxxsnxxsii3-23211925.42,()(1)71.618nniiiixxnsxxn21111929.0,()(1)72.026kkkkiiiiiiiiiixxffsxxff未分组分组寿命组限组中值（xi）频数（fi）xifi（xi-929）2fi750-800775177523716800-8508254330043264850-900875121050034992900-9509251816650288950-100097587800169281000-1050102544100368641050-1100107511075213161100-115011252225076832合计—5046450254200均值标准差929.0071.30223-24例：现有内地和沿海两个城市的居民人均年收入资料如下：人均年收入收入标准差变异系数甲城市6000元150元2.5乙城市12000元180元1.5分析：①从标准差看，乙城市的人均年收入两倍于甲城市，而且收入的差距大于甲城市；②从变异系数看，乙城市的实际收入差距相对于它的平均收入来说低于甲城市。用变异系数来衡量和比较两个城市收入分配状况更具实际意义。3-25标准差是以均值为中心计算出来的若均值相同，标准差可以直接说明均值代表性的高低；若均值水平不同，就不能直接使用标准差进行比较。此外，如果两组数据的计量单位不同，也不能用标准差进行直接对比。100V标准差变异系数（）均值六、数量数据：变异系数（CoefficientofVariation）§3.3集中趋势与离散程度的综合运用•标准分数•经验规则与切比雪夫定理•异常值检测3-27•设有n个观测值x1,x2,…,xn，计算得到其平均数和标准差s，则•z分数将原始数据进行线性变换，给出了一组数据中各数值的相对位置。•z＞0，则表示测定值大于平均数；•z＜0，则表示测定值小于平均数；•z＝0，则表示测定值等于平均数。xiixxzsz分数()0()1EzDz一、标准分数（StandardScore）3-28•例：在某城市随机抽取9个家庭，调查得到每个家庭的人均月收入数据。家庭编号i123456789人均月收入xi(元)15007507891080850960200012501630xi与平均数的离差(元)299-451-412-121-351-24179949429z分数0.694-1.047-0.957-0.281-0.815-0.5601.8560.1140.996收入最高，人均月收入比平均数高1.856倍的标准差。收入最低，人均月收入比平均数低1.047倍的标准差。3-29•经验规则（empiricalrule）：（钟形近似对称分布）•如果样本数据具有均值为，标准差为s的钟形分布，则落入以下三个区间内的观测值个数占总观测值总数的比率如下：xsxsx2sx3≈70%≈100%≈95%二、经验规则与切比雪夫定理3-30•例：有些预定了酒店客房而没有住店的旅客，往往未能及时取消预订。称这样的旅客为“未露面者”。为了防止未露面者和取消预定太晚者给酒店带来损失，酒店一般采取超员预订客房的方法。下表来自于一家有500个客房的大型酒店的30天样本数据，分析酒店每天至少可以超员预订多少客房？1816161614181618141915199201010121418121414171218131513151930天中每天未露面者人数02321234989051331594522133152945213315.~.....sx.s,.x根据经验规则，95%可靠性情形下，每天至少可以超定9个客房，最多可超定21个客房。样本数据直方图024689～1011～1213～1415～1617～1819～20未露面人数频数3-31•切比雪夫定理（chebysheff’stheorem）：（任意分布）•样