第4章-集中趋势与离中趋势

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第四章集中趋势和离中趋势4.1集中趋势的计量4.2离中趋势的计量4.3数据的分布形状1.简单算术平均数计算公式:它是反映数据集中的主要测度。NXNXXXXNiiN121......4.1集中趋势的计算集中趋势反映一组资料中各数据所具有的共同趋势。一、算术平均(也叫均值)算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的数值。反映数据集中的特征。例某生产班组11个工人的日产零件数分别为:15,17,19,20,22,…26,30。求该生产班组工人的平均日产零件数。22X22*******…解:算术平均值的性质一:数据观察值与均值的离差值之和为零.此性质表明均值是各数值的重心1()0NiiXX算术平均值的性质二:观察值与均值的离差平方和最小。为非任意数21120)()(NiiNiiXXXX0X故用算术平均值来预测作为估计值,误差平方和最小。(证明见P74)X数列:1,2,2,3平均数为2数列:1,2,2,5平均数为2.5数列:1,2,2,7平均数为3均值的缺点:均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性,影响其对集中趋势测度的准确性。2.加权算术平均数如果数据是分组资料,经过整理形成了次数分配,由于各组次数不同,要用次数作权数计算加权算术平均数。则均值的计算公式为:1122111211........kiikKkiiikkikiiiiXfXfXfXffXXfffff其中Xi表示第i组的组中值,fi表示第i组的次数。工人一周生产零件数工人数fi组中值xixifi60以下75538560-702165136570-802575187580-901985161590以上895760合计80---6000例:某单位80工人一周生产零件数的分组统计资料如下表:112211216000:7580kiikkikkiixfxfxfxfXffff则加权算术平均为二、中位数将数据观察值x1,x2,…,xn按其变量值由小到大的顺序排列,处于数列中点位置的数值就是中位数(Me)。中位数的确定方法:①如果数据个数为奇数,则处于(n+1)/2位置的标志值是中位数。②如果数据个数为偶数,则处于n/2、n/2+1的两个标志值的平均数为中位数。③如果是组距分组资料,公式为:中位数是n/2位置上的数值,设落在第i组,Li是中位数所在组的下限,Ui是中位数所在组的上限;fi是中位数所在组的次数。Fi-1是中位数所在组的前一组的累积次数Ui-Li是中位数所在组的组距=上限-下限112()2()ieiiiiieiiiinFMLULfnFMUULf向上累积向下累积某单位80工人一周生产零件数分组统计资料如下:工人一周生产零件数工人数fi组中值xixifi向上累计频数向下累计频数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80---6000------112()2()ieiiiiieiiiinFMLULfnFMUULf12132811118040,28,27,70,80,252240282()701074.82540272()801074.825iiiiiieiiiiieiiiinFFLUfnFMLULfnFMUULf优点:中位数是位置平均数,不受极端值的影响。不足:中位数确定时只与中间位置的相关数据有关,而不考虑其它数值的大小,缺乏敏感性;计算复杂。三、众数众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度(M0)。①未分组资料,M0就是出现次数最多的变量值。20,15,18,20,20,22,20,23众数为2020,20,15,19,19,20,19,25众数为19,2010,11,13,16,15,25,8,12不存在众数②分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。10111011()()()()iiiiiiiiiiiiiiiiffMLdffffffMUdffff设众数在第i组,则Li是众数所在组的下限,Ui是众数所在组的上限;fi是众数所在组的次数。di=Ui-Li是中位数所在组的组距=上限-下限某单位80工人一周生产零件数分组统计资料如下:工人一周生产零件数工人数fi组中值xixifi向上累计频数向下累计频数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80---6000------10111011()()()()iiiiiiiiiiiiiiiiffMLdffffffMUdffff60以下70809090以上102030f(人数)周生产零件数Δ1Δ2M011011121201112()()()()iiiiiiiiiiiiiiiiiiiiffMLdLdffffffMUdUdffff12111011101125,,19,70,80,10,()()2521701074(2521)(2519)()()2519801074(2521)(2519)iiiiiiiiiiiiiiiiiiiiiifffLUdffMLdffffffMUdffff在Excel中AVERAGE()—计算算术平均数如:AVERAGE(F1:F30)利用SUM()函数和SUMPRODUCT()函数求加权算术平均。如:SUMPRODUCT(A1:A10,B1:B10)/SUM(B1:B10)MEDIAN()—计算中位数如:MEDIAN(F1:F30)MODE()—计算众数如:MODE(F1:F30)四、均值、中位数、众数三者之间的关系xMeMoxMeMoxMeMoXfXfXf(对称分布)正偏态分布(右)负偏态分布(左)MexxxMeMeMoMoMo均值是数据分布的平衡点或重心,中位数把这个分布划分为两半,众数正好是分布的顶端。32MeMox3(e)xMoxM23MoxMe在偏斜不大时,中位数大约位于均值与众数的1/3处。算术平均数适合用代数方法运算,故在实践中应用很广,主要适用于数值变量;中位数不受极端值的影响,各个数值相对其中位数的绝对离差之和为最小。故当一组观测值有极大值或极小值时,用中位数表示现象的一般水平更具有代表性。众数适用于总体的单位数较多,各标志值的次数分配有明显的集中趋势的情况。如果总体单位数很少,尽管次数分配较集中,那么计算出来的众数意义不大;如果总体单位数很多,但次数分配不集中,即各单位的标志值在总体中出现的比重较均匀,那么也无所谓众数。五、集中趋势的其它测度量1.分位数:四分位数、十分位数、百分位数。(P84)分位数的计算:(1)将资料按大小顺序排列;(2)求出分位数所在位置i;(3)若i为整数,则所求分位数为该位置上的数值;若i为非整数,则取第[i]与第[i]+1位置的两个数值的平均数为所求分位数。(4)若资料为分组数据,则各分位数可按下式计算:1i/KKiiiiiNFLdfKi表示第i个K分位数;Li表示第i个K分位数所在组的下限;N表示数据总个数;Fi-1表示第i个K分位数所在组的前一组的累积次数;fi是第i个K分位数所在组的次数。di=Ui-Li是第i个K分位数所在组的组距。1122nQ位置LU434nQnQ位置位置其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上四分位数的位置确定方法:方法1:定义算法方法2:以中位数为中心,从两端再计算中位数,公式:方法3Excel给出的四分位数位置的确定方法L34nQ位置314UnQ位置无论哪种算法,如果位置是整数,四分位数就是该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。【例】:9个家庭的人均月收入数据(3种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789方法1:方法2:所以QL为从最小值数第3个数值,即850元;Qu为从最大值数第3个数值,即1500元;LU9392.256.7544QQ位置位置L780(850780)0.25797.5QU1250(15001250)0.751437.5Q1911122322nQ位置方法3Excel方法L393344nQ位置313*91744UnQ位置所以QL为第3个数值,即850元;Qu为7个数值,即1500元;可见三种方法计算的四分位数不完全相同。但对他们的解释是一样的,即排序数据中,至少25%的数据小于等于QL,至少75%的数据小于等于Qu。原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234567892.几何平均数(1)简单几何平均数公式为:对上式取对数:主要用于计算平均发展速度或平均增长率,即(1)对比率进行平均;(2)测定生产或经济变量的时间序列的平均增长率。12log(logloglog)/NgNMxxx12NgNMxxx例:某高校2001-2005年学生人数如下表,求该校学生学生人数的平均发展速度。平均发展速度为:年份学生人数逐年发展速度(%)20003760---20015900156.920027600128.820039900130.3200410200103.0200511000107.85156.9%128.8%130.3%103%107.8%123.9%gM例:某机械厂五个流水作业车间的合格率分别为96%、94%、95%、95%和96%,则五个车间(即全厂)的平均生产合格率为:但注意:该厂总的合格率为596%94%95%95%96%95.2%全厂平均合格率96%94%95%95%96%78.18%(2)加权几何平均数当各个变量值出现的次数不等时,则应采用加权几何平均。公式为:kkkk12kii1i1kffffff12kii1gMxxxx102332105%108%110%112%110877%1877%平均年利率注意:当观测值有一项为0或负值时,不易计算几何平均数。例:将一笔钱存入银行,存期10年,以复利计息,10年的利率分配是:第1年至第2年为5%、第3年至5年为8%、第6年至第8年为10%、第9年至第10年12%,计算平均年利率。3.调和平均值调和平均值是观察值倒数之平均数的倒数,也称倒数平均数。用表示:HM11111HNNiiiiNMXXN当总体单位数未知或观测值是具有倒数性质的变量时,适合采用调和平均数。例如某人前10公里以时速50公里行驶,后10公里以30公里时速行驶。这20公里花了0.533小时,所以平均时速10+10237.510101150305030Hki112kk12ki112kimmmmmmmmxxxxiHiM加权调和平均数mi表示各组标志总量。应用条件:资料经过分组,各组次数不同。例:市场

1 / 57
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功