第3章集中趋势和离散趋势返回总目录集中趋势的测度集中趋势是对频数分布资料的集中状况和平均水平的综合测度。而离散趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所册书之的代表性,或者反映变量值的稳定性和均匀性。常用来表达数列集中趋势的测度有算术平均数、调和平均数、几何平均数、中位数和众数。这些测度在统计学中也称为平均指标或平均数,可以用来反映标志值的典型水平和标志值分布的中心位置或集中趋势。返回本章返回总目录1.算术平均数算术平均数是平均指标中最重要的一种,一般不特别说明时,所称的“平均数”就是指算术平均数,其定义的公式为:算术平均数=总体标志总量/总体单位总量计算算术平均数时,标志总量和单位总量必须属于同一总体,分子分母所包含的口径必须一致。否则,计算出来的平均数指标便失去了科学性。算术平均数,可以分为简单算术平均数和加权算术平均数两种。返回本章返回总目录(1)简单算术平均数将总体的各个单位标志值简单相加,然后除以单位个数,求出的平均标志值,叫做简单算术平均数。简单算术平均数的计算公式为:NXNXXXXXniin1321式中:XiXN——算术平均数——第i个单位的标志值,i=1,2,3,…,n——总体单位数——总和返回本章返回总目录(2)加权算术平均数加权算术平均数的计算公式为:niiniiiffXX11式中:)(ffi或)(或XXin)(1XffXniii或——标志值出现的次数或权数——标志值——组数——标志总量)(XXi或返回本章返回总目录2.调和平均数调和平均数又称“倒数平均数”,它是根据各标志值的倒数来计算的平均数,即各个标志值倒数的算术平均数的倒数。调和平均数也分简单调和平均数和加权调和平均数。简单调和平均数的计算公式为:NXXXXXnH11111321XNXXXXNXnH11111321即设m为权数,则加权调和平均数的计算公式为:nnnHmmmmXmXmXmXmX3213322111niiiniinnnHXmmXmXmXmXmmmmmX11332211321则返回本章返回总目录3.几何平均数几何平均数是计算平均比率和平均速度最适用的一种方法。几何平均数有简单几何平均数和加权几何平均数之分。NnnGXXXXXX321Nn简单几何平均数是次方根。个标志值连乘积的其计算公式为:N12311lnlnlnlnlnlnGnXXXXXXNN在用几何平均数法计算平均数时,如果大于2,可采用对数法计算。计算公式为:返回本章返回总目录需要指出的是,当把几何平均数应用于经济现象时,必须注意经济现象本身的特点。只有当标志总量表现为各个标志值的连乘积时,才适合采用几何平均数方法来计算平均标志值。一般来说,计算社会经济现象在各个时期的平均发展速度时,要采用几何平均数。例如,工农业总产值年平均发展速度、全国人口年平均发展速度等。返回本章返回总目录4.中位数中位数是一种按其在数列中的特殊位置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大,一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。要求得中位数,首先要确定中位数的位次。未分组资料时,中位数位次=21NNN当总体位数为奇数时,中位数就是中位数位次上的那个数据;当为偶数时,中位数是中位数位次上2项数据的算术平均数。返回本章返回总目录分组资料时,中位数位次2f可以利用中位数所在组的下限来测算中位数,即中位数的下限公式为:ifSfLMmmc12cMLmffi1mS——中位数——中位数所在组的下限——中位数所在组的次数——总次数即各组次数总和——小于中位数组的各组次数之和——中位数所在组的组距式中:返回本章返回总目录也可以利用中位数所在组的上限来测算中位数,即中位数的上限公式为:ifSfUMmmc12式中:U——中位数所在组的上限1mS——大于中位数组的各组次数之和中位数最大的特点是:它是序列中间1项或2项的平均数,不受极端值的影响,所以在当一个变量数列中含有特大值与特小值的情况下,采用中位数较为适宜。正式由于中位数的这一特点,在统计研究中,当遇到掌握统计资料不多而且各标志值之间差异程度较大或频数分布有偏态时,为避免计算标志值所得的算术平均数偏大或偏小,就可利用中位数来表示现象的一般水平。返回本章返回总目录5.众数众数是一种位置平均数。众数是总体单位中,标志值出现次数最多的那个数值。为了确定众数的具体数值,可以利用下限公式或上限公式加以计算。计算众数的下限公式为:idddLM2110式中:0M——众数L1d2di——众数组的下限——众数组次数与上一组次数之差——众数组次数与下一组次数之差——众数组的组距返回本章返回总目录计算众数的上限公式为:idddUM2110式中:U——众数组的上限众数的计算只适用于单位数较多,且存在明显的集中趋势的情况,否则,计算众数时没有意义的。返回本章返回总目录离散趋势的测度离散趋势的测度,在统计学中也称为指标变异指标,是用来描述数列中指标值的离散趋势与离散程度的。常用的标志变异指标有极差、平均差和标准差等。1.极差极差是指一个数列中两个极端值即最大值与最小值之间的差异。根据极差的大小能说明标志值变动范围的大小。其计算公式为:极差=最大标志值-最小标志值根据组距数列求极差的计算公式为:极差=最高组上限-最低组下限在实际工作中,极差可以用于检查产品质量的稳定性和进行质量控制。在正常生产的条件下,产品质量稳定,极差在一定范围内波动,若极差超过给定的范围,就说明有不正常情况产伤。但极差受到极端是的影响,测定结果往往不能反映数据的实际离散程度。返回本章返回总目录2.四分位差四分位差是根据四分位数计算的。首先把变量各单位标志值从小到大排序,再将数列四等分,处于四分位点位次的标志值就是四分位数,记作,为第一四分位数(也称为下四分位数),为第二四分位数,就是中位数,为第三四分位数。123MMM,,四分位差的计算公式为:312MM四分位差1M2MeM3M四分位差的计算步骤为:先寻找四分位数,然后根据四分位差的计算公式计算。返回本章返回总目录四分位数的计算(1)由未分组资料计算四分位数。114nM的位次是整数,则位次对应的标志值即为相应的四分位数。首先确定四分位数的位次,再找出对应位次的标志值即为四分位数。设样本容量为n,33(1)4nM的位次14n不是整数,则用14n相邻位次上的标志值的加权算术平均数插值法计算四分位数。返回本章返回总目录(2)由分组资料计算四分位数。14(1,2,3)miiiimiifSMLdifiLmiffid1miS——第四分位数所在组的下限;——第四分位数所在组的次数;——总次数,即各组次数总和;——小于第四分位数所在组的各组次数之和;——第四分位数所在组的组距。式中:第四分位数的计算公式为:iiiii返回本章返回总目录四分位差是对极差的一种改进。与极差相比,四分位差因不受极值的影响,在反映数据的离散程度方面比极差准确,具有较高的稳定性;同时,对于存在开口的组距数列,不能计算极差,但可以计算四分位差。四分位差与极差相比较:四分位差和极差一样,不能充分利用数据的全部信息,也无法反映标志值的一般变动。返回本章返回总目录3.平均差平均差是各单位标志值对平均数的离差绝对值的平均数。平均差仅反映总体各单位标志值对其平均数的平均离差量。平均差越大,表明标志变异程度越大;反之,则表明标志变异程度越小。平均差通常用字母表示。..DA未分组资料时,其计算公式为:NXXDA..分组资料时,其计算公式为:ffXXDA..返回本章返回总目录4.方差和标准差未分组资料时,方差的公式为:NXX22标准差的公式为:NXX2分组资料时,方差的公式为:标准差的公式为:ffXX22ffXX2式中:XN——算术平均数——总体单位数返回本章返回总目录f——各组次数2——方差——标准差X——变量值需要指出的是,是总体标准差,而样本标准差为。NXX212nXXS当样本较大时,由于几乎等于,因此常用公式代替公式来计算样本标准差S,并用于估计总体标准差。11nn1nXX212nXX12nXXSnXXS2在小样本的情况下,较为总体标准差的更优良的估计量。返回本章返回总目录5.离散系数上述的各种标志变异度指标,都是对总体中各单位指标值变异测定的绝对量指标。而离散系数是测定总体中各单位标志值变异的相对量指标,以消除不同总体之间在计量单位、平均水平方面的不可比因素。常用的离散系数主要有平均差离散系数和标准差离散系数..DAVV其公式分别为:%100....XDAVDA%100XV返回本章返回总目录6.偏度和峰度(1)偏度偏度是用来反映变量数列分布偏斜程度的指标。变量数列的单峰钟形分布对称分布非对称分布(或称偏态分布)右偏分布(或称正偏分布)左偏分布(或称负偏分布)返回本章返回总目录偏态分布情况下平均数、中位数、众数有近似的关系:2()eoeMMXMXfXfeMoMXfeoXMMXeM对称分布右偏分布左偏分布利用平均数、中位数、众数的位置关系大致判断分布是否对称:返回本章返回总目录oMXeMoMXeoXMMeoXMMOXMSK用偏度系数准确地测定分布的偏斜程度和进行比较分析。※Pearson偏度系数,用SK表示。SK为无量纲的系数,通常取值在-3~+3之间。绝对值越大,说明分布的倾斜程度越大。SK=0对称分布SK0右偏分布SK0左偏分布返回本章返回总目录※动差法(或称矩法)计算偏度系数,用表示。定义变量X关于A的K阶矩(对未分组资料):•当A=0,即以原点为中心,M称为K阶原点矩,用MK表示。K=1,2,3时,有:一阶原点矩M1=∑(X-0)1/n=∑X/n二阶原点矩M2=∑(X-0)2/n=∑X2/n三阶原点矩M3=∑(X-0)3/n=∑X3/n•当A=,即以为中心,M称为K阶原点矩,用mK表示。XK=1,2,3时,有:一阶中心矩二阶中心矩三阶中心矩0/)(11nXXmnXXm/)(22nXXm/)(33XM=∑(X-A)K/n返回本章返回总目录33m偏度系数的计算公式:=0对称分布;0右偏分布,值越大,右偏程度越高;0左偏分布,值越小,左偏程度越高。返回本章返回总目录(2)峰度峰度是用来反映变量数列曲线顶端尖峭或扁平程度的指标,用表示。44m峰度系数的计算公式:=3变量数列的曲线为正态曲线;3尖顶曲线,值越大,顶部尖峭程度越高;3平顶曲线,值越小,顶部越平坦;=1.8变量数列的曲线呈矩形分布;1.8变量数列的曲线呈U形分布;返回本章返回总目录