1四川大学华西临床医学院循证医学与临床流行病学教研室刘关键数值资料的统计描述À描述数值变量资料的基本特征有两类指标:À一是描述集中趋势(平均水平)的指标,用以反映一组数据的平均水平;À二是描述离散程度(变异程度)的指标,用以反映一组数据的变异大小。À两类指标的联合应用才能全面描述一组数值变量资料的基本特征。À描述数值变量集中趋势(平均水平)的常用指标:均数(算术均数)、中位数和几何均数等。À描述数值变量离散程度(变异程度)的常用指标有:方差、标准差、四分位数间距和变异系数等。一.集中趋势的描述À数值变量资料集中趋势(平均水平)的描述可用平均数(average)。它们描述一组变量值的集中位置或平均水平的统计指标;或者说它是一组数据中大多数观察对象集中位置的特征值的统计指标,À描述集中趋势(平均水平)的指标主要有均数(mean)、几何均数(geometricmean)和中位数(median),通称平均数(average)。1.均数(mean)2À均数(mean)是算术平均数(arithmeticmean)的简称,总体均数用希腊字母μ表示,样本均数用表示。À均数是常用的平均数指标之一,也是目前统计中应用最多、最重要和最广泛的描述指标。X(1)均数的应用条件À均数最适用于描述对称分布资料,特别是正态分布或近似正态分布的资料的集中趋势(平均水平)。这时,均数位于分布的中心,最能反映数据分布的集中趋势(平均水平)。À对于偏态分布资料,均数则不能较好地反映分布的集中趋势(平均水平),这时应使用其它平均数指标。(2).计算方法—直接法À直接法,利用原始数据计算均数,其计算公式为:X=X1+X2+X3+...+Xnn=ΣXnÀ式中:Xi为各个观察值n为观察例数(3).计算方法—加权法À加权法,利用频数表数据计算均数,其计算公式为:À式中:Xi频数表中各组段的组中值,fi为各组段频数,Σf为观察例数,Xi为各个观察值,n为观察例数X=f1X1+f2X2+f3X3+...+fnXnΣf=ΣfXΣf实例分析À现有某地110名7岁儿童身高(cm),请用正确的指标描述其平均水平。À首先,应判断该资料是否满足正态分布,若满足条件,则可用均数描述该资料的平均水平。实例分析À正态性检验结果:身高1100.160.230-.030.457ValidMissingNSkewnessStd.ErrorofSkewnessKurtosisStd.ErrorofKurtosis3数据的分布图示一直接法计算结果À用直接法计算110名7岁儿童身高的均数,其计算结果为:X=X1+X2+X3+...+Xnn=ΣXn=114.4+119.2+124.7+...+132.8110=121.72(cm)110名7岁儿童身高频数分布身高组段意义身高组段组中值频数累计频数累计频率(%)110≤X<112110~111110.91112≤X<114112~113343.64114≤X<116114~11591311.82116≤X<118116~11792220.00118≤X<120118~119153733.64120≤X<122120~121185550.00122≤X<124122~123217669.09124≤X<126124~125149081.82126≤X<128126~1271010090.91128≤X<130128~129410494.55130≤X<132130~131310797.27132≤X<134132~133210999.09134≤X<136134~1361351110100.00加权法计算结果À利用频数表,采用加权法计算110名7岁儿童身高的均数,其计算结果为:X=f1X1+f2X2+f3X3+...+fnXnΣf=ΣfXΣf=1×111+3×113+...+1×135110=121.95(cm)2.几何均数(geometricmean)À几何均数(geometricmean,简记为G)À在医学资料中,如抗体的滴度,细菌计数等,各观察值之间呈倍数变化(等比关系),其分布呈偏态,用对数可转换成对称分布的资料,对于这类资料可用几何均数反映其平均增(减)倍数。4(1)几何均数的应用条件À几何均数适用于资料服从对数正态分布、或近似对数正态分布,如:如抗体的滴度,细菌计数等,等比级数资料。À经对数转换后,仍不服从对称分布的偏态分布资料,不能使用几何均数描述其集中趋势(平均水平)。(2).计算方法—直接法À直接法,即对原始数据取对数后,再计算其对数值的均数,最后计算反对数,其计算公式为:G=lg-1(lgX1+lgX2+lgX3+...+lgXnn)=lg-1(ΣlgXn)lgXi为各个观察值的对数值;n为观察例数(3).计算方法—加权法À加权法,利用频数表数据按下式计算其几何均数:G=lg-1(f1lgX1+f2lgX2+f3lgX3+...+fnlgXnΣf)=lg-1(ΣflgXΣf)lgXi为频数表中各组段的组中值fi为频数;Σf为观察例数3.中位数(median)À中位数(median,简记为M),是将一组观察值按从小到大的顺序排列后,其位置居中的观察值。À中位数是一个特殊的百分位数,P50分位数也就是中位数。À百分位数(percentile)是一种位置指标,以PX表示。它是将一组观察值从小到大按顺序排列后,该数列的百等份分割值,故百分位数是一个界值。À一般来说,分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只在样本例数足够多时才比较稳定,因此,当样本例数不够多时,不宜取太近两端的百分位数。5(1)中位数的应用条件À中位数可用于任何分布型的资料,特别是非特定分布,如非正态分布资料、偏态分布、两端无界(无确切的最大、最小值)和未知分布的资料。À中位数常用于描述偏态分布资料的集中位置,反映位置居中的观察值的平均水平。À在对称分布的资料中,同一资料的中位数和均数的数值相同。从统计理论来讲,中位数适用于任意分布的资料。À但是,中位数不是由全部观察值的数量值综合计算出来的,只受居中变量值波动的影响,不受两端特小值和特大值的影响,计算的准确性不如均数和几何均数。À因此,当资料不满足均数和几何均数的应用条件时,可用中位数描述其平均水平。(2).计算方法—直接法À在一个从小到大的有序数列中,位置居中的那个数,即是中位数。直接法:n为奇数时M=X(n+12)n为偶数时M=(X(n2)+X(n2+1))/2(3).计算方法—频数表法À利用频数表数据按下式计算其中位数:频数表法:M=L+ifm×(n2–ΣfL)L:中位数所在组段的下限。I:中位数所在组段的组距。fm:中位数所在组段的频数。ΣfL:小于中位数所在组段的累计频数。实例分析À现有某市大气中SO2浓度数据,请用正确的指标描述其平均水平。À该资料不满足正态分布,而是偏态分布,不满足均数的应用条件,故应使用中位数描述该资料的平均水平。某市大气中二氧化硫日平均浓度浓度频数累计频数累计频率(%)25~393910.850~6710629.475~6417047.1100~6323364.5125~4527877.0150~3030885.3175~1732590.0200~933492.5225~734194.5250~634796.1275~535297.5300~335598.3325~3506361100.06数据的分布图示二计算结果—频数表法À利用频数表数据按下式计算其中位数:M=L+ifm×(n2–ΣfL)=100+2563×(3612–170)=104.17(μg/m3)二.离散程度的描述甲组2628303234X甲=30kg乙组2427303336X乙=30kg丙组2629303134X丙=30kg例如:设有三组同年龄、性别儿童体重(kg)的数据如下:À我们可分别用均数来描述这三组数据的集中趋势,它们的均数都是30kg。但这三组数据的5个数据间参差不齐的程度(即变异程度)是不一样的,或者说三组的离散程度不同,这在分析资料时不能不加以考虑。因此,对数值资料的全面描述时,应同时描述其集中趋势和离散程度。À描述个体变异(离散程度)指标有极差、四分位数间距、方差、标准差和变异系数,尤其是方差、标准差和四分位数间距更为常用。À与描述平均水平的指标一样,描述离散程度(个体变异)的指标也有应用条件。71.方差与标准差(variance&standarddeviation)À(1)应用条件:与均数同À(2)计算方法:直接法方差:S2=ΣX2-(ΣX)2/nn-1标准差:S=ΣX2-(ΣX)2/nn-1式中:X为观察值;n为观察例数À计算方法:加权法方差:S2=ΣfX2-(ΣfX)2/nn-1标准差:S=ΣfX2-(ΣfX)2/nn-1式中:X为频数表各组段的组中值;n为观察例数;f为频数À方差的单位是原度量单位(如kg、cm等)的平方,为了用原单位表示,所以又把总体方差开平方,这就是总体标准差。若数值的变异度越大,方差或标准差也就越大,而标准差越大,说明个体变异越大,则均数的代表性就越差。À式中的n-1是自由度(degreeoffreedom)。自由度是统计上的常用术语,其意义是当一组随机变量数值的总和不变时,能“自由”取值的个数。如某5个数的总和(ΣX)为15,如果自由确定4、2、5、6四个数据后,由于受到ΣX=15的条件限制,第五个数据只能是-2,否则ΣX≠15。因而,其自由度υ=n-1=5-1=4。推而广之,任何统计量都有:自由度υ=n-限制条件的个数。2.四分位数间距(Quartile)8À(1)应用条件:与中位数相同À(2)计算方法:在一个从小到大的有序数列中,上四分位数(第75%百分位数)与下四分位数(第25%百分位数)之差,即是四分位数间距。即:ÀQU–QL=P75–P25À式中的Px由下式计算:Px=L+ifx×(nx100–ΣfL)L:第x%百分位数所在组段的下限。i:第x%百分位数所在组段的组距。fm:第x%百分位数所在组段的频数。ΣfL:小于第x%百分位数所在组段的累计频数。3.变异系数(coefficientofvariation)À应用条件:À当多个资料需要比较其变异程度大小时,若资料间有下述情况之一时,不能其他指标比较其变异大小,而要用变异系数。À(1)指标的单位不同如:身高与体重À(2)指标的单位相同,但均数相差较大如:成人身高与小孩身高。À计算方法:CV=sX×100%描述数值变量的常用指标指标名称作用适用的资料均数(X)描述一组数据的平均水平,集中位置正态分布或近似正态分布中位数(M)与均数相同偏态分布、分布未知、两端无界几何均数(G)与均数相同对数正态分布,等比资料指标名称用途适用的资料标准差(S)或方差(s2)描述一组数据的变异大小,离散程度正态分布或近似正态分布四分位数间距(QU-QL)与标准差相同偏态分布、分布未知、两端无界变异系数(CV)与标准差相同几组资料间的变异大小比较极差(R)与标准差相同观察例数相近的数值变量9