医学统计学及其软件包上海第二医科大学生物统计教研室第三章计量资料的描述性统计第一节概述描述性统计指标包括:(1)集中位置的指标,用以描述观察值的平均水平。如算术均数、几何均数、中位数、众数、百分位数等。(2)资料变异的指标,用以描述观察值间参差不齐的程度,即离散度或称变异度。如全距、标准差、方差、变异系数、四分位数间距等。设原始观察值共N例,为X1,X2,……,Xn。和(SUM):∑X=X1+X2+……+Xn。平方和,SS(SUMOFSQUARE):∑X2=X12+X22+……+Xn2平方和又记为USS(UNCORRECTEDSUMOFSQUARE)离均差平方和,记为CSS(CORRECTEDSUMOFSQUARE):2)(xx2)(xx2)(xx2)(xx2)(xx21)(xx+22)(xx+……+2)(xxn第二节集中位置的指标一、算术平均数(ArithmeticMean)简称为均数(Mean),总体均数用希腊字母μ表示,样本均数用表示。x=nxxxn+++L21=鍈nx/==适用于服从正态分布的资料。x一、算术平均数f=120ffxx/一、算术平均数x为每个组段的组中值,f为相应组段的频数。原理:将落在某一组段内的观察值都视为组中值。本例:=(4.0×4+4.2×5+……+5.8×3)/120=595.8/120=4.965如用原始观察值计算有=(5.195+5.070+……+5.010)/120=4.959xx二、几何均数(GeometricMean)几何均数用G表示,为观察值的总乘积开n次方根,有nnnxxxxG/121)(L常用对数计算,公式如下:LogG=∑logX/n再查反对数得出G。列成频数表时计算公式如下:LogG=∑flogX/Σf适用条件:1.成倍数关系的资料。2.明显正偏态分布的资料。二、几何均数(GeometricMean)二、几何均数(GeometricMean)例3.36例钩端螺旋体病人的潜伏期分别为7,10,12,14,18,20天,求其平均潜伏期。解:或者lgG=(lg7+lg10+……+lg20)/6=1.1045查反对数得G=12.7(天)7.12201814121076G二、几何均数(GeometricMean)当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25,1:50,1:50,1:100,1:100,可先取其倒数,25,50,50,100,100,再求取几何均数为57.43,则平均抗体滴度为1:57。三.中位数(Median)中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值。计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。三.中位数(Median)如求数列7,10,12,14,18,20的中位数。n=6,为偶数,取中间两个数的平均数,则M=(12+14)/2=13(天)如求数列7,10,12,14,15,18,20的中位数。n=7,为奇数,取中间那个数为中位数。则M=14(天)三.中位数(Median)适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响,因此它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。四.众数(Mode)频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。五.百分位数(Percentile)第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px,(100-x)%个观察值大于Px。用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25,P50,P75,P95,可以描述总体或样本的分布特征,如集中位置、变异度等。五.百分位数(Percentile)2.确定医学正常值范围。P25称为第1四分位数;记为Q1。P50称为第2四分位数;记为Q2,就是中位数MP75称为第3四分位数;记为Q3。计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。五.百分位数(Percentile)例:用直接法计算例3.2资料共120例的第5百分位数,用频数表法计算第95百分位数,解:将原始观察值由小到大排列,得3.980,4.065,4.070,4.070,4.2150,4.250,4.260,4.290,……5.850,5.875先确定第x百分位数在第几位。用公式:(n+1)×x%五.百分位数(Percentile)本例(120+1)×5%=6.05,第5百分位数在第6.05位,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2=4.255(1012/L)。计算精确点可用内插法。第6位第6.05位第7位4.250P54.260(7-6):(4.260-4.250)=(6.05-6):(P5-4.250)解得:P5=4.2505(1012/L)五.百分位数(Percentile)五.百分位数(Percentile)计算P951.列出频数分布表,计算累计频数。2.计算nx%,120×95%=1143.对照累计频数栏与nx%确定PX应落在哪一个组段中。114将在组限为5.5~的组中,该组段下限为L,组距为i,频数为f,上一组累积频数为Σfl。PX=L+i(nx%-Σfl)/f,P95=5.5+0.2×(114-108)/9=5.633(1012/L)第三节离散程度的指标1.全距(Range)是最大与最小观察值之差。全距计算方便,但仅利用最大与最小二个数据来代表全部数据的离散程度,信息利用差。全距受特大与特小值影响大,不稳定。2.四分位数间距(InterquartileRange)第三节离散程度的指标四分位数间距是第3四分位数与第1四分位数之差,即P75-P25。四分位数间距受特大值或特小值影响小,较稳定。中位数和四分位数间距相结合常用于表示非正态分布资料的平均水平和离散程度。第三节离散程度的指标3.标准差与方差(StandardDeviationandVariance)总体的标准差,方差符号为σ,σ2,样本的标准差,方差符号为S,S2。第三节离散程度的指标当为频数表资料时,公式如下:方差S2是标准差S的平方值。标准差(或方差)越大,表示观察值的分布越分散,反之,标准差(或方差)越小,表示观察值的分布越集中。实际应用时常以均数±标准差的写法综合观察值的集中和离散特征。第三节离散程度的指标4.变异系数(CoefficientofVariation)简记为CV,它是标准差与均数之比,用百分数表达。100/xSCV由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。第三节离散程度的指标表3.3160名20岁男青年身高(cm)、体重(Kg)的均数与标准差────────────────────────均数标准差变异系数────────────────────────身高166.064.952.98%体重53.724.468.30%────────────────────────算得变异系数后,可以认为体重的变异程度比身高大。偏态系数(skewness):评价正态分布对称性的指标。对称:skewness=0;正偏态:skewness>0;个别数据特别大。负偏态:skewness<0;个别数据特别小。峰态系数(kurtosis):评价正态分布正态峰的指标。正态峰:kurtosis=0;尖峭峰:kurtosis>0;平阔峰:kurtosis<0;第四节计量资料描述性统计的SAS程序进入SAS系统实际操作