医学统计学——统计描述季聪华2012.09.27方法的类型研究和应用程度统计学理论统计学应用统计学描述统计学推断统计学在中医药科研实践中通过观察、调查、实验等方式搜集到的各种资料含有大量信息,由此揭示或表达样本信息特征,不仅需要依据相关专业知识,还需借助适当的统计学方法和手段。统计描述(statisticaldescription)又称描述性统计(descriptivestatistics),是运用适宜的统计指标、统计表、统计图等方法,对研究对象(变量)的分布类型和数量特征进行展示的过程。通过统计描述,可了解研究对象的基本特征,便于对样本资料作进一步的统计分析。第一节频数分布第二节数值资料的统计描述第三节分类资料的统计描述第四节统计表和统计图第一节频数分布频数表(frequencytable)及频数图(frequencygraph)是统计描述的基本内容,也是揭示样本数据分布特征的基本手段。一、频数表•频数表(frequencytable)又称频数分布表,是将某变量各组段及其相应的频数按一定顺序排列而成的表格形式,主要用于描述数据的分布特征,是对样本含量较大的资料进行统计描述的常用方法。【例2-1】随机抽取某年某地120例正常人血清铜的含量,见表2-1,试编制频数表。1.数值资料频数表的编制•通过如下步骤也可手工编制表2-2。(1)找出120例血清铁数据的最小值(9.23)与最大值(19.84)。(2)计算全距(range,R),也称为极差。R=最大值一最小值=19.84-9.23=10.61(3)确定组段数(k):组段数应根据研究目的和观察值多少而定,当n100时,一般定8~10个组;当n100时,通常取10~15组,不宜过粗或过细。本例n=120,可先将原始资料粗略定为11组。(4)确定组距(i):组距等于全距比组数,一般等距分组。i=R/k本例中:i=10.61/11=0.965≈1(5)确定组段:第一组段应包括最小值,最后一个组段应包括最大值。每一组段的起始值称为下限,终点值称为上限(即下一组段的下限),为避免汇总时的重复,组段不包括本组段的“上限”,但最后一个组段应同时写出下限和上限。如本例最小值为9.23,为计算方便,第一组段的下限取9.00,然后每隔一个组距列一个组段,直至最后一个组段19.00~20.00。•(6)列表并统计频数,还可计算频率、累计频数和累计频率,见表2-2。表中:组中值=(上组段下限值+下组段下限值)/2;频数(frequency)即各组段内观察值的个数;频率(percent)即各组段频数与总观察值个数之比,一般用百分数表示;累计频数(cumulativefrequency)是由上至下将频数累加;累计频率(cumulativepercent)是由上至下将频率累加。从本例的分布可见:以第六组段(14.00~)分布的数据最多,22例,占18.3%,且以该组段为中心呈对称分布,小于15.00umol/L的数据占59.1%。SPSS软件绘制频数表•对【例2-1】资料进行统计描述2.分类资料频数表的编制(1)一维频数表:用分类资料的分类水平代替上述数值资料频数表的组段,然后通过分类计数便可编制其频数表,见表2-3。(2)二维频数表:分类资料的二维频数表在各种医学杂志中较为常见。按分类资料的分类水平特征,可组合成各种不同的二维表,不同二维表名称见表2-4。(3)配对设计分类资料的频数表:同一研究对象同时接受两种不同的处理,观测的结果为属性相同的分类资料时,这样就形成了配对设计的分类资料,可用行数与列数相同的方形表归纳其频数分布,见表2-5。二、频数图•频数图(frequencygraph)是在频数表基础上,以直方(或直条)的面积大小表示频数的多少或频率的大小的图形,可直观显示数据的分布类型和特征。1.数值资料频数图——直方图的绘制(1)等距分组:横轴表示随机变量,纵轴表示频数(或频率)。表2-1资料的频数图,见图2-1。SPSS绘制频数图(2)不等距分组:横轴表示变量,纵轴是每个横轴单位的频数。表2-6资料的频数图,见图2-2。2.分类资料频数图——直条图的绘制三、频数表和频数图的用途•1.描述频数分布的类型资料的频数分布类型有对称分布(symrnetricdistribution)和偏态分布(skewdistribution)两种。如果频数分布集中位置(单峰最高处)在中间,左右两侧频数大体对称,称为对称分布。如果频数分布不对称,集中位置偏向一侧,则称为偏态分布。若集中位置偏向观察值小的一侧,称为正偏态(positiveskewness),又称右偏态。若集中位置偏向观察值大的一侧,称为负偏态(negativeskewness),又称左偏态。不同资料的频数分布类型,见图2-4。对于不同频数分布类型的资料,应选用不同的统计方法进行分析。描述频数分布形态的统计量有两个:峰度系数(coefficientofkurtosis,KURT)和偏度系数(coefficientofskewness,SKEW)。理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏态;取负值时,分布为正偏态。正态分布的总体峰度系数为0;取负值时,分布为平阔峰;取正值时,分布为尖峭峰。正态分布是一种特殊的以集中性、对称性和均匀变动性为特点的对称分布,故无论尖峭峰或平阔峰,均为非正态分布。•2.展示频数分布的特征频数分布有两个重要特征:一是集中趋势(centraltendency),反映一组观察值的中心位置或平均水平;二是离散趋势(tendencyofdispersion),反映观察值之间参差不齐的程度。对数值变量资料作统计描述,就是用统计指标将这两个重要特征数量化。•3.便于发现某些特大或特小的异常值对资料中出现的异常值应谨慎对待,必要时对原始资料进行核实,并再次进行观察或测量。若条件不允许再次观察或测量,在有充分依据的前提下,可将异常值予以剔除,然后再做统计描述和分析。•4.有利于进一步计算有关指标和统计分析处理第二节数值资料的统计描述从数值资料的频数表和频数图中虽可以看出观察值的分布情况,但为了揭示数据的基本特征,还需用可量化指标作进一步的统计描述分析。本节讨论数值资料的统计描述,它包括集中趋势和离散趋势的统计描述。一、集中趋势的统计描述描述数值资料集中趋势的代表性指标为平均数。平均数(average)是反映一组观察值(变量值)集中趋势、中心位置或平均水平的重要统计指标,其主要作用包括:①作为一组观察值的代表值,表明该组观察值集中趋势的特征。②便于对同类研究对象进行对比分析。按使用条件和计算方法不同,平均数分为许多种。常用的有算术均数、几何均数和中位数等。1.算术均数(arithmeticmean),简称均数(mean),它等于所有观察值之和除以观察值的个数。表示一组性质相同的观察值在数量上的平均水平,适用于呈对称分布,尤其是正态分布的数值资料的集中趋势描述。如正常人生理、生化的大多数指标,如身高、体重、血红蛋白含量、白细胞计数等均适合用均数描述其集中趋势。总体均数用希腊字母μ表示,样本均数用x(读作xbar)表示。计算方法有两种2.几何均数(geometricmean)是n个数值乘积的n次方根,表示一组资料在比例或倍数上的平均,用G表示。适用于对数正态分布资料(有些数值资料,原始数据不服从正态分布,若将数据转换成对数后的资料服从正态分布)和观察值之间呈等比关系的资料。如某些疾病的潜伏期、抗体滴度或平均效价等。SPSS计算几何均数3.中位数(median)将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,用M表示。它表示位次上的平均,不受两端极值的影响。中位数适用于任何一种分布的数值变量资料,一般多用于描述偏态分布或数据一端或两端无确切值的开口资料(如n60)的集中趋势。百分位数(percentile)是一个位置指标,用px表示。把一组变量值由小到大依次排列,将位次平均分成100等份,与第x百分位数相应的变量值称为第x百分位数。一个百分位数可将一组变量值分为两部分,理论上有nx%个变量值比它小,有n(1-x%)个变量值比它大。所以百分位数是一个界值或分割值。百分位数常用于描述一组偏态分布的大样本资料在某个百分位置上的水平及确定偏态分布资料的医学正常值范围。中位数是一个特定的百分位数,即p50。计算百分位数的公式为:%X(100)%XXP百分位数示意图运用平均数的注意事项(1)了解各医学专业平均数的习惯用法。例如,儿童龋齿个数虽然呈偏态分布,但在口腔预防保健统计中,习惯上计算算术均数。(2)同一资料有时可能同时满足几个平均数指标的应用条件。例如,对于某些偏态分布的资料,几何均数和中位数比较接近。出现这种情况时,除了专业上的习惯用法外,统计上的处理原则是:如果均数与中位数接近、几何均数与中位数接近,最终采用均数或几何均数作为平均数指标。反之,则采用中位数作为平均数指标。(3)计算和运用平均数时,要注意极端值的影响,如算术平均数受极端值的影响较大。为了正确反映观察值的特征,当存在过大或过小的极端值时,应予以剔除,然后将其余数值计算平均数。通常称这种去除极端值再平均的方法为切尾平均法。该法在文艺、体育比赛评分时应用较多。(4)平均数只反映变量的集中趋势,只有把平均指标与变异指标相结合,才能全面反映研究对象的数量特征。离散趋势的统计描述离散趋势是反映一组观察值之间参差不齐的程度,即变异度。【例2-9】有三组同龄男孩的身高值(cm)如下,其平均身高均为100cm,试分析其离散程度。甲组:9095100105110甲的平均值=100cm乙组:9698100102104乙的平均值=100cm丙组:9699100101104丙的平均值=100cm由资料可见,虽然三组的均数相同,即集中趋势相同,但各组数据参差不齐的程度并不相同,即离散趋势不同。所以要反映数值资料的整体特征,既要考虑集中趋势,还要考虑离散趋势。常用的离散趋势指标有极差、四分位数间距、方差和标准差、变异系数等。1.极差(range,R)又称全距,是一组观察值中最大值与最小值之差。适用于任何分布类型的资料(开口资料除外)。极差越大,说明变异程度越大。计算公式见式(2-1).用极差描述资料的离散趋势虽然计算简单,但除了最大值和最小值,不能反映组内其他数据的变异,且易受极端值和样本含量的影响,所以常用于资料的粗略估计和小样本数据。2.四分位数间距将全部观察值按其位次分为四等份,有三个分点:第一个分点是下四分位数即P25,常用QL表示;第二个分点即中位数M,记为p50,第三个分点也称上四分位数,即P75,常用Qu表示。四分位数间距(quartilcinterval,Q)即指上、下四分位数之差,用Q表示。四分位数间距示意图,见图2-5。四分位数间距适用于任何分布类型的资料,尤其是呈偏态分布的大样本资料,常与中位数一起描述偏态分布资料的分布特征。它作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小。3.方差和标准差为了全面考察每个观察值的变异情况,克服极差和四分位数间距的缺点,需要计算总体中每个观察值x与总体均数μ的差值(x-μ),称为离均差。由于Ʃ(x-μ)=0时,不能反映变异度大小,需将离均差平方后再求和,即Ʃ(x-μ)2,称为离均差平方和。同时考虑到观察值个数N的影响,取其均数,称为总体方差,用ơ2表示,计算公式为:•由于在实际研究中很难得到总体均数和总例数,只能用样本均数和样本例数来代替,计算出样本方差(s2)作为总体方差的估计值。为了克服s2对ơ2的有偏估计,统计学家提出用n-1代替n来校正,计算公式为:式中,n-1称为自由度(degreeoffreedom),统计符号为ν,表示在计算某一统计量时可以自由取值的变量个数或观察值个数。设某统计量的变量x共有n个取值,则v=n;若它们受到k个条件限制(kn),则v=n-k