预防医学PreventiveMedicine预防医学教研室2004.06第十四章数值变量的统计描述蔡泳频数表的编制方法1.找全距:Range=Max-Min2.划分组段(1)确定组数:8—15组,一般取10组(2)确定组距:组距(i)=全距/组段数(3)确定各组段的上下限:各组的起点为下限,终点为上限。要求:(1)第一组含最小值(2)最后组含最大值3.归纳计数:划计法4.计算频率与累计频率集中趋势集中趋势:表示数据的中心位置。集中趋势的指标:平均数是一组统计指标,常用的有算术均数、几何均数及中位数等。平均数平均数是表示一组同质计量资料的集中趋势或平均水平的统计指标,是计量资料中非常重要的一个指标体系。医学研究中常用的平均数有算术均数、几何均数及中位数三种。这个平均数是广义的,而日常人们所说的平均数是狭义的算术均数。(一)算术均数(mean)算术均数简称均数。用于说明一组观测值的趋中位置或平均水平。均数用于对称分布、正态或近似正态分布的资料。x表示变量X的样本均数,(希腊字母)表示总体均数。常用的计算方法是直接法和加权法。直接法当样本含量较小时,可选用此法。有n个观察值,分别为X1,X2,……Xn,均数的计算公式为:式中,Σ是求和的符号。例题例14-110名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5.0,122.5,140.0。求平均数。1.132101405.122...1265.125nXX加权法1.列出频数表2.计算组中值组中值X,计算方法是将本组下限和下组下限相加除以2。3.用加权法计算均数:式中f为各组的频数,x为各组的组中值。ffXfffXfXfXfXmmm......212211(二)几何均数(geometricmean)几何均数适用于对数正态分布的资料,例如抗体的平均滴度和平均效价。几何均数用G表示。例:5人的抗体滴度为:1:10,1:100,1:1000,1:10000,1:100000直接法直接法:样本含量较小时,选用此法。有n个观察值X1,X2,…Xn,几何均数的计算公式为:一般采用对数形式计算:式中lg为取常用对数的符号,lg-1为反对数。nnXXXG21nXnXXXGnlglglg...lglglg1211例题6份血清抗体滴度为:1:2,1:4,1:8,1:8,1:16,1:32,求平均数。几何平均滴度为1:889031.0lg632lg16lg8lg8lg4lg2lglgG11加权法加权法:当样本含量较大时,可将资料整理成频数表,用下式计算:fXfGlglg1例题[例1-4]某地102名健康人的钩端螺旋体血清抗体滴度如表1-2,计算平均滴度。102名健康人的钩端螺旋体血清滴度的几何平均滴度为1:464464102026.272lglglg11fXfG表14-1102名健康人的钩端螺旋体血清抗体平均滴度的计算抗体滴度人数f滴度倒数XlgXflgX(1)(2)(3)(4)(5)=(2)(4)1:10071002.00014.0001:200192002.30143.7191:400344002.60288.4681:800298002.90384.1871:16001316003.20441.652合计102272.206(三)中位数(median)将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数。中位数适用于任何一种分布的计量数据,一般多用于描述偏态分布或数据一端无界资料的集中趋势。中位数用M表示。直接法样本含量较小时,可根据下式计算:n为奇数时n为偶数时上式中n为一组观察值的总个数,、及均为下标,表示有序数列中观察值的位次。21nXM2XXM12n2n21n2n12n频数表法样本含量较大时用此法L为本组(中位数所在组)下限,i为本组组距,f为本组频数,ΣfL为上一组的累计频数。本组位置可根据累计频数的数值来判断。当某一组的累计频数首先超过n/2时或累计频率首先超过50%时,即定为本组。Lf2nfiLM例题[例1-6]调查某地107名正常人尿铅含量(mg/L)结果列于下表,计算中位数:本例,第3组的累计频数为65,超过n/2=53.5,即第3组为本组。)L/mg(41.1036210765429f2nfiLML(四)百分位数(percentile)百分位数是一种位置指标,用PX表示。百分位数是一个有序数列百等分的分割值。第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。计算百分位数的计算公式为:计算百分位数一般需计算累计频率(%),为各组段累计频数除以总例数n。LXXf%xnfiLP离散趋势的统计描述计量数据的频数分布有两个重要特征:集中趋势和离散趋势。必须指出,要把两者结合起来才能全面地反映数据频数分布的基本特征。[例1-8]两组计量数据如下,分析其分布特征。甲组98,99,100,101,102乙组80,90,100,110,120描述离散趋势的常用指标有全距、四分位间距、方差和标准差等。100X1100X2一、全距(range)亦称极差,用R表示,是一组观察值中最大值与最小值之差,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。如例1-8中甲组全距为4,乙组全距为40,表明乙组变异度大。但全距易受个别数据的影响,稳定性较差,抽样误差较大,而且还受n大小的影响,一般n越大,全距越大。二、四分位间距(inter-quartilerange)四分位间距是两个特定的百分位数之差,即第75百分数P75(上四分位数QU)和第25百分位数P25(下四分位数QL)之差,用Q表示,适用于任何分布的计量资料,尤其适用于偏态分布的资料.四分位间距比全距稳定,但仍然未考虑到每个观察值的变异。Q=QU-QL三、平均偏差与离均差平方和平均偏差(meandifference):每个观测值与均数之差的绝对值相加,然后取平均。离均差平方和:为了避免使用绝对值,采用取平方的方法。离均差平方和=2)X(四、方差(variance)为了消除观察值的总个数N的影响,将除以N,这就是总体方差,用σ2表示。对于样本资料,在对离均差平方和取平均时分母用n-1代替n。2)X(N)X(22五、标准差(standarddeviation)方差的单位是原度量单位(如kg)的平方,把总体方差开平方,这就是总体标准差,度量单位与原始观察值一致,即对于样本资料,样本标准差的计算公式为:可改写为:上式n-1称为自由度。N)X(21n)XX(S21nnXXS22例题[例1-9]对例1-8的数据计算标准差甲组:n=5,ΣX=98+99+100+101+102=500ΣX2=982+992+1002+1012+1022=5001058.115550050010S2甲81.1515550051000S2乙标准差应用表示观察值的变异程度在两组(或几组)均数相近、单位相同的条件下,标准差大,表示变量值的变异度大,均数的代表性较差;反之,标准差小,表示变量组变异度小,数据多集中在均数周围,则均数的代表性较好。计算变异系数结合均数描述频数分布的特征和制定医学参考值范围。计算标准误六、变异系数(coefficientofvariation)当单位不同时,均数相差较大时,用标准差就不适宜了,此时用变异系数更好。变异系数是一种相对的离散程度指标,它无单位,用CV表示,其计算公式为:%100XSCV例题[例1-11]某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm,其体重均数为53.72kg,标准差为4.96kg。请比较何者变异度较大。由于两者度量单位不同,不能直接比较标准差,而应比较变异系数。身高体重结果表明该地20岁男子体重的变异大于身高的变异。%98.2%10006.16695.4CV%23.9%10072.5396.4CV正态分布正态分布的图形图频数分布逐渐接近正态分布状态正态分布的特点正态分布是一种很重要的连续型分布。正态分布以均数为中心,左右两侧对称,靠近均数两侧的频数较多,而距均数两侧较远处,频数逐渐减少,形成钟形分布。正态曲线下的面积分布有一定的规律。正态曲线下面积的分布规律曲线下横轴上的总面积为100%或1。下面是应用较多的三个区间的面积分布规律。(1)正态分布区间(-,+)下的面积,即范围的面积占总面积为68.27%;(2)正态分布区间(-1.96,+1.96),即1.96范围的面积占总面积为95.00%;(3)正态分布区间(-2.58,+2.58),即2.58范围的面积为99.00%。(如图1-2)正态分布曲线下的面积图1-2正态分布曲线及其面积分布正态分布的主要特征1.以均值μ为中心,左右对称。2.X取值范围理论上没有边界。X离μ越远,函数f(x)值越接近0,但不会等于0。3.正态分布曲线下的面积分布有一定的规律。4.正态分布完全由参数μ和决定。μ是位置参数(即平均水平),决定分布曲线在横轴的偏移位置。当一定后,μ增大,曲线右移;反之μ减小,曲线左移。是变异参数,决定分布曲线的形态。越大,曲线的形态越“矮胖”,表示数据分布越分散;越小,曲线的形态越“瘦高”,表示数据分布越集中。标准正态分布(standardnormaldistribution)标准正态分布:是均数为0、标准差为1的正态分布,即=0、=1亦称u分布。u变换:将均数为μ,标准差为的正态分布变换成标准正态分布。u=(X-)/正态分布的应用医学参考值范围的估计1.正态分布法估计参考值范围公式为:如制定95%参考值范围,双侧界值u=1.96,单侧界值u=1.645。双侧界值:x1.96s单侧上界:x+1.645s单侧下界:x-1.645susX例题[例1-12]某地调查正常成年男子144人的红细胞数近似正态分布,得均数=5.38(1012/L),标准差s=0.44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。因红细胞数过多或过少均为异常,故按双侧估计95%界值。下限为:x-1.96s=5.38-1.96×0.44=4.52(1012/L)上限为:x+1.96s=5.38+1.96×0.44=6.24(1012/L)故该地成年男子红细胞数的95%参考值范围(4.52—6.24)1012/L2、百分位数法用于描述偏态分布资料。1)白细胞数的95%参考值范围,因为白细胞数无论过高或过低均属异常,则分别计算P2.5和P97.5。这是双侧95%参考值范围;2)又如确定肺活量的95%参考值范围,因为肺活量以过低为异常,应计算P5;3)再如确定尿铅的95%参考值范围,因为尿铅以过高为异常,应计算P95。肺活量、尿铅都是单侧参考值范围
本文标题:集中趋势的统计描述
链接地址:https://www.777doc.com/doc-3238831 .html