第二节数值变量资料的统计分析——统计描述DescriptiveStatistics信阳职业技术学院赵玉霞一数值变量资料的频数表二集中趋势指标三离散程度指标四正态分布及其应用主要内容学习目标•1.说出频数表的编制方法,频数分布的两种趋势;•2.学会数值变量资料常用指标(平均水平、离散程度)的计算方法•3.描述正态分布的基本特征与内容,了解医学参考值范围的估计方法19:46编号血清甘油三脂编号血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77表160名正常成年女子的血清甘油三酯(mmol/L)一、频数表(frequencytable)19:46组段划记频数,f0.5~30.6~正90.7~正正120.8~正正130.9~正正正171.0~正正正181.1~正正正正201.2~正正正181.3~正正正171.4~正正131.5~正91.6~正81.7~1.8合计31601.频数表的编制(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=1.77-0.51=1.26(mmol/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=1.26/10=0.126≈0.1。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。19:46①集中趋势(centraltendency):变量值集中位置。本例在组段“1.1~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。本例0.9~1.4,共有90人,占56%;离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标2.频数表的分布特征组段频数,f0.5~30.6~90.7~120.8~130.9~171.0~181.1~201.2~181.3~171.4~131.5~91.6~81.7~1.8合计316019:461.正态分布normaldistribution(图2-1)2.左偏态(skewedtotheright),也称正偏态(positiveskewed)(图2-2)3.右偏态(skewedtotheleft),也称负偏态(negativeskewed)(图2-3)3.正态分布与偏态分布19:46.图160名正常成年女子的血清甘油三酯的频数分布图05101520250.500.700.901.101.301.501.701.90血清甘油三酯(mmol/L)频数计量资料频数分布与图示——正态分布组段频数,f0.5~30.6~90.7~120.8~130.9~171.0~181.1~201.2~181.3~171.4~131.5~91.6~81.7~1.8合计3160中间高、两边低、左右对称如果观察例数逐渐增多,组段不断分细,频数分布“中间高,两侧低”的特征会越来越明显直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图“中间高、两边低、左右对称”19:46正偏态分布:长尾向右延伸负偏态分布:长尾向左延伸计量资料频数分布与图示——偏态分布19:46总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:二集中趋势指标算术均数几何均数G中位数MX19:46正态分布非正态分布可转换为正态分布其他分布XGM计量资料的分布与平均数的关系19:46算术均数(mean)X2.常用μ表示总体均数,表示样本均数。1.简称均数3.应用条件:适用于正态或近似正态的资料。Xf(X)m19:46均数计算方法iikkkffXffffXffXfXXfX3213211Σ为求和符号,读成sigma②加权法:利用频数表,用组中值计算nXnXXXXn21①直接计算法:用原始数据直接计算19:46②加权法:当数据较少时,可用直接法计算大样本,即资料数据较多时,常现将资料整理成频数表,再用加权法计算加权法的计算原理:以组中值代替原始数据19:46组段频数,f组中值,XfX0.5~30.551.650.6~90.655.850.7~120.759.000.8~130.8511.050.9~170.9516.151.0~181.0518.901.1~201.1523.001.2~181.2522.501.3~171.3522.951.4~131.4518.851.5~91.5512.401.6~81.6514.851.7~1.8合计31.755.25160182.30加权计算法1.计算组中值:组中值指组段的中间值第一组段的组中值X=(0.5+0.6)÷2=0.55第二组段的组中值X=(0.6+0.7)÷2=0.65其他组段以此类推2.计算各组的fX即各组的f和X的乘积第一组段的fX=3×0.55=1.65第二组段的fX=9×0.65=5.85其他组段以此类推3.计算ΣfX=182.30ΣfΣfXX=4.计算=182.30/160=1.1419:46加权法的原理组段频数,f组中值,XfX0.5~30.551.650.6~90.655.850.7~120.759.000.8~130.8511.050.9~170.9516.151.0~181.0518.901.1~201.1523.001.2~181.2522.501.3~171.3522.951.4~131.4518.851.5~91.5512.401.6~81.6514.851.7~1.8合计31.755.25160182.30在频数表中,160个数据的原始数值已无法得知以组段0.6~为例,该组含9个数据,数值均在0.6~0.7之间,如将7个数据值都以中间值0.65代替,则该组段fX=5.85,可看成是9个0.65之和以此类推,182.30实际是160个组中值之和19:46大样本资料可用直接法计算均数吗?直接法和加权法公式中,分子内“X”的含义有何区别?同一资料用直接法和加权法计算均数,何种结果更精确?均数与平均数有何区别?讨论19:46适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料,如抗体滴度资料几何均数(geometricmean)计算方法:1.直接计算法2.加权法19:46nXXnXXXXnXXXXXGnGnnGlglglg)lglg(lg1lg12121为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数:变量对数值的算术均数的反对数。几何均数(geometricmean)——直接计算法19:46如抗体滴度资料血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。1000510lg10lg10lg10lg10lglg543211G此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数均数几何均数(geometricmean)——直接计算法19:46inniiifXfXfXffXfGlglglglglglg221111抗体滴度⑴人数,f⑵滴度倒数,X⑶lgX⑷f·lgX⑸1:2.51:101:401:1601:640合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.80625.570618.000035.246226.449216.8372102.1032几何均数(geometricmean)——加权法19:46为什么血清抗体滴度的几何均数加权法计算不用组中值?正态分布资料为什么选用算术均数表示集中趋势?讨论19:46中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md或M,反映一批观察值在位次上的平均水平。适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。中位数(median)19:46直接法加权法中位数计算方法19:46先将观察值按从小到大顺序排列,再按以下公式计算:为偶数为奇数nxxnxMdnnn22/12/2/)1(特点:仅仅利用了中间的1~2个数据中位数计算方法——直接法19:46•例如:某病有患者7人,其潜伏期分别为5d,6d,7d,8d,9d,10d,20d,求中位数。•观察值个数为奇数,中位数所在位次为(n+1)/2=(7+1)/2=4•本例:M=X4=8中位数计算方法——直接法计算19:46直接法加权法中位数计算方法19:46mLffniLMdnMd)%50()%50(值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值中位数计算方法——加权法计算关键:计算公式:以n/2,找出中位数所在组段19:46组段频数,f累计频数f0.5~330.6~9120.7~12240.8~13370.9~17541.0~18721.1~20921.2~181101.3~171271.4~131401.5~91491.6~81571.7~1.8合计3160160中位数计算方法——加权法计算以n/2得80,表示中位数排序在第80位。从累计频数可见,在组段“1.1~”前累计了92个数据,排序第73-92位,含第80位数(中位数)已知中位数所在组段为“1.1~”=1.1+0.1×[(160x50%-72)/20=1.14)2(LMfnfiLM19:46均数、中位数正态分布时:均数=中位数正偏态分布时:均数中位数负偏态分布时:均数中位数19:46集中趋势指标小结•1.即计量资料分布与平均数的选择•2.计量资料的分布与统计分析分布类型算术均数几何均数中位数正态分布√×√对数正态分布×√√其他分布××√正态分布非正态分布可转换为正态分布其他分布应用手段丰富应用手段有限19:46反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariation三离散程度指标19:46盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)420440460480500520540560580甲乙丙离散程度指标19:46minmaxXXR420440460480500520540560580优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定12040201.极差(Range)(全距)19:46百分位数:数据从小到大排列;在第x百分位次所对应的值。记为Px。四分位间距:Q=P75-P250%20%40%60%80%100%0P100(max)P75P50(中位数)P25P0(min)Px2.百分位数与四分位数间距Percentileandquartilerange19:46百分位数计算方法计算关键:计算公式:以x%,找出Px所在组段)%.(LXfXnfiLPxL:Px所在组段的下限i:Px所在组段的组距fx:Px所在组段的频数ΣfL:为小于L的各组段的累计频数19:46组段频数,f累计频数f累计频率