河南大学医学院授课教案首页预防医学教研室教研室主任签名课程名称医学统计学授课对象2005级临床医学专业章节名称第二章集中趋势的统计描述课程教师乔玲教材医学统计学(第4版,马斌荣主编)教学手段课件讲授学时数3授课时间地点14#楼201教学目的1.掌握集中趋势的含义2.掌握频数表、直方图、平均数的意义和用途3、学会频数表的编制和平均数的计算教学过程与时间分配1.频数表和直方图(形象化的说明数据的集中趋势)讲40分钟,练习20分钟2.平均数讲50分钟,练习30分钟小结10分钟教学重点难点重点:频数表的编制、各种均数的意义。难点:各种均数之间的区别已经用范围/计算。基本概念频数表、平均数、算术均数、几何均数、中位数和百分位数练习与作业1.复习各种均数的意义及相互之间的区别。2.完成课后思考练习题。参考资料其他版本的《医学统计学》备注教研室审查意见主任签字年月日注:教后记放在讲义最后一页。基本内容第一节频数表统计描述是用统计指标、统计图或统计表描述资料的分布规律及其数量特征。频数表是统计描述中经常使用的基本工具之一。1.频数表(frequencytable)的编制在观察值个数较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表,简称频数表。(1)求全距(range):找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示。(2)确定组段和组距:根据样本含量的大小确定“组段”数,一般设8-15个组段,观察单位较少时组段数可相对少些,观察单位较多时组段数可相对多些,常用全距的1/10取整做组距,以便于汇总和计算。第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。各组段的起点和终点分别称为下限和上限,某组段包含下限,但不包含上限,其组中值为该组段的(下限+上限)/2。相邻两组段的下限之差称为组距。(3)列表划记:确定组段界限,列成表2.1的形式,采用计算机或用划记法将原始数据汇总,得出各组段的观察例数,即频数,表中的第(1)、(3)栏即所需的频数表。表2.1某地110名18岁男大学生身高(cm)均数的频数表2.频数分布的特征由频数表可看出频数分布的两个重要特征:集中趋势(centraltendency)和离散程度(dispersion)。身高有高有矮,但多数人身高集中在中间部分组段,以中等身高居多,此为集中趋势;由中等身高到较矮或较高的频数分布逐渐减少,反映了离散程度。对于数值变量资料,可从集中趋势和离散程度两个侧面去分析其规律性。3.频数分布的类型频数分布有对称分布和偏态分布之分。对称分布是指多数频数集中在中央位置,两端的频数分布大致对称。偏态分布是指频数分布不对称,集中位置偏向一侧,若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布,如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。临床上正偏态分布资料较多见。不同的分布类型应选用不同的统计分析方法。4.频数表的用途可以揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计处理;便于发现某些特大或特小的可疑值。第二节平均数描述一组同质观察值的平均水平或中心位置的常用指标有均数、几何均数、中位数等。1.均数(mean,average):是算术均数(arithmeticmean)的简称。常用X表示样本均数,表示总体均数。均数用于反映一组同质观察值的平均水平,适用于正态或近似正态分布的数值变量资料。其计算方法有:(1)直接法:用于样本含量较少时,其公式为:nXXXnXXn21(2.1)式中,希腊字母Σ(读作sigma)表示求和;X1,X2,…,Xn为各观察值;n为样本含量,即观察值的个数。(2)加权法(weightingmethod):用于频数表资料或样本中相同观察值较多时,其公式为:)(......212211cmffXfffXfXfXfXkkk(2.2)式中,X1,X2,…,Xk与f1,f2,…,fk分别为频数表资料中各组段的组中值和相应组段的频数(或相同观察值与其对应的频数)。2.几何均数(geometricmean)用G表示,适用于①对数正态分布,即数据经过对数变换后呈正态分布的资料;②等比级数资料,即观察值之间呈倍数或近似倍数变化的资料。如医学实践中的抗体滴度、平均效价等。其计算方法有(1)直接法:nnXXXG...21或)lg(lg)lg...lglg(lg1211nXnXXXGn(2.3)(2)加权法:)lg(lg....lg...lglg(lg12122111fXffffXfXfXfGkkk(2.4)注意:计算几何均数时观察值中不能有0,因0不能取对数;一组观察值中不能同时有正或负值。3.中位数(median)用M表示。中位数是一组由小到大按顺序排列的观察值中位次居中的数值。中位数可用于描述①非正态分布资料(对数正态分布除外);②频数分布的一端或两端无确切数据的资料③总体分布不清楚的资料。在全部观察中,小于和大于中位数的观察值个数相等。(1)直接法:将观察值由小到大排列,按式(2.6)或式(2.7)计算。n为奇数,2)1(nXM(1.5)n为偶数,)(21122nnXXM(1.6)式中下标2n、12n、21n为有序数列的位次。)21(nX、)2(nX、)12(nX为相应位次的观察值。(2)频数表法:用于频数表资料。计算步骤是:①计算2n的大小,并按所分组段由小到大计算累计频数和累计频率,如表2.1第(3)、(4)栏;②确定M所在组段。累计频数中大于2n的最小数值所在的组段即为M所在的组段;或累计频率中大于50%的最小频率所在的组段即为M所在的组段。③按式(2.7)求中位数M。)2(LMfnfiLM(2.7)式中:L、i、Mf分别为M所在组段的下限、组距和频数;Lf为小于L的各组段的累计频数。例1.1由表2.1计算中位数M。表2.1199名食物中毒患者潜伏期的M和PX的计算潜伏期(小时)(1)人数f(2)累计频数Σf(3)累计频率(%)(4)=(3)/n0~303015.112~7110150.824~4915075.436~2817889.448~1419296.560~619899.572~841199100.0合计199本例n=199,根据表2.3第(2)栏数据,自上而下计算累计频数及累计频率,见第(3)、(4)栏。5.992n,由第(3)栏知,101是累计频数中大于99.5的最小值,或由第(4)栏知50.8%是大于50%的最小的累计频率,故M在“12~”组段内,将相应的L、i、f50、Lf代入(2.8),求得M。M=P50=)%50.(50LfnfiL=12+12/71(199×50%-30)=23.75(小时)4.百分位数(percentile)用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有X%的观察值比它小,有(100-X)%的观察值比它大,是一种位置指标。中位数是一个特定的百分位数,即M=P50。百分位数的计算步骤与中位数类似,首先要确定Px所在的组段。先计算%xn,累计频数中大于%xn的最小值所在的组段就是Px所在组段。计算见公式(2.8)。)%.(LXfXnfiLPx(2.8)式中:L、i、fx分别为Px所在组段的下限、组距和频数;为小于L的各组段的累计频数。百分位数用于描述一组数据某一百分位位置的水平,多个百分位数的结合应用时,可描述一组观察值的分布特征;百分位数可用于确定非正态分布资料的医学参考值范围。应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。