生物医学研究的统计方法第2章深圳大学医学院预防医学系张明生物医学研究的统计方法第2章统计分析统计描述:statisticaldescription统计推断:statisticalinference讲授内容一.定量资料的统计描述二.定性资料的统计描述三.常用统计图表教学目的和要求了解频数分布表的编制方法及应用;掌握定量资料集中趋势和离散趋势常用的统计描述指标及应用;掌握率、频率的概念及应用;能根据资料的特征,选择合适的统计表或统计图进行描述。一、频数表与频数分布图二、集中趋势的统计描述三、离散趋势的统计描述生物医学研究的统计方法第2章定量资料的统计描述【例1】某地2008年100名8岁男童身高资料(cm)表3.1某市100名8岁男童的身高(cm)130.1128.9128.7129.5128.9129.6130.0128.8130.4128.8131.6131.0130.4131.2130.7131.2131.5130.5131.6130.5125.9125.0124.0125.0124.9125.2125.5124.5126.3124.2123.0121.5116.2121.9121.2122.6122.9120.2123.4119.8132.6132.0131.8132.0131.9132.1132.2131.9133.2131.8127.6127.2126.3127.2127.0127.3127.5126.7127.6126.6128.5128.2127.8128.2128.2128.4128.4128.1128.6128.0135.3134.5133.5134.6134.2135.1135.2133.8135.5133.8142.7139.6132.7140.8139.6140.9135.9139.3143.3133.2137.8136.5135.7136.8136.3137.6137.8135.9138.3135.8生物医学研究的统计方法第2章问题1:该100名8岁男童的平均身高是多少?问题2:最高身高是多少?最低身高是多少?身高的分布范围是多少?问题3:身高在132-136cm占多大比例?问题4:如何用一个直观的统计图来描述身高的分布规律?分布是否对称?【解析】此问题涉及如何对定量资料进行统计描述?问题1集中趋势问题2离散趋势问题3,4频数分布表和频数分布图生物医学研究的统计方法第2章(一)频数表的概念:为频数分布表的简称,将各数值变量的值及其相应的频数列表即称为频数分布表。频率可用百分数或小数表示,频率的和为100%或1。频数:落在各组段内的个体数频率:频数在个体总数中所占的百分比(相对频数)累计频率一、连续变量频数表与频数分布图(二)频数表的编制方法:1.求MAX、MIN、RR=MAX-MINR=143.3-116.2=27.1(cm)2.求“组段”数,组段和组距(1)“组段”数一般为10-15个;(2)组距一般为R/10取整;(3)第一组段要包括MIN,最末组段包括MAX,并同时写出上下限。本例i=R/10=2.71→33.列表画记146图3.1某市100名8岁男童身高(cm)的频数分布身高(cm)频数(三)频数表的用途1.揭示频数的分布特征(1)集中趋势centraltendency(2)离散趋势tendencyofdispersion(3)当集中趋势与离散趋势结合起来时能全面反映频数的分布。对称分布:高峰位于中部,左右两侧的频数大体对称。正态分布为最常见的一种。偏态分布:正偏态分布—儿童疾病年龄分布;负偏态分布—老年疾病年龄分布。对称分布生物医学研究的统计方法第2章偏态分布正偏负偏频数分布高峰位于中部,左右两恻的频数大体对称。高峰偏于右侧,长尾向左侧延伸,则为负偏态。高峰偏于左侧,长尾向右侧延伸,则为正偏态2.便于发现某些特大或特小的可疑值。3.当样本含量足够大时,以频率作为概率的估计值。4.作为陈述资料的形式。5.由组中值近似代表原始数据,便于手工计算实现初步的统计分析生物医学研究的统计方法第2章频数表的用途二、集中趋势指标概念:集中趋势是指一组定量资料集中位置的特征值,说明这种变量值大小的平均水平,常用平均数描述。包括算术均数、几何均数、中位数、百分位数等。(一)均数:1.概念:均数是算术均数的简称,指n个性质相同的定量数据之和除以n所得的结果。总体均数用希腊字母μ表示,样本均数用表示。X均数的计算(1)直接法:适用于观察值的个数较少时。nXnXXXXXn...321例某地10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7求平均身高。生物医学研究的统计方法第2章)(73.171107.169...4.1787.168cmnXX(2)加权法:适用于样本例数较多时或者频数表资料。ffXfffXfXfXfXkkk......212211各组段的频数组中值(下限+上限)/2[例2]计算例1中100名8岁男童的平均身高。表3.3某市100名8岁男童身高的均数计算(加权法)身高组段①频数fI②组中值xi③fixI④=②×③fixi2⑤=④×③116~1117.5117.513806.25119~5120.5602.572601.25122~8123.5988.0122018.00125~17126.52150.5272038.25128~23129.52978.5385715.75131~21132.52782.5368681.25134~14135.51897.0257043.50137~7138.5969.5134275.75140~3141.5424.560066.75143-1461144.5144.520880.25合计10013055.01707127.0055.13010013055ffxx生物医学研究的统计方法第2章算术均数的应用场合:均数能反映全部观察值的平均数量水平,因而应用甚广。它适用于对称分布,特别是正态分布的定量资料。(二)几何均数G1.概念:对n个性质相同的定量数据分别取对数变换后,按算术均数计算,然后再求其反对数所得的结果,叫几何均数。生物医学研究的统计方法第2章2.计算(1)直接法:适用于观察值个数较少时。nnXXXXG...,321)lg(lg)lg...lglg(lg1211nXnXXXGn方法:将n个观察值(X1,X2,X3,……Xn)直接相乘再开n次方。公式:例3.2设有5份血清样品,滴度分别为:1:1,1:10,1:100,1:1000,1:10000求其平均滴度。G=或G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5)=lg-1((0+1+2+3+4)/5)=lg-12=100即:平均滴度为1:100。较好地代表了观察值的平均水平。1001000010001001015(2)加权法用于样本量较大的频数表资料。可用下式计算:G=lg-1(ΣflgX/Σf)例3.3有95名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见表3.4。试求平均滴度。表3.495名儿童的血凝抑制抗体平均滴度计算(加权法)抗体滴度①滴度倒数②频数③lgX④f·lgX⑤=③×④1:4440.60212.40841:8890.90318.12791:1616161.204119.26561:3232341.505151.17341:6464181.806232.51161:12812882.107216.85761:25625652.408212.0410≥1:51251212.70932.7093合计95145.0948G=lg-1(ΣflgX/Σf)=lg-1(145.0948/95)=33.68即:95名易感儿童接种疫苗一个月后,血凝抑制抗体的平均滴度为1:33.68几何均数的应用场合几何均数适用于经对数转换后成对称分布的资料,或者说是等比资料,如抗体的滴度,血清效价等。(三)中位数和百分位数1.概念:(1)中位数(median):把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。(2)百分位数(percentile):为一种位置指标,一个PX将总体或样本的全部观察值分为两部分,理论上有X%的观察值比它小,(100-X)%的观察值比它大,P50分位数即是中位数。)%(LxxfnxfiLPPx所在组段的组距Px所在组段的下限Px所在组段的频数∑fL为小于L的各组段累计频数计算中位数时,X=50,即M=P50。表3.5164例沙门氏菌食物中毒病人的潜伏期(小时)潜伏期(小时)①频数f②累计频数③累计频率(%)④0—212115.2412—587948.1724—4412375.0036—2314689.0248—1215896.3460—516399.3972—1164100.00例3.3有164例沙门氏菌食物中毒病人的潜伏期(小时)见表3.5,求该潜伏期的中位数、百分位数P5和P95。P5、M、P95分别位于第一、第三和第五组段。所在组段下限值L分别为:0、24、48。所在组频数分别为21、44、12,L前累计频数分别为0、79、146。由公式得:P5=L+i/f5(n·5%—ΣfL)=0+12/21(164×5%—0)=4.7(小时)M=L+i/fm(n/2—ΣfL)=24+12/44(164/2—79)=24.8(小时)P95=L+i/f95(n·95%—ΣfL)=48+12/12(164×95%—146)=57.8(小时)3.应用(1)中位数(median):可用于任何分布的资料集中趋势的统计描述,但更常用于偏态分布资料、分布的一端或两端无确定数值时集中趋势的描述。(2)百分位数:A、用于描述数据某一百分位的位置,最常用的是P50,即中位数;也可用两个百分位数的结合来描述一组资料的分布特征。B、用于确定参考值范围:WBC95%参考值范围:P2.5-P97.5过高过低均异常肺活量95%参考值范围:P5过低异常尿铅95%参考值范围:P95过高异常。(四)众数(mode):是一组数据中出现频率最高的那个数;一组数据的众数可以是1个,也可能有多个。生物医学研究的统计方法第2章中位数、算术均数和众数的关系众数中位数算术均数众数中位数算术均数算术均数中位数众数正偏态分布对称分布负偏态分布极差(Range,R)四分位数间距(Quartile,Q)方差(Variance)标准差(Standarddeviation)三、离散趋势指标(一)、极差(Range,R)计算:R=极大值-极小值意义:反映观察值变异度的大小。优点:简单明了缺点:1、R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度;2、样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。3、即使样本例数不变,极差的抽样误差亦较大,即不够稳定。(二)、四分位数间距(Quartile,Q)计算:Q=QU-QL=P75-P25意义及特点:类似R值,但比其稳定,考虑了中间50%观察值的变异度。缺点:未考虑全部观察值的变异度。表3.5164例沙门氏菌食物中毒病人的潜伏期(小时)潜伏期(小时)①频数f②累计频数③累计频率(%)④0—212115.2412—587948.1724—4412375.0036—2314689.0248—1215896.3460—516399.3972—841164100.00例有164例沙门氏菌食物中毒病人的潜伏期(小时)见表3.5,求该潜伏期的四分位数间距。P25=L+i/f25(n·25%—ΣfL)=12+12/58(164×25%—21)=16.14(小时)P75=L+i/f75(n·75%—ΣfL)=24+12/44(164×75%—79)=36(小时)Q=P75-P25=36-16.