第二章定量资料的统计描述授课教师:唐永军复习资料的两种类型定量变量资料定性变量资料统计分析的内容统计描述统计推断统计分析统计描述:是用统计图(表)、统计指标来描述资料的分布规律及其数量特征。统计推断:在医学科学研究中通常应用抽样研究的方法,即对总体中随机抽取的部分观察单位(样本)进行研究,然后用样本信息推断总体特征,即统计推断。定量变量资料的统计描述编制频数分布表和绘制频数分布图集中位置的统计描述离散趋势的统计描述分布形态的统计描述第一节频数分布表频数—观察数据的相同值个数频数分布—观察数据在其取值范围内的分布情况频率—一个随机试验有几种可能结果,我们常常希望知道出现某种结果的可能性有多大。例如,某单位配制一种蜂刺脱敏药。陆续试用于被蜂刺的患者,共计200人,其中180人用药后症状减轻。有效率是这里,180/200是频率。0.90或90%200180用数学语言来表示,设随机事件A在n次试验中出现nA次,比值称为事件A在这n次试验中出现的频率。当事件次数n逐渐增多时,fn(A)在一个常数附近摆动,摆动的幅度随着n的增大将越来越小,而逐渐稳定下来。这个常数是客观存在的,这就是定义事件的概率的客观基础。当变量值个数较多时,对各变量值出现的频数列表即为频数分布表,简称频数表。频数分布表的图形表示即为频数分布图。nn(A)fAn离散型定量变量的频数表(例1)连续型定量变量的频数表(例2)一、离散型定量变量的频数分布例1某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料编制频数表。本资料的引体向上次数是一个定量变量,且属于离散型。欲编制其频数分布表:第一步:整理出变量值的各个取值(见表的第1列);第二步:清点出各个取值出现的频数(见表的第2列);第三步:计算各个取值出现的频率(见表的第3列);第四步:在第二步得到的数据基础上计算累计频数和累计频率(见表的第4-5列)。表12005年某市102名高中男生引体向上完成次数的频数分布二、连续型定量变量的频数分布例2在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.9892.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.3521.8321.4441.7371.4591.4501.7821.5551.6341.5082.3431.5091.7451.9531.7441.6951.7071.9011.8251.5972.3381.7081.7111.8561.6441.7161.9781.5341.9001.5951.6461.9051.6101.6141.4222.3012.1271.3481.3171.0621.8301.9801.5701.4951.8642.1702.0001.7051.8631.4242.0222.0681.5761.8331.6592.2121.3992.1281.5431.5621.3821.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735连续性定量变量频数表(frequencytable)的编制过程1)求全距(range):找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示,maxmin2.4060.9891.417()RXXL2)定组段和组距(classinterval)根据全距的大小和样本含量的多少确定“组段”数,一般样本含量n在50以下时可分5~8组,在50以上时可分9~15组。各组段的起点和终点分别称为下限和上限,某组段的组中值为该组段的(下限+上限)/2。相邻两组段的下限之差称组距,常用全距的1/10取整做组距,以便于汇总和计算。第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值并且同时写出其下限与上限。3)列出频数表,并计算频率、累计频数和累计频率频数分布图图12005年某市120名9岁男孩肺活量频数分布频数分布表和频数分布图的用途揭示频数分布的特征揭示频数分布的类型频数分布的特征集中趋势(centraltendency)离散程度(dispersion)频数分布的类型对称分布:对称分布集中位置在正中,左右两侧频数分布大致对称。偏态分布:偏态分布指频数分布不对称,集中位置偏向一侧,若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。图12005年某市120名9岁男孩肺活量频数分布图22004年我国麻疹患者的年龄分布图3某市219名乳腺癌患者术后康复期生存质量评分的分布9070503010706050403020100自评分频数例2在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下:1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.9892.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.3521.8321.4441.7371.4591.4501.7821.5551.6341.5082.3431.5091.7451.9531.7441.6951.7071.9011.8251.5972.3381.7081.7111.8561.6441.7161.9781.5341.9001.5951.6461.9051.6101.6141.4222.3012.1271.3481.3171.0621.8301.9801.5701.4951.8642.1702.0001.7051.8631.4242.0222.0681.5761.8331.6592.2121.3992.1281.5431.5621.3821.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735请对以下资料进行统计描述:第二节集中趋势的统计描述描述一组同质观察值的平均水平或中心位置的指标有均数、几何均数、中位数、众数、调和均数等,前三种常用。1.算术均数(简称均数,mean)适用条件:对称分布,特别是正态或近似正态分布的定量资料。符号:表示样本均数,希腊字母表示总体均数。X计算方法:直接法:121nniXXXXnXXnn例3利用例2的120名9岁男孩的肺活量资料,用直接法计算平均的肺活量:…1.7062.0911.735200.6831201201.672(L)XXn加权法:如为频数表资料,则此处X表示组中值,组中值=(下限+上限)/2,f表示频数,∑表示求和。112212kkkfXfXfXXffffXf例4对2005年某市120名9岁男孩的肺活量资料,利用表2求均数为:表22005年某市120名9岁男孩肺活量(L)均数计算表51.04542.345200.800541201.673(L)fXXf均数注意事项加权法中X1,X2,,Xk与f1,f2,,fk分别为频数表资料中各组段的组中值和相应组段的频数(或相同观察值与其对应的频数)。均数的特性各观察值与均数之差(离均差)的总和等于零,即:各观察值的离均差平方和最小,即:,均数是一组观察值最理想的代表值。0)(XX22)()(aXXXXa均数的应用均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。均数适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势。均数在描述正态分布特征方面具有重要意义。2.几何均数适用条件:某些偏态分布资料的变量值经对数变换后其频数分布呈正态分布(简称对数正态分布资料);也可用于观察值之间呈倍数或近似倍数变化(等比关系)资料;变量值跨越多个数量级。符号:用G表示计算方法:直接法:nnXXXG...211121lglglglglglgnXXXGnXn例52006年某市卫生监督所对33家商场空气中的细菌密度(个/M3)进行了监测,资料如下,试求其平均密度。240161090512826451197527216225644830137694596138826745397377108780156522028459826777411325331328742492262911063112226664354115510488该资料的原始数据呈正偏态分布,不宜计算均数,但对该数据进行对数变换后,新数据呈单峰对称分布,故该资料原始数据可采用几何均数描述其平均水平或集中趋势。111lglglg1090lg527lg488lg33114.1770lg332883.432883XGn加权法:用于样本中有较多相同变量值或频数表资料11122121lglglglglglgkkkfXfXfXGffffXf例6某医院预防保健科用流脑疫苗为75名儿童进行免疫接种后,抗体滴度测定结果如下,求平均滴度。表75名儿童的平均抗体滴度计算表75名儿童进行流脑疫苗免疫接种1个月后抗体滴度的几何均数为:11lg107.7676lg()lg()27.3575fXGf几何均数注意事项计算几何均数时观察值中不能有0,因0不能取对数一组观察值中不能同时有正、负值3.中位数中位数(简称M)是将一组变量值从小到大按顺序排列后,位次居中的变量值。在全部观察值中,小于和大于中位数的观察值个数相等。适用条件:①.偏态分布或分布状态不明的资料;②.变量值中有个别过大或过小值;③.一端或两端无确定数据的资料的平均水平。符号:M或P50直接法常用于小样本资料。n为奇数时n为偶数时nM12XMnn122XX2例7为研究燃煤型砷中毒患者体内砷负荷状况,某医学院对17名燃煤型砷中毒患者进行了发砷含量(ug/g)测定,结果为:1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76。试求其平均含量。为避免极端值的影响,应计算中位数,且n为奇数。9117122XXX3.33(ug/g)nM例8在上述17名燃煤型砷中毒患者发砷含量的基础上,又测得1名燃煤型砷中毒患者发砷含量为15.39ug/g,试求这18名中燃煤型砷毒患者发砷含量平均含量。为避免极端值的影响,应计算中位数,此例n为偶数。nn1818[1][1]2222910XXXX22XX23.333.753.54(ug/g)2M频数表法:适用于样本含量较大的频数表资料公式:说明:LM表示中位数所在组段的下限;i表示该组段的组距