第二章定量数据的统计描述.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章定量数据的统计描述【例2-1】2006年某市120名10岁男孩的身高(cm)资料如下135.4139.8144.0147.3146.3142.5138.1143.6141.6152.6132.1144.7143.6146.8144.2141.3137.5142.8140.6150.4145.9140.2144.5148.2146.4142.4138.5148.9146.2155.4134.2139.2143.5141.6143.5142.3148.9143.6141.5151.1132.5138.7149.6146.9148.7141.5137.8142.7144.6151.8136.4140.0144.3147.5145.6142.5138.5143.7149.5153.6130.2138.9143.7146.5138.8141.7136.9142.0140.5150.3135.7145.7144.2147.8145.8142.6138.6143.8141.3153.9133.4139.6143.7147.5144.8148.0137.4142.1140.8141.8134.5139.4142.9147.5144.7141.8136.9143.5140.7151.4145.6147.3143.9141.9151.6145.6148.9144.3139.1145.8145.6145.3147.6148.6145.5137.3146.5140.3148.4136.5【问题2-1】该资料为何种类型资料?如何对该资料进行描述?第一节频数表和频数图第二节集中趋势的描述第三节离散趋势的描述第四节正态分布及其应用频数表和频数图由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。将原始数据按照一定的标准划分为若干个组,合计各组的频数,得到频数分布表;也可再将频数表绘制成频数分布图。频数(frequency):一组资料中各观察值或不同组段内观察值出现的频繁程度(次数)。频数分布表(frequencytable):由变量值及其频数编制而成的表。一、频数分布表(一)频数表的编制1.求极差(range):极差又称全距,是指全部观察值中最大值与最小值之差,用符号R表示。R=xmax-xmin155.4130.225.2Rcm2.确定组数和组距(1)根据样本含量的大小及研究目的确定组数:一般设8~15个组。(n50,5~8;n50,9~15)。(2)确定组距(classinterval):相邻两个组段下限之差为组距,一般采用等距分组。i=R/组数,为了方便资料整理汇总,组距一般取整数。25.2102.522.00icm3.确定组段组段起点称为下限(lowerlimit)组段终点称为上限(upperlimit)注意:第一组段必须包含最小值,最后一个组段必须包括最大值,各组段不能重叠。除最末一个组段需同时写出上下限外,其余组段只写出其下限。4.归组计数,整理成表用计算机或手工划记法汇总,得到各组段观察单位个数,绘制成频数分布表。表2-12006年某市120名10岁男孩身高(cm)的频数表身高(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)130~132~134~136~138~140~142~144~146~148~150~152~154~15613481217212014106310.82.53.36.710.014.217.516.711.78.35.02.50.814816284566861001101161191200.83.36.713.323.337.555.071.783.391.796.799.2100.0合计120100.0——(二)频数分布表的用途1.揭示频数分布特征2.揭示频数分布类型3.便于发现特大或特小的可疑值4.便于进一步计算统计指标和进行统计分析频数分布的两个特征集中趋势(centraltendency):指一组数据向某个位置聚集或集中的倾向。离散趋势(dispersiontendency):指一组数据的分散性或变异度。频数分布的类型对称分布(symmetricdistribution):集中位置在中间,左右两侧频数基本对称。偏态分布(skeweddistribution):集中位置偏向一侧,两侧频数分布不对称。正偏态(positiveskew)负偏态(negativeskew)肌红蛋白47.545.042.540.037.535.032.530.027.525.022.520.017.515.012.510.07.55.02.50.0人数121086420Std.Dev=10.75Mean=27.1N=91.00血清总胆固醇(mmol/L)5.755.505.255.004.754.504.254.003.753.503.253.002.752.502.2520100抗体滴度1250.01000.0750.0500.0250.00.03020100频数频数频数血清肌红蛋白(μg/ml)负(左)偏态对称分布正(右)偏态二、频数分布图频数分布图(graphoffrequency)是以变量值为横坐标、频数(或频率)为纵坐标(不等距分组时以频率/组距=频率密度为纵坐标),以每个等宽的距形面积表示每组的频数(或频率)。连续型定量资料:频数图中各距形是相连的,又称直方图(histogram)。离散型定量资料:频数图中各距形是间隔的,又称直条图(bargraph)。图2-12006年某市120名10岁男孩身高的频数图离散型计量资料的频数表某年某地区434名少数民族已婚妇女现有子女数的频数分布现有子女数(个)(1)频数(f)(2)频率(%)(3)累计频数(4)累计频率(%)(5)017740.7817740.781317.1420847.9326715.4427563.3636013.8233577.1944811.0638388.255276.2241094.476163.6942698.16781.84434100.00合计434———434名少数民族已婚妇女现有子女数频数分布图集中趋势的描述平均数(average)是一类描述计量资料集中位置或平均水平的统计指标,在医学领域中常用的平均数有算术均数、几何均数、中位数、众数、调和均数。一、算术均数(arithmeticmean)简称均数(mean),总体均数用希腊字母(miu)表示,样本均数用(xbar)表示。均数描述一组数据在数量上的平均水平。x①直接法将所有数据直接相加,再除以总例数Σ:是希腊字母,读作sigma,为求和符号。12...nxxxxxnn1.计算方法【例2-2】某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,试计算该组数据的均数。7.46.76.96.67.310xxn112212iikkkifxfxfxfxxffff②加权法用于频数表资料或样本中相同观察值较多时,将相同观察值的个数(频数f)乘以该观察值x,以代替相同观察值逐个相加。【例2-3】根据表2-1资料,用加权法求120名10岁男孩身高的均数表4-22006年某市120名10岁男孩身高(cm)的均数计算表身高(1)频数fi(2)组中值xi(3)fixi(4)130~132~134~136~138~140~142~144~146~148~150~152~154~15613481217212014106311311331351371391411431451471491511531551313995401096166823973003290020581490906459155合计120(if)-17202(iifx)f起了“权数”的作用,权衡了各组中值由于频数不同对均数的影响。加权法计算的均数是近似的。113131334135115517202143.35cm131120iiifxxf①适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势。②均数在描述正态分布特征方面有重要意义。2.均数的应用我也知道了!例现有5人,其血清抗体效价分别为1:10、1:100、1:1000、1:10000和1:100000,求其效价倒数的平均水平。若计算效价倒数的算术均数用算术均数反映这类资料的平均水平是不合适的。22222x先求效价倒数对数值的均数,然后求反对数1000位于10、100、1000、10000、100000的中间位置,具有很好的表性,这种平均数就称为几何均数。1lg10lg100lg1000lg10000lg100000lg35lg31000GG是n个观察值乘积的n次方根,又称倍数均数,用G表示。几何均数(geometricmean)二、几何均数(Geometricmean,G)①直接法:当n较小时,直接将n个观察值的乘积开n次方。12nnGxxx1lglg()xGn1.计算方法二、几何均数(Geometricmean,G)【例2-4】某实验室测得7人血清中某种抗体的滴度分别为1/4,1/8,1/16,1/32,1/64,1/128,1/256,试求平均滴度。111lg4lg8lg25610.5361lglglg1.50523277G②加权法:当资料中出现相同观察值较多或资料已编制成频数表时,也可用加权法计算几何均数。11112212lglglglglglgiikkkifxfxfxfxGffff【例2-6】50名麻疹易感儿接种麻疹疫苗后,测得血凝抑制抗体滴度资料见表4-3,求抗体的平均滴度。表4-350名麻疹易感儿血凝抑制抗体滴度抗体滴度(1)频数if(2)滴度倒数ix(3)lgix(4)lgiifx(5)1/41/81/161/321/641/1281/2561361013107481632641282560.60210.90311.20411.50511.80622.10722.40820.60212.70937.224615.505123.480621.072016.8574合计50(if)--86.9977(lgiifx)1111lg43lg87lg256lg13786.9977lglg1.73995450G即50名麻疹易感儿接种麻疹疫苗后血凝抑制抗体的平均滴度为1/54。2.应用及注意事项几何均数应用于:①等比资料,如抗体平均滴度;②对数正态分布资料。Remember!使用几何均数时应注意:①观察值不能有0;②观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号。Becareful!【例2-7】200名食物中毒患者潜伏期资料如表2-4,研究人员据此采用加权法计算均数得平均潜伏期为27小时。(1)该组数据在分布上有何特点?(2)用均数描述该资料的平均水平是否合适?三、中位数与百分位数表2-4200名食物中毒患者的潜伏期潜伏期(小时)(1)频数(2)累计频数(3)累计频率(%)(4)=(3)/n0~303015.012~7110150.524~4915075.036~2817889.048~1419296.060~719999.572~841200100.0合计200--中位数(median):一组观察值从小到大排列,位次居中的观察值即中位数,是一个位置指标。①直接法n为奇数,n为偶数,122212nnnMxMxx【例2-8】某实验师对10只小白鼠染毒后观察各小鼠的生存时间(分钟),得数据为:35

1 / 114
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功