2均数标准差

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第二章统计资料的整理与描述2主要内容个体变异(individualvariation)频数分布(frequencydistribution)集中趋势(centraltendency)离散趋势(tendencyofdispersion)3个体变异个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就每个观察单位而言,其观察指标的变异是随机的(random)。就总体而言,个体变异是有规律的。4个体变异是统计学应用的前提个体变异抽样误差统计推断5个体变异生物体的变异是普遍存在的,是客观事实,无法准确预测。这种变异是有规律的,是可以认识的。6一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.97由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的;现状:医学研究得到的原始数据(rawdata)往往是庞大的、混乱的。但变异也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。解决:频数分布表,频数分布图。2.1频数表与频数分布8频数表的编制(frequencydistributiondrawings)2.1频数表与频数分布求极差(R)。R=160.9-125.9=35划分组段。定组数、组段、组距统计频数。9计量资料的频数、频率分布组段频数频率124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167160~10.0083合计1201.000010计量资料的频数分布xFreq.124~1*128~2**132~10**********136~22**********************140~37*************************************144~26**************************148~15***************152~4****156~2**160~1*Total12011124~128~132~136~140~144~148~152~156~160~#################################################################################################################$$$$###计量资料的频数分布12124132140148156164010203040人数图某市120名12岁男童身高的频数分布计量资料的频数分布13分类资料的频数分布血型频数频率(%)O20540.43A11222.09B15029.59AB407.89合计507100.0014分类资料的频数分布图OABAB15EXCEL制作的频数图050100150200250OABAB16EXCEL制作的频率图00.10.20.30.40.5OABAB17总结定量资料:将定量资料人为地划分为若干个相连接的区间,统计每个区间所包含的观察值数。定性资料:根据指标值的不同属性,归类统计各类的频数分布。频数分布用于表达指标的分布规律。分布规律:变异规律。2.1频数表与频数分布18频数分布的类型typesoffrequencydistribution对称分布symmetricdistribution偏态分布skewnessdistribution2.1频数表与频数分布19124132140148156164010203040人数身高(cm)对称分布2.1频数表与频数分布20偏态分布正偏态(positiveskew)负偏态(negativeskew)Frequencyvar512345678902468Frequencyvar61234567891005102.1频数表与频数分布21偏态(skewness):Skewnessmeansthelackofsymmetryinaprobabilitydistribution.(TheCambridgeDictionaryofStatisticsintheMedicalSciences.)Anasymmetricdistributioniscalledskew.(Armitage:StatisticalMethodsinMedicalResearch.)2.1频数表与频数分布22非对称分布称为skewness;俗称偏态分布,有人称偏峰分布。“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;2.1频数表与频数分布23“分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。”2.1频数表与频数分布2470357911131517192110203040506001人数大多数居民发汞含量在1~15mol/kg之间,少数人的发汞大于15mol/kg,分布呈正偏态。发汞含量(mol/kg)(a)239人发汞含量的频数分布25图某城市892名老年人生存质量自评分的频数分布0102030405060708090100自评分4003002001000人数26051015202530354045010203040(b)102名黑色素瘤患者的生存时间频数分布人数生存时间(月)患者生存时间大部份在30个月内,少数达45个月,分布呈极度偏态,又称L型分布。27图某地1990~1992年男性死亡年龄分布0510152025303540455055606570758085死亡年龄(岁)2500200015001000500028频数分布表的用途观察有无可疑值;便于进一步计算;考察分布的类型;考察分布的特征;2.1频数表与频数分布集中位置(CentralTendency)离散趋势(TendencyofDispersion)292.2统计资料的描述图形描述频数分布图趋势图……指标描述集中位置:算术均数、几何均数、中位数、百分位数离散程度:极差、标准差、方差、四分位数间距30均数(arithmeticmean,mean)几何均数(geometricmean)中位数(median)百分位数(percentile)2.2集中趋势的描述(average)312.2集中趋势的描述均数(arithmeticmean,mean)12nXXXXn1niiiXXXnn32加权均数(weightedmean)均数是加权均数的一个特例111112nnnnnwXXXX1122wnnXwXwXwX2.2集中趋势的描述33均数的应用:最适于对称分布资料,特别是正态分布资料;对于偏态资料,均数不能较好地反映其集中趋势。我也知道了!34几何均数(geometricmean)12lnlnlnlnlnexpnXXXXXXnGX12nnGXXX加权法:flgxfG=lg-1直接法:2.2集中趋势的描述35几何均数例1:10,1:20,1:40,1:80,1:16051020408016040Gln3.6889ln10ln20ln40ln80ln1603.6889540XXGe36几何均数的应用:1.等比资料,如抗体平均滴度2.对数正态分布资料Remember!37使用几何均数时的注意点:1)观察值不能有0。2)观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号。Becareful!38中位数(median)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。(1)/2/2/21n()/2nnnnXMXX当为奇数当为偶数2.2集中趋势的描述39中位数例9例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.5M=4.89例正常人的发汞值:1.1,1.83.54.24.85.65.97.116M=4.810例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.516M=(4.8+5.6)/2=5.240百分位数(percentile)X%PX(100-X)%50%分位数就是中位数25%,75%分位数称四分位数(quartile)41中位数的应用:中位数常用于描述偏态资料,开口资料,有不确定值的资料的集中趋势;中位数和均数在对称分布上理论上是相同的。42百分位数的应用:百分位数用于描述某个观察序列在某百分位置上的水平。常用于确定参考值范围,亦称正常值范围。43平均数应用的注意事项同质的资料计算平均数才有意义。均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料中位数适用于:任何分布资料,有不确定值的资料44只用平均数描述资料的弊病Ithasbeensaidthatafellowwithonelegfrozeniniceandtheotherleginboilingwateriscomfortable.ONAVERAGE!例如,设有三组同年龄、同性别儿童体重(kg)数据如下:甲组2628303234乙组2427303336丙组26293031342.3离散程度的描述4647描述离散程度的指标:极差(range)四分位数间距(inter-quartilerange)方差(variance)标准差(standarddeviation)变异系数(coefficientofvariation)48(一)极差(range)极差(全距),用字母R表示,描述数据分布的范围。极差大,说明数据分布较分散。49特点方法简单明了;不灵敏,除了最大最小值外,不能反映组内其他数据的变异;不稳定,样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。50如上述三组数据中:甲组数据的极差R=34-26=8乙组数据的极差R=36-24=12丙组数据的极差R=34-26=8甲组、丙组数据分布较乙组集中。甲组与丙组的离散程度相同?51(二)四分位数间距(inter-quartilerange)(1)四分位数(quartile,Q)下四分位数即第25百分位

1 / 70
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功