1第二章个体变异与变量分布IndividualVariationandVariableDistribution易洪刚DepartmentofEpidemiology&Biostatistics,SchoolofPublicHealth,NanjingMedicalUniversityEmail:ohcepf@163.com2主要内容个体变异(IndividualVariation)频数分布(FrequencyDistribution)定量资料的统计指标(StatisticsofData)总结(Summary)32.1个体变异个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就每个观察单位而言,其观察指标的变异是随机的(random)。就总体而言,个体变异是有规律的。4个体变异是统计学应用的前提个体变异抽样误差统计推断52.1个体变异生物体的变异是普遍存在的,是客观事实,无法准确预测。这种变异是有规律的,是可以认识的。6主要内容个体变异(IndividualVariation)频数分布(FrequencyDistribution)频数分布表的编制数据分布的类型频数分布表的用途定量资料的统计指标(StatisticsofData)总结(Summary)7一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.98现状:原始数据(rawdata)往往是庞大的、混乱的;原因:由于个体变异的存在,各个体上的观察结果不是恒定不变的;特点:表面上杂乱无章,但分布(distribution)有一定规律!解决:频数分布表,频数分布图。2.2频数分布9频数分布表的编制(frequencydistributiondrawings)2.2频数分布求极差(R)。R=160.9-125.9=35划分组段。定组数、组段、组距统计频数。10组段频数频率124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167160~10.0083合计1201.0000定量资料的频数分布表11定量资料的频数分布xFreq.124~1*128~2**132~10**********136~22**********************140~37*************************************144~26**************************148~15***************152~4****156~2**160~1*Total120120102030Frequency130140150160身高(cm)图某市120名12岁男童身高的频数分布直方图定量资料的频数分布图13定性及等级资料的频数分布血型频数频率(%)O20540.43A11222.09B15029.59AB407.89合计507100.0000.10.20.30.40.5OABAB定性资料的整理:根据指标的自然属性归类,计数频数。等级资料的整理:根据指标的不同等级归类,计数频数。14总结定量资料的频数分布:人为地划分为若干个相连接的区间,计数频数。频数分布用于表达指标的分布规律。分布规律:变异规律。2.2频数分布15主要内容个体变异(IndividualVariation)频数分布(FrequencyDistribution)频数分布表的编制数据分布的类型频数分布表的用途定量资料的统计指标(StatisticsofData)总结(Summary)16数据分布的类型typesoffrequencydistribution对称分布symmetricdistribution偏态分布skewnessdistribution2.2频数分布单峰分布SinglePeakDistribution双峰,多峰分布BimodalorMulti-peakDistribution分布的对称峰的多少{{17124132140148156164010203040人数身高(cm)对称分布2.2频数分布18偏态分布正偏态(positiveskew)负偏态(negativeskew)Frequencyvar512345678902468Frequencyvar61234567891005102.2频数分布分布的长尾在峰的右侧分布的长尾在峰的左侧19偏态(skewness):Skewnessmeansthelackofsymmetryinaprobabilitydistribution.(TheCambridgeDictionaryofStatisticsintheMedicalSciences.)Anasymmetricdistributioniscalledskew.(Armitage:StatisticalMethodsinMedicalResearch.)2.2频数分布20非对称分布称为skewness;俗称偏态分布,有人称偏峰分布。“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;2.2频数分布2170357911131517192110203040506001人数大多数居民发汞含量在1~15mol/kg之间,少数人的发汞大于15mol/kg,分布呈正偏态。发汞含量(mol/kg)(a)239人发汞含量的频数分布22图某城市892名老年人生存质量自评分的频数分布0102030405060708090100自评分4003002001000人数23051015202530354045010203040(b)102名黑色素瘤患者的生存时间频数分布人数生存时间(月)患者生存时间大部份在30个月内,少数达45个月,分布呈极度偏态,又称L型分布。24图某地1990~1992年男性死亡年龄分布0510152025303540455055606570758085死亡年龄(岁)2500200015001000500025主要内容个体变异(IndividualVariation)频数分布(FrequencyDistribution)频数分布表的编制数据分布的类型频数分布表的用途定量资料的统计指标(StatisticsofData)总结(Summary)26•观察有无可疑值;•便于进一步计算;•考察分布的类型;•考察分布的特征;2.2频数分布频数分布表的用途27图数值变量频率分布图0.1.2.3.4Density051015tc0.2.4.6Density05101520tg0.2.4.6.8Density0510152025hdl_c0.1.2.3.4.5Density0246810ldl_c0.001.002.003Density0200040006000800010000cr0.01.02.03Density20406080100age0.05.1.15Density1020304050bmi0.01.02.03.04.05Density50100150200sbp0.02.04.06.08Density406080100120dbp0.01.02.03.04Density020406080100ageofdm0.02.04.06.08Density0204060bcTheImportanceofGraphs!TheImportanceofGraphs!1973年,统计学家F.J.Anscombe构造出了四组奇特的数据。28Anscombe'sQuartetIIIIIIIVxyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.8929奇特之处:单从这些统计数字上看来,四组数据所反映出的实际情况非常相近;TheImportanceofGraphs!30而事实上,这四组数据有着天壤之别!TheImportanceofGraphs!31主要内容个体变异(IndividualVariation)频数分布(FrequencyDistribution)定量资料的统计指标(StatisticsofData)集中趋势的描述离散程度的描述正确应用总结(Summary)322.3定量资料的统计指标图形描述频数分布图趋势图……指标描述集中位置:算术均数、几何均数、中位数、百分位数离散程度:极差、标准差、方差、四分位数间距33均数(arithmeticmean,mean)几何均数(geometricmean)中位数(median)百分位数(percentile)(一)集中趋势的描述(average)34均数(arithmeticmean,mean)12nXXXXn1niiiXXXnn(一)集中趋势的描述(average)35加权均数(weightedmean)均数是加权均数的一个特例111112nnnnnwXXXX1122wnnXwXwXwX(一)集中趋势的描述(average)36均数的应用:1.最适于对称分布资料特别是正态分布资料;2.一组数据的均衡点所在;3.易受极端值的影响。对于偏态资料,均数不能较好地反映其集中趋势。(一)集中趋势的描述(average)37张村有个张千万,隔壁九个穷光蛋平均起来算一算,人人都是张百万这说明了什么?(一)集中趋势的描述(average)38几何均数(geometricmean)12lnlnlnlnlnexpnXXXXXXnGX12nnGXXX加权法:flgxfG=lg-1直接法:(一)集中趋势的描述(average)