医学统计学福医大流行病与卫生统计系何保昌2016.03第4章.定量资料统计描述1第一节频数分布表和频数分布图第二节集中趋势的统计描述第三节离散趋势的统计描述第四节正态分布及其应用本章内容3.964.234.423.595.124.024.323.724.764.164.614.263.774.204.363.074.893.974.283.644.664.044.554.254.633.914.413.525.034.014.304.194.754.144.574.264.563.793.894.214.953.984.293.674.694.124.564.264.664.283.834.205.244.024.333.764.814.173.963.274.614.263.964.233.764.014.293.673.394.124.273.614.984.243.834.203.714.034.344.693.624.184.264.365.284.214.424.363.664.024.314.833.593.973.964.495.114.204.364.543.723.974.284.763.214.044.564.254.924.234.473.605.234.024.324.684.763.694.614.263.894.214.363.425.014.014.293.684.714.134.574.264.035.464.163.644.163.76例某医院用随机抽样方法检查了138名成年女子的红细胞数,其测量结果如下:)/10(12L3问题1:该138名正常女子的红细胞数的平均数是多少?问题2:最高红细胞数是多少?最低红细胞数是多少?红细胞数的分布范围是多少?问题3:红细胞数在3.47~4.27占多大比例?问题4:如何用一个直观的统计图来描述红细胞数的分布规律?分布是否对称?)/10(12L4【解析】此问题涉及如何对定量资料进行统计描述?问题1集中趋势问题2离散趋势问题3,4频数分布表和频数分布图5统计描述统计描述就是用适当的表格、图形、数量化的指标,表达数据的数量特征,揭示其分布的规律性统计描述分为:形象化描述(统计图表)——建立对资料的初步印象;数值化的描述(统计指标)——给出分布规律及具体数值67统计描述统计描述的思路:计算相应统计指标绘制合适统计图表判断类型获取资料分类汇总相应统计指标绘制合适统计图表定量变量定性变量78第一节.频数分布(图、表)频数分布(FrequencyDistribution)指的是对总数据按某种标准进行分组,统计出各个组内所含个体的个数。我们把各个类分组及其相应的频数全部列出来就是“频数分布”通常人们用图与表的形式展现频数分布,通过频数分布可以了解数据的分布规律对于定量变量,据其数值取值特征又可分为连续型与离散型9离散型资料频数分布(图、表)GCS(分)频数(f)频率(%)累计频数累计频率(%)(1)(2)(3)(4)(5)3106.10106.10453.05159.15563.662112.80621.222314.027127.323521.348159.155030.4991810.986841.4610148.548250.0011159.159759.15122112.8011871.9513137.9313179.88141710.3614890.2415169.75164100.00合计164100.00——连续型定量变量的频数分布连续型定量变量(continuousvariable)通常是指取值连续的定量变量,可以取数轴上的任意数值例如身高、体重、血压、血清胆固醇值等例:某医院用随机抽样方法检查了138名成年女子的红细胞数10理想的描述结果RBC例数比例(%)3.07~21.453.27~32.173.47~96.523.67~1410.143.87~2215.944.07~3021.744.27~2115.224.47~1510.874.67~107.254.87~64.355.07~42.905.27~5.4721.45111112如何得到上述理想的结果?频数分布表分组划计原始资料频数分布图各项统计指标频数表的编制方法:1.求MAX、MIN、RR=MAX-MINR=5.46-3.07=2.392.求“组段”数,组段和组距(1)“组段”数一般为10-15个;(2)组距一般为R/10取整;(3)第一组段要包括MIN,最末组段包括MAX,并同时写出上下限。本例i=2.39/12=0.199→0.203.列表划计)/10(12L1314红细胞数(1012/L)例数比例(%)3.07~21.453.27~32.173.47~96.523.67~1410.143.87~2215.944.07~3021.744.27~2115.224.47~1510.874.67~107.254.87~64.355.07~42.905.27~5.4721.45连续型定量变量的频数分布分组除了最后一段外均为左闭右开区间频数分布图1516频数表与频数图的作用揭示频数分布特征揭示频数分布类型便于发现一些特大或特小的离群值便于进一步做统计分析和处理16揭示频数分布特征(1)集中趋势centraltendency(2)离散趋势tendencyofdispersion(3)当集中趋势与离散趋势结合起来时能全面反映频数的分布。17揭示频数分布类型对称分布:高峰位于中部,左右两侧的频数大体对称。正态分布为最常见的一种。偏态分布:正偏态分布—儿童疾病年龄分布;负偏态分布—老年疾病年龄分布。**分布类型不同采用的统计分析方法不同181919近视眼Lasik术后1月裸眼视力Frequencynv0.000.100.200.300.400.500.600.700.800.901.001.101.200.0071.002021如何更具体、精确?了解了数据分布的形态(对称与否)、是否有异常值,仅仅意味着对数据有了初步认识,尚未得到数据的“精确”特征例如:教务处得到13与14两个年级的医学统计学成绩,如何判断优劣?分数段13级14级例数%例数%6043.776.960~1917.62221.870~3835.22625.780~3532.43029.790~1001211.11615.9第二节集中趋势的描述算数均数几何均数中位数和百分位数22231.算术均数算术均数arithmeticmean(μ总体均数,样本均数)简称均数,在已知各观察单位具体变量值时,可以采用直接法计算,公式如下:121niniXXXXXnnx直接法:例4.3利用例4.2的155名6月龄婴儿的SOS资料,计算均数。3054313730554743343060.22(m/s)155155X设分组后的数据为:X1,X2,…,XK相应的频数为:f1,f2,…,fK计算公式为nfxffffXfXfXXkkk212211对于频数表资料,用每个组段的组中值代替该组段观察值的实际取值:2上限值下限值组中值加权法:例如,对155名6月龄婴儿的SOS资料,利用表4.2求均数为:12885132454744453060.94(m/s)11155X27算术均数求138名女性红细胞数均数资料来源于整理后的频数表,无法取得原始数据采用加权法计算加权均数,作为算术均数的近似值红细胞数(1012/L)例数3.07~23.27~33.47~93.67~143.87~224.07~304.27~214.47~154.67~104.87~65.07~45.27~5.47228算术均数组段频数组中值频数×组中值3.07~23.176.343.27~33.3710.113.47~93.5732.133.67~143.7752.783.87~223.9787.344.07~304.17125.104.27~214.3791.774.47~154.5768.554.67~104.7747.704.87~64.9729.825.07~45.1720.685.27~5.4725.3710.74合计138—583.06算术均数的特性各变量值与均数的离均差之和等于零:各变量值与均数的离均差平方和最小:)(,)()(22XaaXXXii0)(XXi30算术均数小结它是一组数据的均衡点所在;集中趋势的最常用指标易受极端值的影响用于定量数据,不能用于分类数据和等级数据适用于服从对称分布定量资料(正态或近似正态)的集中趋势描述3031假设某投资者拥有资金1000元,第一年他取得10%的收益,第二年为20%,第三年为40%,求平均收益?第一年末所拥有的资金为其原始的1.1倍第二年末所拥有的资金为其原始的1.1×1.2倍第三年末所拥有的资金为其原始的1.1×1.2×1.4倍假设他三年来的投资收益是平均的,那么他的年平均收益a应该满足a×a×a=1.1×1.2×1.4;所以:即他的年均收益为22.7158488%,而不是(0.1+0.2+0.4)/3=0.23333333333333333381.227158484.12.11.13a新问题:平均发展速度32平均抗体滴度某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10、20、40、40、160,求其平均数?如果使用算术均数的直接法:倒数的平均数约为54,所以平均滴度的倒数为54比54大的有1个数据,而比它小的只有4个,而且大多数的数据在40以内,由于160的存在使得平均数偏向160一侧,从而偏离了大多数的观察对象集中的位置!33几何平均数(直接法)将原始数据X取对数后得到的对数值视为一个新变量Y,求Y的算术均数为:求得Y的算术均数后将其换算为原数值X,即对其取反对数得几何均数G12121+log;loglog+logloglogniinYYYYXYNxxxxYNNGY…………例4.4对26个采样点空气中总粉尘浓度计算几何均数:113lg1.1lg1.2lg15.814.4328lg()lg()3.6(mg/m)2626G35几何平均数(加权法)抗体滴度倒数频数1042034010801016011320156401412802合计6969例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见右表,求其平均抗体滴度采用加权法计算加权几何均数1loglog150.6fxGf36人群血铅含量平均值的计算3637对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活;求他们的平均生存时间?其中有不确定数值,无法使用算术均数或几何均数问题:患者生存期37三、中位数是将一批数据从小至大排列后位次居中的数值。M50%50%不受极端值的影响,尤其适合于:①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。未分组数据的中位数当n为偶数时XX21当n为奇数时XM12n2n21n1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76M3.33μg/g921n位置)(例4.817名砷中毒患者发砷含量1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76、15.39例4.918名砷中毒患者发砷含量3.54(μg/g)3.75)/2(3.33)/2X(X)/2X(XM1091)218()2