1/43正态分布(normaldistribution)曾平流行病与卫生统计学教研室2/43高斯(CarlFriedrichGauss)(1777年4月30日—1855年2月23日),德国著名数学家、物理学家、天文学家、大地测量学家。高斯被认为是最重要的数学家,有数学王子的美誉,并被誉为历史上伟大的数学家之一,和阿基米德、牛顿、欧拉并列,同享盛名。高斯3/43高斯的肖像已经被印在从1989年至2001年流通的10德国马克的纸币上。4/43又称Gauss分布(Gaussiandistribution)是一个重要的连续型概率分布。5/43R6/43正态分布的重要性医学研究中的某些观察指标服从或近似服从正态分布;很多统计方法是建立在正态分布的基础之上的;很多其他分布的极限为正态分布。因此,正态分布是统计分析方法的重要基础。中心极限定理7/43记作:X~N(μ,σ2)例如:X~N(120,8.22)X~N(5,32)正态分布的数学形式222)(21)(XeXf8/43(二)主要特征:1、正态分布以均值μ为中心,左右对称。2、正态分布中,曲线下面积集中在以均值μ为中心的中心部分,越远离中心,曲线越接近X轴,曲线下面积越小,超过一定范围以外的面积可以忽略。9/433、正态分布曲线完全由参数μ和σ决定。μ是位置参数,决定分布曲线在横轴的偏移位置。σ是变异参数,决定分布曲线的形态。10/43方差相等、均数不等的正态分布图示31221311/43均数相等、方差不等的正态分布图示21331212/434、正态分布曲线下的面积分布是有规律的。累积面积可通过对概率密度函数f(X)积分求得(累积)分布函数:22()21()2XXFXedXR13/43-4-20240.00.10.20.30.4xProbability14/43正态曲线下的面积规律-3-2-++2+3S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.8413S(-,)=115/43正态曲线下的面积规律-3-2-++2+31-S(-3,+3)=0.00261-S(-2,+2)=0.04561-S(-,+)=0.317416/43正态曲线下的面积规律-1.96+1.962.5%2.5%95%17/43正态曲线下的面积规律-1.64+1.645%5%90%18/43正态曲线下的面积规律-2.58+2.580.5%0.5%99%19/432221)(ueuXuX~N(0,1)标准正态分布的均数为0,标准差为120/43对于任何参数μ和σ的正态分布,都可以通过一个简单的变量变换化成标准正态分布,即:Xu标准化21/4322ue1u=2uu代替fx均数为0、标准差为1的正态分布。习惯上用N(μ,σ2)表示正态分布,那么标准正态分布可以表示为N(0,12)。Phi22/43曲线下总面积为100%或1;±1包含的面积为68.3%;±1.96包含的面积为95%;±2.58包含的面积为99%。23/43正态曲线下面积的意义?-1.64+1.645%5%90%24/43例2.11在例2.1中某市120名岁男童身高均数为143.05cm,标准差为5.82cm。设该资料服从正态分布,试求:该地12岁男童身高在132cm以下者占该地12岁男童总数的比例。分别求均数±1s、均数±1.96s和均数±2.58s范围内12岁男童占该组儿童总数的实际百分数,并与理论百分数比较。25/43132143.051.95.82Xu查u值表2.87%;120名12岁男孩身高分布身高范围实际分布(cm)(cm)人数百分数(%)136.67~148.678671.6768.27130.91~154.4311495.0095.00127.19~158.1511898.3399.00理论分布(%)26/43参考值范围(referenceinterval)又称正常值范围(normalrange)正常人的形态、功能、生化等各种指标的波动范围。简称正常值。为什么波动?“个体变异”同一指标的数据因人而异同一个体的数据随环境、时间等改变而变27/43为什么要确定一个范围?既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个波动范围。如WBC:4000~10000个/mm3“正常”是一个相对的概念“正常人”是指排除了影响所研究指标的疾病和有关因素的人。28/43意义横向分析划界、分类临床医生判断正常与异常的参考依据动态分析如某个地区不同时期发汞的正常值可反映环境污染的动态变化或环保效果29/43参考值范围确定的原则选定同质的正常人作为研究对象控制检测误差判断是否分组单、双侧问题选择百分界值30/43选定同质的正常人作为研究对象同质正常“足够数量”例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性。一般认为每组100例以上;有人认为确定临床生化指标的正常值应取300~500例。31/43控制检测误差通过人员培训、控制检测条件、重复测定等措施,严格控制检测误差。32/43判断是否分组组间差别是否有统计学意义并有临床意义?例:红细胞、白细胞(不同性别)各组的分布范围、高峰位置等是否基本一致?33/43单侧下限---过低异常单侧上限---过高异常双侧---过高、过低均异常单侧下限异常正常单侧上限异常正常异常正常双侧下限双侧上限异常如肺活量如尿铅值如体重单、双侧问题34/43选择百分界值参考值范围的涵义:绝大多数的正常人在该范围内习惯上将“绝大多数”定义为正常人的80%、90%、95%或99%。应根据研究目的、研究指标的性质、数据分布特征等情况综合考虑百分界值的选择。35/43正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图36/43确定可疑范围若病人与正常人的数据重叠较多的情况下,为避免较大的假阳性和假阴性错误率,可设定可疑范围。37/43参考值范围的估计方法正态分布法百分位数法对数正态分布法38/43正态分布法适于正态或近似正态分布的资料公式suxsuxsux双侧单侧(高侧)(低侧)39/43例:某地调查了360名成年男子的平均血红蛋白如何估计该地成年男子血红蛋白95%的参考值范围?95%的参考值范围:mlgsmlgx100/71.0,100/45.13mlgsux100/84.14~06.1271.096.154.13该地成年男子血红蛋白95%的参考值范围:12.06~14.84(g/100ml)。40/43百分比双侧单侧95%P2.5~P97.590%P5~P959010955PPPP百分位数法不服从正态分布的资料41/43发汞值(g/g)男性女性合计频数1~81220203~313566865~2832601467~2325481949~1171821211~1241622813~33623415~10123517~10123619~21213239合计120119239--某市239名正常人发汞值)/(88.12212%9523916211%95ggfxnfiLPLx95%正常值范围:gg/88.1242/43将原始数据取对数正态分布,用正态分布法确定,对数值的正常值范围,再将其界值取反对数即可。对数正态分布法43/43