正态分布及其应用NormalDistributionandit’sApplicationsMedicalstatistics医学统计学公共卫生学院赵华硕DepartmentofPublicHealth2主要内容(Content)随机变量的概率分布正态分布的概念及图形正态分布的特征正态分布曲线下面积的规律标准正态分布正态分布的应用总结3随机变量变量和随机变量变量取值的相对频率说明了具有某个性质的观察对象的出现的可能性。随机变量离散型:性别、血型、子女数、事故数连续型:身高、体重4例:密度函数和分布函数抛两枚硬币,0.250.25AB0.25AB0.250.750.5PPPPPP两枚均正面朝上两枚均反面朝上正面反面朝上反面正面朝上至少有一枚正面朝上恰好有一枚正面朝上密度函数分布函数5例:密度函数和分布函数x6随机变量的概率分布概率函数(ProbabilityFunction),或者说概率密度函数(ProbabilityDensityFunction)、密度函数。在统计学中,我们说变量具有分布函数(DistributionFunction)。用此函数的大小来说明变量取某些值的可能性。当变量的取值包括了所有可能的取值时,分布函数为1。当变量具备了以上两个函数之后,称它具有某种分布(Distribution)7正态分布的概念及图形(a)(b)(d)(c)8正态分布的概念及图形NormaldistributionGauss发现最早用于物理学、天文学Gaussiandistribution9正态分布的概率密度函数如果随机变量X的概率密度函数则称X服从正态分布,记作X~N(,2),其中,为分布的均数,为分布的标准差。XfXe22()21()2(-∞<X<+∞)10正态分布图示x0.1.2.3.4f(x)11方差相等、均数不等的正态分布图示213312XfXe22()21()212均数相等、方差不等的正态分布图示213312XfXe22()21()213正态分布的特征单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。正态曲线下的面积分布有一定的规律。14正态曲线下的面积规律X轴与正态曲线所夹面积恒等于1。对称区域面积相等。S(-,-X)S(+X,)=S(-,-X)15正态曲线下的面积规律对称区域面积相等。S(-x1,-x2)-x1-x2+x2+x1S(-x1,-x2)=S(+x1,+x2)16正态曲线下的面积规律-4-3-2-101234-3-2-++2+3S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.8413S(-,)=117正态曲线下的面积规律-4-3-2-101234-3-2-++2+31-S(-3,+3)=0.00261-S(-2,+2)=0.04561-S(-,+)=0.317418正态曲线下的面积规律-4-3-2-101234-3-2-++2+3S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.8413S(-,)=119正态曲线下的面积规律正态分布的一个显著特点其曲线下面积完全决定于以标准差为单位从点x到µ的离差。20231X2=-σ2X2X1=-σ1X1X3=-σ3X30.15870.15870.158721正态曲线下的面积规律-1.96+1.962.5%2.5%95%22正态曲线下的面积规律-1.64+1.645%5%90%23正态曲线下的面积规律-2.58+2.580.5%0.5%99%24正态曲线下的面积规律正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;对任意正态曲线,按标准差为单位,对应的面积相等-1.64~+1.64内面积为90%;-1.96~+1.96内面积为95%;-2.58~+2.58内面积为99%。next25S(-,2-1.10×1.5)=?S(-,2-1.1×1.5)2S(-,-1.10)05.11.11.1问题的提出?26标准正态分布标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。概率密度函数:uXe221()2(-∞<u<+∞)27正态分布转换为标准正态分布若X~N(,2),作变换:则u服从标准正态分布。u称为标准正态离差(standardnormaldeviation)Xu28标准正态分布曲线下面积(u)u0.000.020.040.060.08-3.00.00130.00130.00120.00110.0010-2.50.00620.00590.00550.00520.0049-2.00.02280.02170.02070.01970.0188-1.90.02870.02740.02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.1401-0.50.30850.30150.29460.28770.281000.50000.49200.48400.47610.46810uback29正态分布的判定许多统计方法都要求数据服从正态分布或近似正态分布,在进行指标选择和应用这些统计方法之前对数据进行正态分布的判定就显得很有必要判定方法图示法,正态性假设检验30(一)图示法1.直方图在样本比较大时,可根据直方图和对应正态概率密度曲线的形状大致判断资料是否服从正态分布,如图3-1。图3-1140例疑诊冠心病患者平板运动后心率(次/分)的直方图312.P-P图和Q-Q图P-P图是指频率-频率图(proportion-proportionplot,P-P图),是以实际观测值的累计频率为横轴,以正态分布的理论或期望累计概率为纵轴绘制散点图;Q-Q图是指分位数-分位数图(quantile-quantileplot,Q-Q图),是以实际观测值的分位数(PX)为横轴,以正态分布的理论或期望分位数为纵轴绘制散点图,采用样本均数和标准差估计正态分布的总体均数和标准差32图3-6140例疑诊冠心病患者平板运动后心率的P-P图和Q-Q图33图3-7704名60岁以上居民体内稀有元素硒含量的P-P图和Q-Q图34(二)检验法可以根据偏度系数(coefficientofskewness)和峰度系数(coefficientofkurtosis)对资料的对称性和正态峰进行检验,理论上,总体偏度系数为0为对称,大于0为正偏态,小于0为负偏态;总体峰度系数等于0为正态峰,大于0为尖峭峰,小于0为平阔峰,35图3-8偏度的形状图3-9峰度的形状36正态分布的应用估计频数分布确定临床参考值范围37总结正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;正态分布是由两个参数决定:均数和标准差;正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。38估计频数分布某市婴儿出生体重均数3200g,标准差为s=350g。设该资料服从正态分布,试求该地低体重儿占该地所有出生婴儿的比例。(低体重儿标准:出生体重低于2500g为低体重儿)39首先计算标准离差:查标准正态分布表:(-2)=0.0228结果:估计低体重儿的比例为2.28%.250032002350u40参考值范围(referenceinterval)参考值范围又称正常值范围(normalrange)。什么是参考值范围:是绝大多数正常人的某观察指标所在的范围。Mostoftheobservations!90%,95%,99%等等NormalPeople!41“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。确定参考范围的意义:用于判断正常与异常。42参考值范围确定的原则选定足够例数的同质的正常人作为研究对象控制检测误差判断是否分组(性别,年龄组)单、双侧问题(onesidedortwosided)选择百分界值(90%,95%)确定可疑范围43参考值范围的估计方法:正态分布法2.5%2.5%95%-1.96+1.9644参考值范围的估计方法:百分位数法P2.5P97.545参考值范围的估计方法方法双侧单侧下限单侧上限正态分布法百分位数法P2.5~P97.5P5P95Xus/2XusXus46例:参考值范围的计算某地调查了200名成年女子的平均血清总蛋白为73.5(g/L),标准差3.9(g/L),试估计该地成年女子血清总蛋白95%的参考值范围。由得95%参考值范围:下限:-1.96s=73.5-1.96×3.9=65.9(g/L)上限:+1.96s=73.5+1.96×3.9=81.1(g/L)此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值。XX47单侧与双侧参考值范围根据医学专业知识确定!双侧:观察指标过高或过低都为异常如:白细胞计数,血清总胆固醇,单侧:只有过高或只有过低为异常上限:转氨酶,尿铅,发汞……下限:肺活量,IQ,48正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧)49正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧)50正常人病人假阳性率假阴性率病人正常人与病人的数据分布重叠示意图(双侧)51