正态分布及其应用Normaldistributionanditsapplications统计学中最重要的理论分布之一主要内容(Content)正态分布的概念及图形正态分布的特征正态分布曲线下面积的规律标准正态分布正态分布的应用正态曲线正态曲线是由德国的机会数学家AbrahamdeMoivre在1733年时提出的。正态曲线的形状像一个古式的座钟,中间高,两端低平,无限延伸与横轴相近而不相交。正态曲线00.20.40.60.811.23.644.44.85.25.66f(X)X222)(21)(XeXf曲线公式正态分布在1870年时,德国数学家Gauss发现,许多频数表资料用频数分布图表示时有正态曲线的形状。00.20.40.60.811.23.84.24.65.05.45.8)(XfX图3-1某地成年男子红细胞数的频数分布图正态分布00.20.40.60.811.23.84.24.65.05.45.8)(XfX00.20.40.60.811.23.84.24.655.45.8)(XfX00.20.40.60.811.23.644.44.85.25.66f(X)X图3-1某地成年男子红细胞数的分布逐渐接近正态分布示意图正态分布因而人们将频数分布图的形状是正态曲线的随机变量称为是服从正态分布的随机变量。也就是说,某地成年男子的红细胞数是服从正态分布的。以x表示红细胞数量,则x是服从正态分布的随机变量。正态分布正态曲线的特征(1)以µ为中心左右完全对称的单峰钟形曲线;(2)曲线最高峰处对应横轴上的数值是µ,曲线两尾沿X轴左右延伸,越远离µ的x,y值越小;(3)整条正态分布曲线与横轴所围成的面积等于1;00.20.40.60.811.23.644.44.85.25.66f(X)X00.20.40.60.811.23.644.44.85.25.66f(X)X(4)正态分布在横轴上的位置由µ决定;例如,当µ1µ0时,对应于µ1的正态分布必定在对应于µ0的正态分布右边:正态曲线的特征(5)σ决定分布的形状,当σ大时,整个分布在横轴上拉得很开,曲线是“矮胖”型,当σ小时,整个分布在横轴上比较收缩,曲线是“瘦高”型;例如,µ相同而σ不同的两个正态分布(σ0σ1)正态分布的特征方差相等、均数不等的正态分布图示312均数相等、方差不等的正态分布图示213二、正态曲线下面积的分布规律对任意一个服从正态分布的随机变量,可作如下标准化变换,经此变换,Z服从总体均数为0,总体标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。uXe221()2(-∞<u<+∞)Xu正态曲线下的面积规律X轴与正态曲线所夹面积恒等于1。对称区域面积相等。S(-,-X)S(+X,)=S(-,-X)正态曲线下的面积规律对称区域面积相等。S(-x1,-x2)-x1-x2+x2+x1S(-x1,-x2)=S(+x1,+x2)正态曲线下的面积规律正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;-1.64~+1.64内面积为90%;-1.96~+1.96内面积为95%;-2.58~+2.58内面积为99%。例:某地1986年120名8岁男孩身高均数123.02cm,标准差为4.79cm,试估计:1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;2)身高在120-128cm者占该地8岁男孩总数的百分比;3)该地80%的男孩身高集中在哪个位置?总结正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;正态分布是一簇分布,由两个参数决定:均数和标准差;正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应。二、正态分布的应用1.估计变量值的频数分布2.制定参考值范围3.质量控制4.正态分布是很多统计方法的基础估计频数分布某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g。若以2500g作为低体重儿,试估计低体重儿的比例。首先标准正态变换:查标准正态分布表:(-1.86)=0.0314结果:估计低体重儿的比例为3.14%.u250031501.86350基本概念通常指特定的“正常人群”(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化、免疫及组织代谢产物含量等数据中大多数个体的取值所在范围。医学参考值范围确定95%参考值范围示意图参考值范围的确定参考值范围:(1)大多数“正常人”的取值范围——“大多数”:90%、95%or99%——“正常人”:必须明确定义(2)由大样本来确定(一般要求n>100)(3)可以用作诊断标准吗?例如,制定SGPT(谷丙转氨酶)正常值范围,“正常人”的条件是:a.无肝、肾、心、脑、肌肉等疾患;b.近期无服用损肝的药物(如氯丙嗪,异烟肼)c.测定前未做剧烈运动。1、若变量服从正态分布根据正态分布的性质,μ±1.96σ覆盖95%的“正常人”然而,μ、σ通常是未知的,我们经常用x、s代替因此,参考值范围:X±1.96s2、若变量不服从正态分布采用百分位数法:找出百分位数P2.5和百分位数P97.5因此双侧参考值范围:(P2.5,P97.5)----该法适用于任何分布类型的资料。决定取单侧范围还是双侧范围值有些指标如白细胞数过高或过低均属异常(a),故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。(a)白细胞数参考值范围(b)24小时尿糖参考值范围(c)肺活量参考值范围某地调查了200名成年女子的平均血清总蛋白为73.5(g/L),标准差3.9(g/L),试估计该地成年女子血清总蛋白95%的参考值范围。由得95%参考值范围:下限:-1.96s=73.5-1.96×3.9=65.9(g/L)上限:+1.96s=73.5+1.96×3.9=81.1(g/L)此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值。XX注意1、95%参考值范围只告诉我们:95%健康人的数值在此范围内;2、若某人的数值在此范围内,我们能宣布其为“正常”吗?3、若某人的数值在此范围外,我们能宣布其为“不正常”吗?------参考值范围不可以作诊断指标!4、选定适当的百分范围:绝大多数人,一般80%、90%、95%、99%等。结合正常人和异常人分布,根据应用目的:减少误诊:取较大范围;减少漏诊:取较小范围;如主要目的是减少假阳性(如用于确诊病人或选定科研病例),宁取99%。如主要目的是减少假阴性(如用于初筛搜查病人),宁取80%或90%。5.选用适当的方法进行估计---根据分布类型正态分布法:(近似)正态分布或对数正态分布资料百分位数法:偏态分布资料;分布类型不清资料;开口资料双侧95%参考值范围:X±1.96S单侧95%参考值范围:X+1.645S(上限)X-1.645S(下限)异常正常双侧下限双侧上限异常单侧下限异常正常单侧上限异常正常(1)正态分布法双侧95%正常值范围为P2.5~P97.5,单侧95%正常值为P95(上限)或P5(下限)。(2)百分位数法:例:计算340名7岁以下男童血铅的95%参考值范围。由于340名男童的血铅值属于偏态分布,可用百分位数法计算参考值范围;由于血铅过高属异常,应采用单侧上限作为制定的界限;应计算P95。P95=2.54(umol/L),所以该市7岁以下男童血铅的95%参考值范围为(0-2.54)(umol/L)。3.质量控制血清尿酸测定值3.54.04.55.05.505101520时间(天)尿酸测定值(mg/dl)4.正态分布是很多统计方法的基础后面各章讨论的许多统计方法都要求服从正态分布;非正态分布的资料——变量变换,使得近似服从正态分布;小结:参考值范围的含义选择适当的方法计算参考值范围