正态分布及其应用一、正态分布的概念和特征(一)、正态分布的概念和图形5岁女孩身高的直方图身高x(cm)频数f(x)5岁女孩身高的直方图身高X(cm)频数f(x)频数组段ab频数f(x)身高x(cm)5岁女孩身高的频数分布曲线正态分布以均数为中心,左右两侧对称,靠近均数两侧的频数较多,而距均数两侧较远处,频数逐渐减少,形成的钟形分布。Xf(X)m正态分布是应用最广泛的一种连续型分布.正态分布在十九世纪前叶由高斯加以推广,所以通常称为高斯分布.德莫佛德莫佛最早发现了二项概率的一个近似公式,这一公式被认为是正态分布的首次露面.正态分布高斯正态分布(normaldistribution)也叫高斯分布(Gaussiandistribution),是最常见、最重要的一种连续型分布。因为医学卫生领域中,有许多变量为连续的随机变量,并呈现正态分布。如,身高、体重,血压。)正态曲线(就是为横坐标,绘制的曲线为纵坐标,以)称为概率密度函数(为总体标准差的总体均数,为为底的自然对数指数是以,=curvenormal)(functiondensityyprobabilit)(),,(~72818.2exp14159.3,2)(exp21)(222XXfXfXNXXXXfmmm(二)、正态分布的特征正态分布曲线的密度函数:分析三条正态曲线的共同特征:①均数处最高(一个最高点)②左右对称(一个对称轴x=µ)观察以上三条正态曲线,归纳出正态曲线的性质①曲线在x轴的上方,与x轴不相交.②曲线关于直线对称,且在时位于最高点.mxmx③当时,曲线上升;当时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近.mxmx当一定时,曲线的形状由确定.越大,曲线越“矮胖”,表示总体的分布越分散;越小,曲线越“瘦高”,表示总体的分布越集中.mµ为正态曲线的位置参数0.00.10.20.30.40.50.60123456曲线1曲线2曲线3三条不同μ和σ的正态分布曲线当σ相同时,正态分布曲线的位置由μ来决定.σ为正态曲线的形态参数③正态分布有两个参数,一个正态分布可以表示为N(µ,σ2)④正态曲线下面的面积分布有一定规律二、标准正态分布XuufXuNNu,2exp21)();1,0(),(22mm即令标准正态分布被变为变换:一般正态分布标准正态变量经Xf(X)maσ标准正态分布(standardnormaldistribution)的两个参数为:μ=0,σ=1记为N(0,1)一般正态分布为一个分布族:N(m,2);标准正态分布只有一个N(0,1);这样简化了便于应用。曲线下面积0.00.10.20.30.40.5-4-3-2-101234Xf(X)u-∞dueuuu2221)(附表1(P261)就是根据此公式和图形制定的dXeXFXX)(2)(2221)(m正态曲线下面积标准正态曲线下面积分布规律正态曲线下面积分布规律正态分布面积或概率μ±σ68.27%μ±1.96σ95.00%μ±2.58σ99.00%标准正态分布的意义标准正态曲线下面积分布有规律,统计学家将曲线下所有的U值对应的的面积全部计算出来,并做成一个表,叫“标准正态分布表”,供查用。见P261附表1。借助于“标准正态分布表”,任何正态分布都可以进行正态变换,计算出曲线任意两个变量值之间的面积。例题2.17:已知u1=-1.76,u2=-0.25,求标准正态曲线下(-1.76,-0.25)范围内的面积。解:查附表1,得;Φ(u1)=0.0392,同理,Φ(u2)=0.4013,则(-1.76,-0.25)范围内的面积为D=Φ(u2)-Φ(u1)=0.4013-0.0392=0.3621例题2.18:已知u1=-1.2,u2=1.6,求标准正态曲线下(-1.2,1.6)范围内的面积。请同学们不看书,自己试做一下。题目有什么不同,如何解决?例题2.19:已知120名5岁女孩身高X=110.15,S=5.86,现欲估计该市城区某年身高界于104.0~108.0cm范围内的5岁女孩所占比例和人数。解:第一步,将该分布进行标准正态变换,以样本均数和标准差代替总体均数和标准差,进行U变换。U1=(104.0-110.15)/5.86=-1.05,U2=(108.0-110.15)/5.86=-0.37第二步,查附表1得:Ф(u1)=0.1469,Ф(u2)=0.3557D=0.3557-0.1469=0.2088f=120×0.2088=25(人)三、正态分布的应用正态分布是一种重要的分布,它是许多统计处理方法的基础。对于服从正态分布或近似正态分布或对数正态分布的资料,都可以借助于正态分布的规律来解决问题。其在医药卫生领域的应用有以下方面:(一)估计频数分布(二)制定医学参考值范围(三)质量控制(四)作为许多统计方法的基础(一)估计频数分布例题2.20某项研究显示,某地婴儿出生体重均数为3100g,标准差为300g,试估计该地当年出生低体重儿(≤2500g)所占比例。解:已知婴儿出生体重服从正态分布。记做变量X,则当X≤2500时,其对应于标准正态分布的u值为:00.230031002500mXu查表得:Φ(-2.00)=0.0228=2.28%,即该地当年低体重出生儿的比例为2.28%(二)制订医学参考值范围定义:指包括绝大多数正常人的人体形态、功能和代谢等各种生理生化指标的波动范围,也可以看作是常数,又称“正常值”制订方法有两种:1、正态分布法:适合正态或近似正态分布的资料2、百分位数法:适合偏态分布资料步骤:1.从“正常人”总体中抽样:明确研究总体2.统一测定方法以控制系统误差。3.判断是否需要分组(如性别、年龄)确定。4.根据专业知识决定单侧还是双侧。5.确定绝大多数的比例;最常用95%6.选择适合的计算方法单侧下限异常正常单侧上限异常正常异常正常双侧下限双侧上限异常1.正态分布法估计参考值范围公式为:如制定95%参考值范围,双侧界值u=1.96,单侧界值u=1.645。双侧界值:x1.96s单侧上界:x+1.645s单侧下界:x-1.645susX[例2.21]某地调查正常成年男子200人的红细胞数近似正态分布,得均数=5.526(1012/L),标准差s=0.38(1012/L),试估计该地成年男子红细胞数的95%参考值范围。因红细胞数过多或过少均为异常,故按双侧估计95%界值。下限为:x-1.96s=5.526-1.96×0.38=5.452(1012/L)上限为:x+1.96s=5.526+1.96×0.38=5.600(1012/L)故该地成年男子红细胞数的95%参考值范围(5.452—5.600)1012/L例2.21某地调查正常成年男子120人的第一秒肺通气量,得均数=4.2L,标准差s=0.7L,试估计该地成年男子第一秒肺通气量的95%参考值范围。因肺第一秒通气量过低为异常,故按单侧估计95%界值。下限为:x–1.64s=4.2-1.64×0.7=3.05(L)故该地成年男子第一秒肺通气量的95%参考值范围为不低于3.05L2.百分位数法用于描述偏态分布资料。白细胞数的95%参考值范围,因为白细胞数无论过高或过低均属异常,则分别计算P2.5和P97.5。这是双侧95%参考值范围;确定尿铅的95%参考值范围,因为尿铅以过高为异常,应计算P95