精品资料浅谈正态分布在现实生活中的应用摘要:无论从理论和实际应用的观点来看,正态分布毫无疑问是概率论和数理统计中的重要分布。它的重要性质是由于实际中遇到的随机变量有许多服从正态分布或近似服从正态分布的。(例如,气象学中的温度、湿度、降雨量,有机体的长度、重量,智能测度的评分,实验中的测量误差,经济学中的众多度量等等)正态分布是许多重要分布的极限分布;许多非正态分布变量是正态分布变量的函数;正态分布的概率密度和分布函数具有各种优良性质等。本文总结分析了正态分布和标准正态分布的性质和特点,然后着重分析了正态分布在医学,岗位测评,试卷命题难度评价,天气预报等实际问题中的应用。关键词:正态分布;标准正态分布;统计量一、正态分布的有关知识1、正态分布的定义设连续型随机变量X具有概率2()(2)1()2xfxe,x(1.1)其中(),(0)为常数,则称x服从以,为参数的正态分布,正态分布又称高斯分布,记为2(,)XN。2、正态分布的图形特点为了画出正态分布的图形,先对概率密度做几点讨论:(1)()0fx,即整个概率密度曲线都在x轴的上方;(2)令xc,(0)xcc,分别代入()fx,由(1.1)式可得()()fcfc且()()fcf()()fcf故()fx以x为对称轴,并在x处达到最大值1()2f(3)当x时,()0fx,这说明曲线()fx向左右伸展时越来越贴近以x轴,即()fx以x轴为渐近线。精品资料(4)用求导的方法可以证明x为,为()fx的两个拐点的横坐标。综上,即可画出正态分布的概率密度曲线如图1,它是一条关于x对称的钟形曲线。图1为了说明参数,对曲线位置形状的影响,请看图2图2可以看出:决定了图形的中心位置,决定了图形中峰的陡峭程度,当较大时,图形趋于平缓,当较小时,图形趋于陡峭。也就是说,决定了分布的中心位置,反映了分布的分散或集中程度。由(1.1)式得x的分布函数为22()21()2txFxedt(1.2)3、标准正态分布当0,1时,相应的正态分布(0,1)N叫做标准正态分布。对标准正态分布,通常用()x表示概率密度函数,用()x表示分布函数,即221()()2txxxtdtedt(1.3)标准正态分布的重要性质在于,任何一个一般的正态分布都可以通过线性变换转精品资料化为标准正态分布。定理1设2(,)XN,则(0,1)XYN。根据定理1,只要将标准正态分布的分布函数制成表,就可以解决一般正态分布的概率计算问题。至此,我们对正态分布的性质、特点有了初步的了解。从密度函数的图形看,它是一条关于x对称的钟形曲线。可以形象地用“两头小,中间大,左右对称”来描述。在自然界和社会领域常见的变量中,很多都有这种性质。4、正态分布的几个定义:①设1,2,nXXX是来自总体X的一个样本,1,2,nxxx是相应的样本值,1,2,(,)ngXXX是样本1,2,nXXX的函数,若g中不包含任何未知参数,则称1,2,(,)ngXXX是一个统计量。②下面是几个常用的统计量,设1,2,nXXX是来自总体X的一个样本,1,2,nxxx是相应的样本值,定义样本均值11niiXXn;样本方差2221111()()11nniiiiSXXXnXnn;样本标准差(样本均方差)2211()1niiSSXXn;样本k阶(原点)矩11,1,2,;nkkiiAXkn样本k阶中心矩11(),1,2,;knkiiBXXkn二、正态分布在现实生活中的应用1、在医学方面的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变精品资料换后可成为正态或近似正态分布,故可按正态分布规律处理。(1)估计正态分布资料的频数分布例1.10某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求、、范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。本例,、未知但样本含量n较大,按式(3.1)用样本均数和标准差S分别代替和,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表1。100名18岁男大学生身高的实际分布与理论分布身高范围(cm)实际分布理论分布(%)人数百分数(%)168.69~176.716767.0068.27164.84~180.569595.0095.00162.35~183.059999.0099.00表1(2).制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量精品资料足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:①正态分布法:适用于正态或近似正态分布的资料。双侧界值:单侧上界:,或单侧下界:②对数正态分布法:适用于对数正态分布资料。双侧界值:;单侧上界:,或单侧下界:。常用u值可根据要求由下表2查出。参考值范围(%)单侧双侧800.8421.282901.2821.645951.6451.960992.3262.576表22、正态分布在岗位测评中的应用假定某公司有50个岗位,应该有50个人,则系数为10以下的岗位数和人数为:50*P(10)=46.18,则岗级系数分布在10的岗位数和人数为:50-50*P(10)=4;根据正态分布的性质,则岗级分布在3的岗位数和人数也应为4;岗级4~9的岗位数和人数应为42。如果我们称岗级系数为4~9的人为中等收入者,说明这种岗位分配和收入分配符合正态分布,分布在各岗级系数的人数是合理的,有利于企业的稳定、发展。同理根据正态分布函数,依次求得各岗级系数的岗位数和人数:P(x)=P(9)=0.8461;则系数为9以下的岗位数和人数为:50*P(9)精品资料=42人;则岗级系数分布在9的岗位数为:46-42=4个。依次求得:P(8)=0.7291,则系数为8以下的岗位和人数为:50*P(8)=36人;即岗级系数分布在8的岗位数为:42-36=6个。P(7)=0.5793,则系数为7以下的岗位和人数为:50*P(7)=28人;即岗级系数分布在7的岗位数为:36-28=8个。P(6)=0.4207,则系数为6以下的岗位和人数为:50*P(6)=21人;即岗级系数分布在6的岗位数为:28-21=7个。P(5)=0.2709,则系数为5以下的岗位和人数为:50*P(5)=14人;即岗级系数为分布在5的岗位数为:21-14=7个。P(4)=0.1539,则系数为4以下的岗位和人数为:50*P(4)=8人;即岗级系数分布在4的岗位数为:14-8=6个。P(3)=0.0764,则系数为3以下的岗位人数为:50*P(3)=4人;即岗级系数分布在3的岗位数应为4个。如下表3和图3:图3这说明,上述分布符合正态分布,对于一个企业来说,上述分布正是企业经营者所希望的。精品资料各岗级系数的岗位数一旦确定,那么岗位测评中的打分结果就可以从最高到最低排序,定出各岗级的岗位数,相应的人数也就定了,相应的薪酬也就定了。由于计算过程有累计误差,所以相差4人,根据正态分布原理,这4人岗级系数应落在4~9范围里面,可以根据企业具体情况调整。3、正态分布规律在试卷命题难度评价中的应用教育评价技术方法中教育测量理论是应用教育统计学方法来实现的,众所周知,正态分布是最常见、应用最广的一种重要分布,按照数理统计学的基本原理,经统计分析(样本数≥30)93%的考试成绩分布状况在直观上呈现为“中间多,两边少,左右基本对称”的特点,因此被测验对象的学习或某种能力指标和某种能力指标的测验结果ξ可以近似地用正态分布N(μ2),来描述。因而通过样本对总体的某些特征(如均值或方差)推理判断,已成为教育研究中一种较为常见的方法。用统计学原理确定学生成绩的平均分及正态分布曲线,并将其作为对试卷分析评价的基础。(1)考试成绩的分布形态(规律)保证考试质量是数学活动中不容忽视的重要组成部分。如何提高考试质量,不仅应在试前对试卷质量进行预测分析,更应结合试后考试成绩分析作出最终评价。用学生的考试成绩可以定量对命题质量进行评价与分析。观察统计学生考试成绩的直方图,其分布大致可分为5种情形①单峰且对称、单峰大体对称;②单峰但峰值向左移;③单峰但峰值向右移;④双峰或多峰;⑤大体上可以一个平台型为代表等等。(2)学生成绩正态分布曲线分析根据教育学与统计学的理论,一次难度适中信度可靠的考试,学生的成绩应接近正态分布。也就是说,当学生的成绩接近于正态分布时,则说明此次考试基本达到了教学要求。判断成绩是否接近正态分布,最直观,最有效的方法是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。当然,学生成绩呈现正态分布是理想化状态。考试成绩完全呈正态分布有一定的困难,也不现实。但我们要以正态分布为标准模式,加以对比,找出不足。利用教育统计学研究发现,对于难度适中、客观有效的考试成绩一般都符合正态分布,且平均分在75分左右,标准差在9—5之间。因此,我们有理由使用各种高级统计方法处理考试分数,以挖掘更多的教育信息。考试成绩是考生水平的反映,同时考试成绩分布是否正态分布反映了命题质量。根据正态分布曲线呈现的形态,可以进行考题相精品资料对难度分析。平均成绩的差异引起曲线的水平位置变化,平均成绩偏低,如低于65分说明试卷难度较大;而偏高在90分以上说明试卷难度太小。若学生成绩分布属①所示的形态,这表明试卷命题的质量是比较好的.这里又有两种情形:在标准差不变的情况下随着平均分数的增加曲线向右移说明考生答题逐渐轻松;相反,随着平均分数的减小说明考题逐渐变难,学生成绩逐渐降低。在学生和教师工作正常情况下,题目越容易曲线越向右移。在平均分不变的情况下,标准差较小如低于6,成绩分布较集中,正态分布曲线呈陡峭型状态说明试卷区分度太小,表示中等难度试题所占比重太大;标准差较大如大于9,成绩分布较平坦,试卷区分度太大,则表示中等难度试题偏少。若学生成绩分布属②所示形态,即负偏态分布说明难度较大的试题比例偏高,表明试卷题目偏难;若学生成绩分布属③所示的形态,即正偏态分布说明难度较小的试题比例偏重,则表明试卷题目偏易。若学生成绩分布属④或⑤等所示的形态,则表明试卷的命题质量不好,随意性较强,这样的试卷成绩不能很好地测量出学生对所学知识掌握情况。(3)正态分布应用的结论考题相对难度是指考题从整体上讲相对考生其难易程度的合理性,用学生成绩的平均分数衡量考题相对难度应是合理、可行的。对于高校结业类型的考试,经统计平均分数在77分附近时,考题相对难度是适中的。通过确定恰当的偏离度等级标准,对试卷做出试题难度相对学生①考题合理、②考题稍偏易或稍偏难、③考题较易或较难、④考题过易或过难、⑤考题难度不合理的5个等级判断。综上所述,考试成绩符合正态分布是说明考题命题合理的条件,也是衡量考试质量的一个客观