02正态分布及抽样误差

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

正态分布及其应用Normaldistributionanditsapplications统计学中最重要的理论分布之一正态分布(Normaldistribution)法国概率论学者狄莫弗德国数学家Gauss最早用于物理学、天文学Gaussiandistribution234为什么如此摆放奖品?平时,我们很少有人会去关心小球下落位置的规律性,人们可能不相信它是有规律的。高尔顿钉板试验正态分布的背景-一个街头赌博游戏5Ox-8-7-6-5-4-3-2-112345678这条曲线就是我们将要介绍的正态分布曲线。正态分布的背景-高尔顿钉板试验612413214014815616400.100.200.300.40频率图某市120名12岁男童身高(cm)的频数分布组段频数频率124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167160~16410.0083合计1201.00007极差=160.9-125.9=35分10组,组距=极差/10=35/10=3.5,组距取4下界124,上界1648身高的分布正态分布的概率密度函数如果随机变量X的概率密度函数则称X服从正态分布,记作X~N(,2),其中,为分布的均数,为分布的标准差。XfXe22()21()2(-∞<X<+∞)正态分布图示x0.1.2.3.4f(x)方差相等、均数不等的正态分布图示312均数相等、方差不等的正态分布图示213正态分布的特征正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。高峰在均数处;均数两侧完全对称。正态曲线下的面积分布有一定的规律。正态曲线下的面积规律X轴与正态曲线所夹面积恒等于1。对称区域面积相等。S(-,-X)S(+X,)=S(-,-X)X正态曲线下的面积规律对称区域面积相等。S(-x1,-x2)-x1-x2x2x1S(x1,x2)=S(-x2,-x1)正态曲线下的面积规律-4-3-2-101234-3-2-++2+3S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.8413S(-,)=1正态曲线下的面积规律-4-3-2-101234-3-2-++2+31-S(-3,+3)=0.00261-S(-2,+2)=0.04561-S(-,+)=0.3174正态曲线下的面积规律-3-2-++2+3S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,-0)=0.5S(-3,-2)=0.0215S(-2,-1)=0.1359S(-1,)=0.3413-4-3-2-101234正态曲线下的面积规律-1.96+1.962.5%2.5%95%正态曲线下的面积规律-1.64+1.645%5%90%正态曲线下的面积规律-2.58+2.580.5%0.5%99%S(-1.96,+1.64)=?思考正态曲线下的面积规律正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;对任意正态曲线,按标准差为单位,对应的面积相等;-1.64~+1.64内面积为90%;-1.96~+1.96内面积为95%;-2.58~+2.58内面积为99%。小于-3的面积为0.13%;小于-2的面积为2.28%;小于-的面积为15.87%。标准正态分布标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。概率密度函数:uXe221()2(-∞<u<+∞)正态分布转换为标准正态分布若X~N(,2),作变换:则u服从标准正态分布。u称为标准正态离差(standardnormaldeviate)~(0,1)NXu标准正态分布曲线下面积(u)u0.000.020.040.060.08-3.00.00130.00130.00120.00110.0010-2.50.00620.00590.00550.00520.0049-2.00.02280.02170.02070.01970.0188-1.90.02870.02740.02620.02500.0239-1.60.05480.05260.05050.04850.0465-1.00.15870.15390.14920.14460.1401-0.50.30850.30150.29460.28770.281000.50000.49200.48400.47610.46810u正态分布的应用估计频数分布质量控制确定临床参考值范围估计频数分布某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g。若以2500g作为低体重儿,试估计低体重儿的比例。首先计算标准离差:查标准正态分布表:(-1.86)=0.0314结果:估计低体重儿的比例为3.14%.u250031501.86350质量控制质量控制的意义监控日常工作、科研过程、生产过程中误差的变化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时采取措施。参考值范围(referenceinterval)参考值范围又称正常值范围(normalrange)。什么是参考值范围:是绝大多数正常人的某观察指标所在的范围。绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。参考值范围确定的原则选定同质的正常人作为研究对象控制检测误差判断是否分组(性别,年龄组)选择百分界值(90%,95%)确定可疑范围单、双侧问题单侧与双侧参考值范围根据医学专业知识确定!双侧:白细胞计数,血清总胆固醇,单侧:上限:转氨酶,尿铅,发汞……下限:肺活量,IQ,参考值范围的估计方法方法双侧单侧下限单侧上限正态分布法Xus/2XusXus例20~29岁正常成年男子尿酸浓度求双侧95%的参考值范围:下限上限350.24(/),32.97xmolLs1.96350.2432.97285.62(/)1.96350.2432.97414.86(/)xsmolLxsmolL总结正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;正态分布是一簇分布,由两个参数决定:均数和标准差;正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。需要掌握的内容正态分布的性质正态曲线下面积的分布规律参考值范围确定的原则和方法抽样误差及其规律性Samplingvariabilityanditsattributes从一个例子来谈抽样误差假如事先知道某地七岁男童的平均身高为119.41cm。研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了五次。38122.7121.0118.1108.3124.5121.1115.8120.9117.9……39μ=119.4cmσ=4.38cm=118.4cmS=4.41cmx119.4u40μ=119.41cmσ=4.38cm118.21cm=4.45cmXs120.18cm=4.90cmXs117.78cm=3.98cmXs119.87m=5.15cmXs120.81cm=4.33cmXs导致总体均数与样本均数、样本均数之间有差别的可能原因是?41抽样误差的定义五次抽样得到了不同的结果,原因何在?42个体变异随机抽样不同男童的身高不同每次抽到的人几乎不同抽样误差抽样误差的表现43抽样误差的表现样本均数和总体均数间的差别iX样本均数和样本均数间的差别ijXX抽样误差定义:由于个体变异的存在,由抽样引起的样本统计量与总体参数间的差别。原因:个体变异+抽样表现:不同样本统计量间的差别样本统计量与总体参数间的差别抽样误差是不可避免的!抽样误差是有规律的!44★★★★★均数的抽样误差之特点各样本均数未必等于总体均数;样本均数间存在差异;样本均数的分布很有规律;45中心极限定理(centrallimittheorem)Case1:从正态分布总体N(μ,σ)中随机抽样(每个样本的含量为n[如10]),可得无限多个样本[如1000次],每个样本计算样本均数,则样本均数也服从正态分布。样本均数的均数为μ;样本均数的标准差为。46xn中心极限定理(centrallimittheorem)Case2:从非正态分布总体(均数为μ,方差为σ)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要抽样次数足够大(n50),样本均数也近似服从正态分布。样本均数的均数为μ;样本均数的标准差为。47xn标准误(standarderror)样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。前者称为理论标准误,后者称为样本标准误。48xnxssn这个公式是怎么来的?已知变量x的方差V(x)=S2,则2x的方差为?已知变量x1的方差V(x1)=S12,变量x2的方差V(x2)=S22,则x1+x2的方差为?49标准误与标准差(1)联系:都表示变异的大小;样本含量一定时,标准差越大,标准误越大。nSSX/标准误与标准差(2)标准差含义:一组变量值离散程度;标准差越小,均数的代表性越好;应用:估计参考值范围;与n的关系:样本含量越大,标准差越稳定,n很大时,标准差趋向于总体标准差。标准误与标准差(3)标准误含义:样本统计量的离散程度;标准误越小,用样本均数来反映总体均数越可靠;应用:计算可信区间;与n的关系:样本含量越大,均数的标准误越小,n很大时,标准误趋向于0。53SamplingDistributionofsamplemeansSamplingDistributionofsamplemeansSamplingDistributionofsamplemeansPopulationBXXPopulationCXPopulationDXPopulationAn=10n=4n=25n=2SamplingDistributionofsamplemeansXXXX样本均数的抽样分布与样本含量的关系n越大,均数的均数就越接近总体均数;n越大,变异越小,分布越窄;对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含量就越大。54抽样误差的规律性(1)均数的抽样误差规律:在样本含量足够大时,无论总体分布如何,其均数的分布趋于正态分布5556f(t)(标准正态曲线)=30.10.2-4-3-2-1012340.3如果样本含量较小时均数的抽样分布?t分布57正态分布的标准化变化若X~N(μ,σ2),则。58XN~(0,1)因,则。~(0,1)XXuN2~(,)XXNt分布的概念实际工作中,总体方差未知。所以,用样本方差代替总体方差,且当样本含量较小时的分布如何?59XXst分布起源60t分布的概念用样本方差代替总体方差,此时不服从正态分布。而服从t分布。记为:61XXsnXXtts(1

1 / 74
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功