2.定性数据统计描述,正态分布及其应用

佬顽主
3 ℃
2020-01-27

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

正态分布(normaldistribution)正态分布又称高斯（Gaussiandistribution），是统计学中一种最常见、最重要的连续型变量的对称分布，医学资料中有许多指标如身高、体重、红细胞数、血红蛋白、收缩压等频数分布都呈正态分布。一.概念频数分布逐渐接近正态分布示意图（若纵轴改为频率）正态曲线（normalcurve）图形特点：1.钟型2.中间高3.两头低4.左右对称5.最高处对应于X轴的值就是均数6.标准差决定曲线的形状7.曲线下面积为18.拐点Xf(X)mm数学式正态分布密度函数其中是μ均数，σ是标准差。记N(μ,σ2))(XexXfm222)(21)(正态分布的特殊形式：标准正态分布N(0,1)；即μ=0,σ=1时（z分布、u分布）标准正态变换（变换公式）；u=mx特征1．是单峰曲线，x=μ2．以均数μ为中心左右对称3．有2个参数，μ：位置参数，σ：变异度参数σ越大，数据越分散，曲线越平坦。00.10.20.30.40.50.6-4-3-2-101234Xf(X))1,0(2N)8.0,1(2N)2.1,1(2N位置参数μ决定曲线的位置，形态参数σ决定曲线的形态4．正态曲线下面积的分布规律•横轴上曲线下的面积为1•曲线下,横轴上对称于μ的左右两边面积相等正态分布面积或概率μ±σ68.27%μ±1.96σ95.00%μ±2.58σ99.00%标准正态分布标准正态分布(standardnormaldistribution)的两个参数为：μ=0,σ=1记为N(0,1)一般正态分布为一个分布族:N(m,2)；标准正态分布只有一个N(0,1)；这样简化了应用u曲线下面积0.00.10.20.30.40.5-4-3-2-101234Xf(X)221()2uXuedXu-∞附表（标准正态分布左侧曲线下面积）就是根据此公式和图形制定的曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%标准正态分布面积或概率-1～168.27%-1.96～1.9695.00%-2.58～2.5899.00%查附表(1.96)(1.96)?Pu(1.96)(1.96)?Pu曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%标准正态分布正态分布面积或概率-1～1μ±σ68.27%-1.96～1.96μ±1.96σ95.00%-2.58～2.58μ±2.58σ99.00%以上讨论的是标准正态分布，对一般的正态分布，某指标X~N(μ,σ2),则u=(x-μ)/σ~N(0,1)即-1.96u1.96的面积为0.95μ-1.96σxμ+1.96σ的面积为0.95经过标准化转换，就可以利用标准正太分布求出原始变量X有关的概率值例如成年男子红细胞数近似服从正太分布,,现想知道在4x1012/L以下所占的比例。查附表1得:表明成年男子的红细胞数低于4x1012/L的人约占总体的2%.)38.0,78.4(~2Nx05.238.078.44u0202.0)05.2(五．正态分布的应用1．许多医学指标服从正态分布或近似正态分布，如同性别、同年龄儿童的身高，同性别健康成人的红细胞数、血红蛋白量等，及实验中的误差。定义：又称参考值范围，是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。医学正常值范围2.估计医学参考值范围单双侧：根据指标的实际用途，有的指标有上下界值，过高过低均属异常；某些指标过高为异常，只需确定上限；某些指标过低为异常，只需确定下限。估计的方法：1、正态分布法（正态分布）2、百分位数法（任何分布）应用条件:正态分布或近似正态分布资料结果稳定，所需样本量不大计算95%正常值(医学参考值）范围公式：双侧：即单下:单上:1.正态分布法)96.196.1(sxs，xsx96.1sx645.1sxu例120名健康成年男性农民舒张压的均数为10.1kPa，标准差为0.93kPa，求舒张压的双侧95%正常值范围。10.1±1.96×0.93即8.28~11.92kPasx645.12.百分位数法应用条件:任何分布，特别是偏态分布资料计算公式：双侧界值：P2.5~P97.5单侧上界：P95单侧下界：P5630名正常女性血清甘油三酯含量的资料注意95%参考范围（referencerange）或正常范围（normalrange）仅仅告知健康者中95%的人测定值在此范围之内，并非告知凡在此范围之内皆健康，也非告知凡在此范围之外皆不健康，所以不可将之作为诊断标准。3．正态分布是许多统计方法的理论基础，如后面要讲的t检验、方差分析、相关回归等，t分布、二项分布、Poisson分布的极限分布也是正态分布。t分布X随机变量XN（m，2）标准正态分布N（0，12）u变换均数标准正态分布N（0，12）Studentt分布自由度：n-1t分布的概率密度函数式中为伽玛函数；圆周率（Excel函数为PI()）为自由度（degreeoffreedom），是t分布的唯一参数；t为随机变量。以t为横轴，f(t)为纵轴,可绘制t分布曲线。t分布曲线0.00.10.10.20.20.30.30.40.4-4-3-2-101234tf(t)自由度为1的t分布自由度为9的t分布标准正态分布t分布有如下性质：①单峰分布，曲线在t＝0处最高，并以t＝0为中心左右对称②与正态分布相比，曲线最高处较矮，两尾部翘得高（见绿线）③随自由度增大，曲线逐渐接近正态分布；分布的极限为标准正态分布。t分布曲线下面积（附表）双侧t0.05/2，9＝2.262＝单侧t0.025，9单侧t0.05，9＝1.833双侧t0.01/2，9＝3.250＝单侧t0.005，9单侧t0.01，9＝2.821双侧t0.05/2，∞＝1.96＝单侧t0.025，∞单侧t0.05，∞＝1.64举例：①0.05,10101.812t，单=0.05，，则有(1.812)0.05(1.812)0.05PtPt或②0.05/2,10102.228t，双=0.05，，则有(2.228)(2.228)0.05PtPt查t界值表4．估计频数分布（理论频数）例出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克，标准差为350克，估计该地当年低体重儿所占的比例。记x为当年该地婴儿出生体重，则x服从正态分布N（3200，3502）P(x2500)查标准正态分布界值表Φ（-2）=0.0228即估计该地当年低体重儿所占的比例为2.28%如果当地每年婴儿出生人数约为……，那么……)2()2()350320025003503200(upxp小结1.描述一组观察值，除需要表示其平均水平外，还要说明它的离散或变异的情况。2.衡量变异程度大小的指标有多种:极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。3.标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布，都可以通过一个简单的变量变换化成标准正态分布。正态分布可以很容易地确定其数值出现在任意指定范围内的概率。4.医学参考值范围指“正常参照人群”的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要用作判断某项指标正常与异常的参考，而非诊断疾病的标准。5.参考值范围估计的方法有多种，其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定，但对资料要求严格；百分位数法适合于任何分布类型的资料，但要求大样本。6.医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点，权衡假阳性和假阴性的比例，选择一个适当的百分范围，最常用的百分界限是95%。减少假阳性（用于确诊），范围取大（95%，99%）减少假阴性（用于初筛），范围取小（90%，80%）习题：1.各观察值加同一数后：A.均数不变，标准差改变B.均数改变，标准差不变C.二者均不变D.均改变2.用均数和标准差可全面描述：A.正偏态资料B.负偏态资料C.正态分布和近似正态分布D.任何分布3.正态分布曲线下，从均数μ到μ+1.96的面积为；A.95%B.45%C.97.5%D.47.5%例如:正态分布数据，n=200,描述为70±10，记作？求50~80之间的理论频数？计数资料统计描述绝对数：通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性：1.如甲、乙两个医院某病出院人数不同时，两医院该病的死亡人数不具有可比性2.如2002级一、二班学生人数不同时，两班考试及格人数不具有可比性因此需要在绝对数的基础上计算相对数。相对数：两个绝对数之比，或两个有联系的指标之比常用的相对数有：率（rate）：当比例与时间有关系时称为率（如发病率、患病率、死亡率、病死率等）。构成比（constituentratio）或（proportion）：比的分子是分母的一部分，各组成部分比重。比（ratio）或相对比（relativeratio)：两个有联系的指标之比，两者对比水平。率率（rate）：说明某现象发生的频率或强度。（每单位时间变化的瞬时测量值）率=发生某现象的观察单位数×K（比例基数）可能发生某现象的观察单位总数K=100%1000‰万分率10万分率常用的率：发病率与患病率死亡率与病死率1、发病率（incidencerate）（1）公式IR=某期某人群中某病的新病例数×K同期暴露人口数通常以年为单位1、发病率（incidencerate）（1）公式IR=某期某人群中某病的新病例数×K同期暴露人口数新发／初次诊断一人多次发病1、发病率（incidencerate）IR=某期某人群中某病的新病例数×K同期暴露人口数可能发生该病的人群不可能发病1、发病率（incidencerate）IR=某期某人群中某病的新病例数×K同期暴露人口数该时期的平均人口数（1）年中人口数（2）平均值分子观察期内新发生的病人；同一个体多次患病，应多次计数；发病时间较难确定的以初次诊断作为发病时间。分母应为易感人口，实际大样本调查多用平均人口。K比例系数，可为1000‰万分率10万分率时间单位年、季、月，常以年为单位（2）含义表示一定期间内、一定人群中某病新病例出现的频率。疾病发生的危险性可分年龄、性别、职业、民族、种族、婚姻状况、病因等分别计算，即发病专率2、患病率（prevalencerate），又称现患率（1）公式时点患病率=某时点某病的新旧病例数×K（一个月内）当时受检人数（平均人口数）相当于一个时间端面一般不超过一个月期间患病率=某期间某病的新旧病例数×K受检人数（同期平均人口数）开始时点上的患病率＋该期间内发病率（2）含义指某特定时间内总人口中，某病新旧病例所占的比例。强调的是某人群中某时间断面上患病者的比例。例：某地1995年年初人口为2528人，1995~1998年某病三年间发病情况见图，期间无死亡、迁走或拒绝检查者。图11995~1998年某病三年间发病情况•患病率与发病率区别与联系①本质含义不同现患频率与发病危险②计算方法不同分子、分母差异③观察方式不同断面与纵向④应用范围不同慢性与急性患病率＝发病率X病程长期保持稳定例：患病率＝367／10万发病率＝30.7／10万计算得：病程＝12.0年１、死亡率（mortalityrate，deathrate）（1）公式死亡率=某人群某年总死亡人数×K该人群同年平均人口总数（2）含义指在一定期间内总死亡人数与该人群同期平均人口数之比。（3）应用用于衡量某一时期、某一地区人群死亡危险性大小。