5.卫生统计基础理论、数据处理实用技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

卫生统计学基本概念第一章绪论1.参数:能统计计算出来描述总体的特征量,即总体的统计指标。2.总体:根据研究目的确定的同质研究对象的全体集合。3.同质:除了实验因素外,影响被研究指标的非试验因素相同被称为同质。4.变异:在同质的基础上被观察个体或单位之间的差异被称为变异。5.样本:从总体中随机抽取的部分研究对象。6.统计量:由观察资料计算出来的量,即样本的统计指标。7.概率:表示一个事件发生的可能性大小的数。(概率的统计定义:在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,频率nA/n逐渐稳定在某一数值p附件,则数值p称为事件A在该条件下发生的概率。)8.抽样误差:由抽样造成的样本均数与总体均数或各样本均数之间的差异。9统计学的基本步骤有哪些?答:统计学是一门处理数据中变异性的科学与艺术,它包括收集数据、分析数据、解释数据,以及表达数据。10总体与样本的区别与关系?答:区别:样本是总体的一部分,联系:如果样本的均衡性较好,就能够代表总体的特征。11抽样误差产生的原因有哪些?可以避免抽样误差吗?答:一,个体差异引起;二,抽样方法引起。抽样误差不能避免,但可以随着样本含量的增大而减小。12何为概率及小概率事件?答:概率是指在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,频率nA/n逐渐稳定在某一数值p附件,则数值p称为事件A在该条件下发生的概率。小概率事件是指习惯上将P《=0.05或P《=0.01称为小概率事件,表示某事件发生的可能性很小。第二章定量资料的统计描述1.频数:对一个随机事件进行反复观察,其中某变量值出现的次数被称为频数。2.方差:用来度量随机变量和数学期望(即均值)之间的偏离程度。3.标准差:也称均方差,是各数据偏离平均数的距离的平均数。4.中位数:是指将原始观察值从小到大或从大到小排序后,位次局中的那个数。5.几何均数:变量对数值的算数均数的反对数。6.四分位间距:百分位数P75和百分位数P25之差。7.正偏态分布:偏态分布是相对于正态分布而言的,如果频数分布的高峰向左偏移,长尾向右侧延伸为正偏态分布也叫右偏态分布。8.负偏态分布:偏态分布是相对于正态分布而言的,如果频数分布的高峰向右偏移,长尾向左延伸则成负偏态分布,也叫左偏态分布。9.变异系数:是衡量资料中各观测值变异程度的一个统计量,用标准差与平均数的比值来表示。。10描述数值变量资料集中趋势的指标有哪些?其适用范围有哪些?答:常见的包括算术均数、几何均数、中位数。相同点:算数均数和中位数都适用于正态分布的资料。不同点:几何均数适用于可经对数转换为对称分布的资料;中位数适用于各种分布的资料,常用于描述偏锋分布的资料。11描述数值变量资料离散趋势的指标有哪些?其适用范围有何异同?答:常见的包括:极差、四分位间距、方差、标准差和变异系数。适用范围相同点:极差和四分位间距可用于各种资料的分布;方差和标准差适用于对称分布,特别是正态分布的资料。不同点:极差易受样本含量的影响,很不稳定;四分位间距特别适用偏锋分布资料;变异系数适用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。第三章定性资料的统计描述1.率:指某现象实际发生数与可能发生该现象的观察单位总数之比,用以说明某现象发生的频率或强度。2.构成比:是指事物内部某一组成部分观察单位数与事物内部各组成部分观察单位总数之比,常用百分数表示。3.相对比:是指两个有关指标之比,用以说明一个指标是另一个指标的几倍或几分之几。4.人口金字塔:是将人口的性别和年龄资料结合起来,以图形的方式表达人口的性别和年龄构成。它以年龄为纵轴,人口数构成为横轴,左侧为男,右侧为女而绘制的两个相对应的直方图,可以分析过去人口的出生死亡情况以及今后人口的发展趋势。5.标准化率:寻找一个统一的分布作为标准组,然后每个比较组均按该分布标准计算相应的率,所得到的率是相对于标准组的,故称为标准化率。6.标化死亡比:实际死亡人数与期望死亡人数之比。7.期望寿命:指0岁时的预期寿命。一般用“岁”表示。即在某一死亡水平下,已经活到X岁年龄的人们平均还有可能继续存活的年岁数。8.动态数列:按时间顺序将一系列统计指标(可以为绝对数,相对数或平均数)排列起来,用以观察和比较该事物在时间上的变化和发展趋势。9.请说明频率型指标与强度型指标的主要区别?答:主要区别:指标的解释不同,频率型指标是表示事物内部某个组成部分所占的比重或分布,或指某现象发生的频率。强度型指标是指单位时间内某现象发生的频率。10标准化法的基本思想?答:采用统一标准构成以消除某因素的内部构成不同对总率的影响,使通过标准化后的标准化率具有可比性。11请比较发病率和患病率的不同。答:发病率表示一定时期内,在可能发生某病的一定人群活过的总人年中,新发生的某病病历数,其分子是新病历数,分母是总人年数;患病率,又称现患率,指某时点上受检人数中先患某种病的人数,通常用于描述病程较长或发病时间不易明确的疾病的患病情况,其分子包括新旧病例数,分母是受检总人数。在一定的人群和时间内,发病率和患病率有密切关系,两者与病程(D)的关系是:PR=IR×D。12请比较死亡率与病死率的不同。答:死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧重反映发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病死亡的概率。13应用相对数应注意的事项。答:1.理解相对数的含义不可望文生义;2.频率型指标的解释要紧扣总体和属性;3.计算相对数时分母应有足够数量;4.正确地合并频率(强度)型指标;5.相对数间的比较要具备可比性;6.对相对数的统计推断。14应用标准化的注意事项。答:1.标准化的应用范围很广,适用于“某事件的发生率”可以是治愈率,也可以是患病率,还可以是发病率、病死率等。当某个分类变量在两组中分布不同时,这个分类变量就成为两组频率比较的混杂因素,标准化法的目的就是消除这个混杂因素的影响。第四章统计表与统计图1.依次写出箱式图中涉及到的各个取值。答:由大到小的次序为:极大值、P75、中位数、P25和极小值。2.直方图中各矩形的高度等于频数(或频数),对吗?答:对于各组距相等的情形,该说发是对的。若某些组段的组距与多数阻段所取组距不同时,例如前者是后者的k倍,则该不等距组段的高度为频数(频率)除以k。确切地说,组段对应的面积等于频数(频率)。3统计表的列表原则是什么?答:一是重点突出,简单明了;二是主谓分明,层次清楚,符合逻辑。4线图和半对数线图的主要区别是什么?答:线图的纵轴尺度为算术尺度,用以表示某指标随时间的变化趋势;半对数线图的纵轴尺度为对数尺度,用以表示某指标随时间的增长或减少速度。第五章常用概率分布1.正态分布:是一种很重要的连续型分布,以均数为中心,左右两侧对称,靠均数两侧的频数较多,离均数越远,频数越少,形成钟形分布。2.Poisson分布:是一种离散型分布,用以在单位时间、空间、面积等的罕见时间发生次数的概率分布。3.二项分布:对只有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。4.医学参考值范围:是指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。人们习惯用该人群中95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。5.医学参考值范围确定的方法是什么?答:百分位数法和正态分布法。6.简述二项分布、Poisson分布、正态分布的区别与联系。答:区别:二项分布、Poisson分布是离散型概率分布,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。联系:Poisson分布可以视为n很大而π很小的二项分布。当n很大而π和1—π都不是很小的时候二项分布渐近正态分布,当λ》=20的时候Poisson分布渐近正态分布。7.控制图的基本原理。答:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布;依据标准正态分布曲线下面积的分布规律性,确定出现概率非常小的若干情况作为异常标准吗如果出现相应结果则判为异常。8.二项分布的特征?答:二项分布图的高峰在μ=nπ处或附近;π为0.5时,图形是对称的;当π不等于0.5时,分布不对称,且对同一n,π离0.5愈远,对称性愈差。对同一π,随着n的增大,分布趋于对称。当n→∞时,只要π不太靠近0或1,二项分布趋于对称。9.Poisson分布的特征?答:(1)Poisson分布的总体均数与总体方差相等,均为λ。(2)当λ较小时,图形呈偏态分布;当λ较大时,图形呈正态分布。(3)Poisson分布的观察结果具有可加性。6.正态分布曲线的位置与形状的特点?答:(1)关于χ=μ对称。(2)在χ=μ处取得该概率密度函数最大值,在χ=μ±σ处有拐点。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。(5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”;σ越小,数据越集中,曲线越“瘦高”。第六章参数估计基础1.标准误(standarderror):样本均数的标准差,即均数的标准误。2.可信区间:按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间。3.t分布:在实际的工作中,往往σ是未知的,常用s作为σ的估计值,为了与μ变换区别,称为t变换,统计量t值的分布称为t分布。4.t分布图形的特征?答:(1)单峰分布,以0为中心,左右对称;(2)ν越小,t值越分散,曲线的峰部越矮,尾部越高;(3)随着ν逐渐增大,t分布逐渐接近标准正态分布;当ν趋向∞时,t分布趋近标准正态分布。5.总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?答:无论原始数据的总体分布形态如何,即对于任意分布而言,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,样本均数的标准误有公式(6-1)计算。6.样本均数的标准误的意义是什么?与原变量的标准差有何区别与联系?答:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。标准误与标准差的区别:(1)前者表示均数变异的指标,后者是表示观察值变异的指标。(2)用途不同,标准差与均数结合估计参考值范围,计算变异系数,和标准误等;标准误用于估计参数的可信区间,进行假设检验等。(3)它们与样本含量n的关系不同,当样本含量n足够大时,标准差趋向稳定,而标准误随的增大而减小。联系:当样本量n一定时,标准误随标准差的大小而变化。7.用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精度更好?为什么?答:95%置信区间的精度要好于99%置信区间。因为置信度或置信水平有95%提高到99%时,置信区间由窄变宽,估计的精度下降。8.满足什么条件时可以采取正态近似法估计总体概率的置信区间?答:当n足够大,且样本频率p和1—p均不太小时,如np与n(1—p)均大于5时,可用正态近似法求总体概率的置信区间。9.参考值范围与置信区间有何区别?答:区别:(1)意义不同:参考值范围是指通知总体中包括一定数量(如95%或99%)个体值的估计范围。可信区间是指按一定的可信度来估计总体参数所在范围。(2)计算方法不同。第七章假设检验基础1.假设检验:是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。统计推断:是在概率论的基础上依据样本的有关数据和信息,对未知总体的质量特性参数,做出合理的判断和估计。2.检验效能:当所研究的总体与H0确有差别时,按检验水平α能够发现它(拒绝H0)的概率。3.变量变换:对资料数据进行数学变换,使得变换后的资料符合参数方法条件的一种方法。4.Ⅰ型错误:如果实际情况与H0一致,仅仅由于抽样的原因,使得统计量的观察值落到拒绝域,拒绝原本

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功