1《卫生统计学习指导》流行病与卫生统计学教研室2第一章绪论本章大纲要求【掌握】统计学基本概念:变量及变量的类型;总体与样本;同质与变异;参数与统计量。【熟悉】卫生统计的基本步骤。【了解】卫生统计学的发展史;统计学与公共卫生的关系。【重点内容详解】第一节医学中统计思维的进化第二节统计学与公共卫生互相推动一、统计学是公共卫生专业人员的得力工具公共卫生是群体科学,应用统计技术探索群体规律。统计抽样技术:设计群体调查,掌握人群的卫生状况和需求;统计描述:反映疾病和卫生资源的分布特征;统计推断:偶然性的背景中识别危险因素、评价卫生措施、进行科学决策。二、现代公共卫生领域对统计学的挑战公共卫生不仅应用统计学,而且不断提出新要求和新问题,是现代统计学研究和发展的巨大动力。第三节统计工作的基本步骤第一步研究设计(design)第二步收集资料(collectionofdata)第三步整理资料(sortingdata)第四步分析资料(analysisofdata)第四节统计学的若干概念一、总体与样本总体:大同小异的对象全体。样本:采用随机抽样的原则从总体中抽取有代表性的一部分。二、同质与变异同质或同质性:研究对象具有的相同的状况或属性。变异:同一总体内个体间的差异。3三、变量及其类型研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值、资料)。根据变量值获取方式的不同把资料进行分类:定量变量和定性变量。1、定量变量:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。2、定性变量:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。变量类型可以转化:定量→有序→分类→二分类。注意转化方向只能由信息量多向信息量少的方向转化。四、误差1、随机误差(randomerror):由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。2、系统误差(systemicerror):指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。3、非系统误差(nonsystemicerror):失误引起。也称过失误差。五、参数与统计量参数是指反映总体特征的统计指标。由样本观察资料计算出来的反映样本特征的量称为样本统计量。【自测练习题】一、选择题(一)每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。1、下面的变量中,属于分类变量的是____。A脉搏B血型C肺活量D红细胞计数E血压2、下面的变量中,属于定量变量的是____。A性别B体重C血型D职业E民族3、某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料本属于____。A定量变量B分类资料C有序资料D二分类资料E名义变量资料44、上述资料可以转换为____。A定量资料B分类资料C有序资料D二分类资料E名义变量资料5、若要通过样本作统计推断,样本应是____。A总体中典型的一部分B总体中任一部分C总体中随机抽取的一部分D总体中选取的有意义的一部分E总体中信息明确的一部分(二)每一道题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。1、教材中提及美国人1954年实施了旨在评价索尔克(Salk)疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。有180万儿童参与,约有1/4参与者得到了随机化。这180万儿童是____。A目标总体B研究总体Cl份样本D1份随机样本E180万份样本上述试验最终肯定了索尔克疫苗的效果。请问此结论是针对____而言。A180万儿童B每个儿童C所有使用索尔克疫苗的儿童D所有儿童E180万儿童中随机化的1/4二、是非题1.定量变量、分类变量和有序变量可以相互转换。()2.离散变量在数值很大时,单位为“千”或“万”时可以取小数值,此时可近似地视为连续型变量。()4.同质的个体间不存在变异。()5.如果个体间有变异,则它们一定不是来自同一总体。()5第二章定量变量的统计描述本章大纲要求【掌握】各种集中趋势指标的计算及其适用条件,各种离散趋势指标的计算及其适用条件。【熟悉】频数分布表编制步骤,并据此描述资料的频数分布特征;统计表和定量资料统计图。【了解】描述分布形态的统计指标;了解描述分布形态的偏度系数与峰度系数的计算和意义。【重点内容详解】第一节数值变量的频率分布表一、离散型定量变量的频率分布对离散型定量变量,变量值的取值是不连续的。直接清点各变量值出现的频数,即为频率分布表。离散型定量变量的频率分布图可用直条图表达,以各等宽矩形直条的高度表示各组频率的多少。二、连续型定量变量的频率分布对连续型定量变量,变量值的取值是连续的。将数据适当分组,清点各组的频数,即为频率分布表。连续型定量变最的频率分布图可用直方图表达,其纵坐标为频率密度,即频率/组距,南方图的面积之和等于l。三、频率分布表(图)的用途频率分布表(图)可以揭示资料的分布类型;也可以描述资料的分布特征,即集中趋势和离散趋势,便于发现某些特大和特小的可疑值;便于进一步计算指标和统计分析。第二节描述集中趋势的统计指标对于连续型定量变量,平均数是应用最广泛、最重要的一个指标体系,它常用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。常用的平均数有3种:算术均数、几何均数和中位数。一、算术均数:1、意义:简称均数,常用μ表示总体均数,x表示样本均数,反映全部观察值的平均数量水平。62、适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。二、几何均数1、意义:几何均数以符号G表示,常用来反映一组含多个数量级数据的集中位置。2、适用条件:适用于原始观察值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。观察值间常呈倍数关系,或变化范围跨越多个数量级。三、中位数1、意义:将一组变量值按从小到大或从大到小的顺序排列后,位次居中的变量值。2、适用条件:适用于各种分布类型的资料,特别是偏峰分布的资料;亦可用于分布末端无确定值的资料。第三节描述离散趋势的统计指标同一总体中不同个体间存在的差异称为变异。为比较全面地把握资料的分布特征,不仅需要了解数据的集中位置,而且需要了解数据的离散程度。常用的描述离散趋势的统计量包括极差、四分位数间距、方差、标准差和变异系数。一、极差1、意义:也称全距,以R表示,是一组变量值中最大值和最小值的差。2、适用条件:所有资料。二、四分位数间距1、意义:四分位数间距即为Q75与Q25之差。2、适用条件:适用于偏态分布资料,比全距稳定,但仍未考虑每个变量值的变异程度。三、方差1、意义:方差考虑了全部观察值的变异程度。总体方差用σ2表示,定义为观察值离均差平方和的算术均数;样本方差用S2表示,是总体方差的无偏估计。同类资料比较时,方差越大意味着数据问变异度越大。2、适用条件:见标准差。四、标准差1、意义:方差的算术平方根称为标准差.总体标准差用σ表示,样本标准差用7S表示。标准差的量纲与原变量一致,故实际应用中常使用标准差。同类资料比较时,标准差越大意味着观察值间变异度越大。2、适用条件:方差和标准差都适用于对称分布的资科,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述资料的集中趋势和离散趋势。五、变异系数1、意义:变异系数用CV表示,为标准差与算术均数之比,是一个不带量纲的相对数。2、适用条件:量纲不同的变量及均数相差悬浮比较大的变量。第四节描述分布形态的统计指标一、偏度系数意义:理论上总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰。取负值时分布为负偏峰。二、峰度系数意义:理论上正态分布的总体峰度系数为0,取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。【自测练习题】一、选择题(一)Al型每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。1、用频率表计算平均数时,各组的组中值应为____。A本组段变量值的平均数B本组段变量值的中位数C本组段的上限值D本组段的下限值E(本组段上限值十本组段下限值)/22、离散型定量变量的频率分布图可以用____表达。A直方图B直条图C百分条图D箱式图E复式条图3、变异系数越大说明____。A标准差越大B平均数越大C标准差、平均数都大D平均数小E以均数为准变异程度大4、均数和标准差的关系是____。8A均数越大,标准差越小B均数越大,标准差越大C标准差越大,均数对各变量值的代表性越好D标准差越小,均数对各变量值的代表性越好E均数和标准差都可以描述资料的离散趋势5、已知某疾病患者10人的潜伏期(天)分别为l6,13,5,9,12,10,8,11,8,20。其潜伏期的平均水平约为____天。A9B9.5ClOD10.2Ell6、已知某地一群7岁男童身高均数为lOOcm,标准差为5cm;体重均数为20kg,标准差为3kg,则身高和体重的变异程度有____。A身高的变异程度大于体重的变异程度B身高的变异程度等于体重的变异程度C身高的变异程度小于体重的变异程度D身高的变异程度与体重的变异程度之比为5:3E因单位不同,无法比较7、测得200名正常成年男子的血清胆固醇值(mmol/L),为进行统计描述,下列说法不正确的是____。A可用频率表法计算均数B可用直接法计算均数C可用直接法计算标准差D可用加权法计算标准差E可用直条图表示频率分布图(二)A2型以下提供若干案例,每个案例下设若干道题目。请根据题目所提供的信息,在每一道题下面的A、B、C、D、E五个备选答案中选择一个最佳答案。调查测定某地107名正常人尿铅含量(mg/L)如下:尿铅含量O~4~8~12~16~20~24~28~合计例数14222918156121071、描述该资料的集中趋势,宜用____。A均数B中位数C几何均数D众数E极差2、描述该资料的离散趋势,宜用____。A极差B方差C四分位数间距D标准差E变异系数9二、简答题1、描述定量变量集中趋势的指标有哪些,各自意义及适用条件。2、描述定量变量离散趋势的指标有哪些,各自意义及适用条件。10第三章定性变量的统计描述本章大纲要求【掌握】常用相对数指标,相对数应用的注意事项;标准化法的基本思想,直接法的计算及间接法中SMR的意义,标准化法的注意事项。【熟悉】动态数列及其指标。【了解】医学人口统计常用指标。【重点内容详解】第一节三类相对数一、频率型指标最常见,表示某现象发生的频率大小。特点:分子与分母具有相同的单位,分子是分母中的一部分,无量纲,其值不会超过1。二、强度型指标单位时间内某现象发生的频率。三、相对比型指标任何两个相关联的指标A,B之比。(A、B可以是绝对数;可以是相对数;可以是性质相同的,也可以是性质不同的)四、应用相对数应注意事项:1、分析时不能以构成比代替率;2、计算相对数时分母不能太少;3、对观察单位数不等的几个率求合计率时,不能将其直接相加求平均率;4、注意在比较相对数时应具备可比性。第二节医学人口统计常用指标一、医学人口统计资料的来源(一)人口普查资料人口普查是收集、整理和分析一个国家或一定地区在某一特定时间的人口、经济和社会资料的全过程。(二)人口抽样调查资料相对省力,并且能在较短时间内得到调查资料和研究结果;可推论总体的11相应特征。(三)日常工作记录按照常规报告制度所做的原始记录。出生、死亡、迁移;孕产妇死亡卡、5岁及以下儿童死亡登记等等。二、描述人口学特征的常用指标(一)人口总数一个国家或地区在某一特定时间的人口数。惯例:7月1日零时为标准时刻。国际上两种统计人口的方法:实际制:只统计标准时刻某地实际存在的人口数(包括临时在该地的人);法定制:只统计某地的常住人口数。从医学的角度看,实际制较好,如传染病的防治及计划生育管理等。(二)人口构成及其统计指标(表3-4)(三)人口死亡统计世界卫生组织“死亡”定义:“在出生后的任何时候,全部生命现象永远消失称为死亡”。“胎儿死亡”不应包