预防医学第三篇复习思考题及参考答案第十三章医学统计学方法的基本概念和基本步骤1.举例说明总体与样本的关系。总体是根据研究目的确定的同质的所有观察单位某项观察值(变量值)的集合。例如研究某地2002年正常成人白细胞数,观察对象是该地2002年全部正常成人,观察单位是每个人,观察值是每人测得的白细胞数,则该地2002年全部正常成人的白细胞数就构成了一个总体;从总体中随机抽取部分观察单位其某项指标的实测值组成样本。从上述的某地2002年正常成人中随机抽取150人,这150正常成人的白细胞数就是样本。抽取样本的目的是用样本的信息推论总体特征。2.简述3种变量类型的特征。(1)数值变量的变量值是用定量方法测量的,表现为数值的大小,一般有计量单位;(2)无序分类变量的变量值是用定性方法得到的,表现为互不相容的类别或属性,但各类别间无程度上的差别,包括二项分类和多项分类;(3)有序分类变量的变量值也是用定性方法得到的,也表现为互不相容的类别或属性,但各类别之间有程度上的差别。第十四章数值变量的统计描述1.均数、几何均数和中位数的适用范围是什么?(1)均数适用于描述对称分布,特别是正态分布的数值变量资料的平均水平;(2)几何均数适用于描述原始数据呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的数值变量资料的平均水平;(3)中位数适用于描述呈明显偏态分布(正偏态或负偏态),或分布情况不明,或分布的末端有不确切数值的数值变量资料的平均水平。2.全距、四分位数间距、方差、标准差、变异系数各有何特点?(1)全距是一组观察值中最大值与最小值之差,计算简单,意义明了,但全距的不能反映组内其他观察值之间的离散情况,并且容易受个别特大值或特小值的影响,稳定性较差;(2)四分位数间距内包括了全部观察值的一半,可看作为中间一半观察值的全距,它比全距稳定,但仍未考虑每个观察值的离散度,它适用于描述偏态分布资料,特别是分布末端无确定数据资料的离散度;(3)方差是离均差平方和的均数,克服了全距和四分位数间距不能反映组内每个观察值离散度的缺点,但方差把观察值的原度量单位变成了平方单位,导致计算结果难于解释;(4)方差开方,即为标准差,它适宜于描述对称分布,特别是正态分布的数值变量资料的离散程度;(5)变异系数是标准差与均数之比,它适宜于描述度量单位不同的观察值的离散程度和度量单位相同但均数相差悬殊的观察值的离散程度。3.制定医学参考值范围的一般原则是什么?(1)抽取样本含量足够大的“正常人”。一般认为样本含量应在100例以上,并以取得一个比较稳定的样本分布为原则。(2)对抽取的正常人进行准确而统一的测定,控制测量误差。(3)判断是否需要分组制定参考值范围。(4)决定参考值范围的单侧或双侧界值。(5)选择适当的百分界值。(6)根据资料的分布类型选用恰当的方法估计参考值范围。第十五章数值变量的统计推断1.标准差与标准误有何区别和联系?标准差和标准误都是变异指标,但它们之间有区别,也有联系。区别:①概念不同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽样误差;②用途不同;标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误用于估计参数的可信区间,进行假设检验等。③它们与样本含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。联系:标准差,标准误均为变异指标,当样本含量不变时,标准误与标准差成正比。2.参考值范围与可信区间有何区别?(1)意义不同:参考值范围是指同质总体中包括一定数量(如95%或99%)个体值的估计范围。可信区间是指按一定的可信度来估计总体参数所在范围。(2)计算方法不同:参考值范围用SuX计算。可信区间用XStX,或XSuX计算,前者用标准差,后者用标准误。3.何谓假设检验?其一般步骤是什么?所谓假设检验,就是根据研究目的,对样本所属总体特征提出一个假设,然后根据样本所提供的信息,借助一定的分布,观察实测样本情况是否属于小概率事件,从而对所提出的假设作出拒绝或不拒绝的结论的过程。假设检验一般分为以下步骤:①建立假设:包括:H0,称无效假设;H1:称备择假设;②确定检验水准:检验水准用α表示,α一般取0.05;③计算检验统计量:根据不同的检验方法,使用特定的公式计算;④确定P值:通过统计量及相应的界值表来确定P值;⑤推断结论:如P>α,则接受H0,差别无统计学意义;如P≤α,则拒绝H0,差别有统计学意义。4.方差分析的基本思想是什么?方差分析的基本思想是:根据研究资料设计的类型及研究目的,把全部观察值总变异分解为两个或多个组成部分,其总自由度也分解为相应的几个部分。例如完全随机设计的方差分析,可把总变异分解为组间变异和组内变异,即SS总=SS组内+SS组间,总的自由度也分解为相应的两部分,即ν总=ν组内+ν组间。离均差平方和除以自由度得均方MS,组间均方(MS组间)与误差均方(MS误差)之比为F值;如果各组处理的效应一样,则组间均方等于组内均方,即F=1;但由于抽样误差,F值不正好等于1,而是接近1;如果F值较大,远离1,说明组间均方大于误差均方,反映各处理组的效应不一样,即各组均数差别有意义,至于F值多大才能认为差别有意义,可查F界值表(方差分析用)来确定。5.t检验、u检验和F检验的应用条件各是什么?t检验的应用条件是:①σ未知而且n较小时,要求样本来自正态总体;②两小样本均数比较时,还要求两样本所属总体的方差相等。u检验的应用条件是:①σ已知;②σ未知但样本含量较大。方差分析的应用条件是:①各样本是相互独立的随机样本;②各样本来自正态总体;③各处理组总体方差相等。第二十一章统计表和统计图1.常用统计图的适用范围是什么?常用的统计图及适用条件是:①条图,适用于相互独立的资料,以表示其指标大小;②百分条图及远圆图,适用于构成比资料,反映各组成部分的大小;③普通线图:适用于连续性资料,反映事物在时间上的发展变化的趋势,或某现象随另一现象变迁的情况。④半对数线图,适用于连续性资料,反映事物发展速度(相对比)。⑤直方图:适用于连续性变量资料,反映连续变量的频数分布。⑥散点图:适用于成对数据,反映散点分布的趋势。2.普通线图和半对数线图在制作和应用中有何主要区别?普通线图绘制时,纵轴的尺度为算术尺度,并且一般应从“0”开始;而半对数线图纵坐标的尺度为对数尺度,起点没有0。应用上,普通线图反映某事物随时间变动的趋势或某现象随另一现象变迁的情况;而半对数线图用来比较两种或两种以上事物物随时间变动的速度(相对比)。复习思考题及其答案第十六章分类资料的统计描述1.应用相对数的注意事项应用相对数时应注意以下几个事项(1)计算率和构成比时观察单位不宜过小;(2)注意正确区分构成比和率,不能以比代率;(3)对率和构成比进行比较时,应注意资料的可比性;(4)当比较两个总率时,若其内部构成不同,需要进行率的标准化;(5)两样本率比较时应进行假设检验。2.简述率的标准化法的基本思想当比较两个总率时,如果两组内部某种重要特征在构成上有差别,则直接比较这两个总率是不合理的;因为这些特征构成上的不同,往往造成总率的升高或下降,从而影响两个总率的对比。率标准化法的基本思想就是采用统一的内部构成计算标准化率,以消除内部构成不同对指标的影响,使算得的标准化率具有可比性。例如比较两人群的死亡率、出生率、患病率时,常要考虑人群性别、年龄的构成是否相同;试验组和对照组治愈率的比较时,常要考虑两组病情轻重、年龄、免疫状态等因素的构成是否相同。如其构成不同,需采用统一的标准进行校正,然后计算校正后的标准化率进行比较,这种方法称为标准化法。第十七章分类资料的统计推断1.描述率的u检验的适用条件。进行率的比较时,在样本含量较大,且p和1-p不太小,即满足np和5)1(pn时,率的抽样分布接近正态分布,可按正态分布的原理处理资料,可进行u检验。2.简述2检验的的基本思想2检验是检验理论频数与实际频数的吻合程度,从基本公式(TTA22)()可以看出,在检验假设成立的情况下,T(理论频数)与A(实际频数)之差一般不会很大,此时2值也较小;反之,2值较大。当2值较大,且大于一定的界值时,就拒绝H0,接受H1,认为两样本率有统计学差异。当2值较小,且小于特定的界值时,就不拒绝H0,认为两样本率差异无统计学意义。3.简述当不满足行×列的2检验的条件时的处理办法。当不满足行×列的2检验的条件(R×C表中不宜有1/5的格子数小于5,或有一个格子的理论频数小于1时,可采用下述方法处理:(1)增大样本例数,(2)删除理论数较小的行和列,(3)将理论数较小的行或列与性质相近的行或列合并,但在合并时应注意合并的合理性。(2)和(3)两种处理方法会丢失部分信息。4.四格表的u检验和2检验有何联系与区别?相同点:(1)四格表的u检验是根据正态分布近似原理(n50且n,np5)凡是能使用u检验进行两个率比较的资料,都可以使用2检验,同一资料二者是等价的即u2=2(ν=1)。(2)u检验和2检验都存在连续性校正问题。不同点:(1)由于正态分布可确定单、双侧检验界值,当满足正态近似条件时,可用u检验进行单侧检验。(2)满足四格表u检验的资料,计算两率之间的95%可信区间,还可分析两度之差有无实际意义。(3)2检验不可用于检验2×2配对资料的关联性。第十八章非参数统计1.参数检验与非参数检验有何区别,各有何优缺点?(1)区别:参数检验:以已知分布(如正态分布)为假定条件,对总体参数进行估计或检验。非参数检验:不依赖总体分布的具体形式,检验分布位置是否相同。(2)优缺点:参数检验:优点是符合条件时,检验效能高。缺点是对资料要求严格,如等级资料、分布不明或末端有不明确数据的资料不能用参数检验,要求资料的分布类型已知且总体方差相等。非参数检验:优点是应用范围广、简便;缺点是对于符合参数统计的资料,如果用非参数统计会造成资料信息的丢失,致使检验效能下降,犯第二类错误的概率增大。故符合参数统计条件的资料,要首先选用参数统计的方法。当参数统计的应用条件得不到满足时,应选用非参数统计。2.简述非参数检验的适用资料。(1)等级资料;(2)偏态资料;(3)分布不明的资料;(4)资料中各组方差不齐,且转换后不能达到方差齐性。第十九章直线相关与回归分析1.直线相关与回归有何联系与区别?联系:(1)对符合相关回归条件的资料,其相关系数与回归系数的正负号相同。(2)回归系数与相关系数的假设检验是等价的,对同一样本的资料,回归系数的t检验与相关系数的t检验其数值相等,即tr=tb。(3)可以用回归解释相关。r的平方称为决定系数(coefficientofdetermination)总回SSSSllllllryyXXXYYYxxXY/222区别:回归要求因变量Y是正态分布的随机变量;X可以是精确测量或严格控制的变量,也可以是呈正态分布的随机变量,当X是精确测量或严格控制的变量时,此时的回归称Ⅰ型回归。当X是呈正态分布的随机变量时,此时的回归称为Ⅱ型回归。相关要求变量X、Y都是呈正态分布的随机变量。当说明两变量间依存变化的数量关系时用回归,当说明两变量间的相关关系时用相关。2.简述进行直线相关回归分析应注意的事项(1)相关分析注意的事项相关系数r是用来描述两个变量间线性相关关系的密切程度和方向的统计指标。所以,如果目的是想定量地描述两个变量间相互关系的密切程度和方向,则应作相关分析。而且,r的绝对值大小,对利用回归方程进行变量预测具有指导意义,如果r的绝对值很小,利用回归方程从一个变量预测另一个变量的值是没有多大意义的。应用相关分析时应注意的问题:①进行相关分析时要有实际意义,不能把毫无关联的两事物或现象作相关分析。②相关关系不一定是因果关系,可能仅是表面上的伴随关系,或两个变量同时受另一因素的影响。③不能只根据相关系数绝对值的大小来推断两事物现象之间有无相关以及相关的密切程度,而必须进行相关系数的显著性检验。另外,