第一章绪论1.举例说明总体和样本的概念。研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。2.简述误差的概念。误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。3.举例说明参数和统计量的概念。某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能够根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。4.简述小概率事件原理。当某事件发生的概率小于或等于0.05时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。第二章调查研究设计1.调查研究主要特点是什么?调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。2.简述调查设计的基本内容。①明确调查目的和指标②确定调查对象和观察单位③确定调查方法④确定调查方式⑤确定调查项目和调查表⑥制定资料整理分析计划⑦制定调查的组织计划。3.试比较常用的四种概率抽样方法的优缺点。(1)单纯随机抽样优点是:均数(或率)及标准误的计算简便。缺点是:当总体观察单位数较多时,要对观察单位一一编号,比较麻烦,实际工作中有时难以办到。(2)系统抽样优点是:①易于理解,简便易行②容易得到一个按比例分配的样本,由于样本相应的顺序号在总体中是均匀散布的,其抽样误差小于单纯随机抽样。缺点是:①当总体的观察单位按顺序有周期趋势或单调递增(或递减)趋势,系统抽样将产生明显的偏性。但对于适合采用系统抽样的情形,一旦确定了抽样间隔,就必须严格遵守,不能随意更改,否则可能造成另外的系统误差②实际工作中一般按单纯随机抽样方法估计抽样误差,因此这样计算得到的抽样误差一般偏大。(3)分层抽样优点是:①减少抽样误差:分层后增加了层内的同质性,因而观测值的变异度减小,各层的抽样误差减小,在样本含量先锋等的情况下其标准误一般小于单纯随机抽样、系统抽样和整群抽样的标准误②便于对不同的层采用不同的抽样方法,有利于调查组织工作的实施③还可对不同层进行独立分析。缺点是:当需要确定的分层数较多时,操作比较麻烦,实际工作中实施难度较大。(4)整群抽样优点是:便于组织,节省经费,容易控制调查质量;缺点是:当样本含量一定时,其抽样误差一般大于单纯随机抽样的误差,。4.常用的非概率抽样方法有哪些?有偶遇抽样、立意抽样、定额抽样、雪球抽样等。5.简述调查问题的顺序安排。调查问题顺序安排总原则:①符合逻辑②一般问题在前,特殊问题在后③易答题在前,难答题在后④如果采用封闭式和开放式相结合的问题,一般先设置封闭式问题⑤敏感问题一般放在最后。此外,在考虑问题顺序时,还应注意问题是否适合全部调查对象,并采用跳答的形式安排问题和给出指导语。第四章定量资料的统计描述1.均数、中位数、几何均数的适用范围有何异同?相同点是都用于描述定量资料的集中趋势。不同点:①均数用于单峰对称分布,特别是正态分布或近似正态分布的资料②几何均数用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料③中位数用于不对称分布资料、两端无确切值的资料以及分布不明确的资料。2.同一资料的标准差是否一定小于均数?同一资料的标准差不一定小于均数。均数描述的是一组同质定量变量的平均水平,而标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大,表示观察值之间变异大,即一组观察值的分布较分散;标准差小。表示观察值之间变异小,即一组观察值的分布较集中。若标准差远大于均数表明数据离散程度较大,可能为偏态分布,此时应考虑改用其他指标来描述资料的集中趋势。3.极差、四分位数间距、标准差、变异系数的适用范围有何异同?相同点是都用于描述资料的离散程度。不同点:①极差可用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度②四分位数间距可用于描述偏态分布资料、两端无确切值或分布不明确的资料的离散程度③标准差用于描述正态分布或近似正态分布资料的离散程度④变异系数用于比较几组计量单位不同或均数相差悬殊的正态分布资料的离散程度。4.正态分布有哪些基本特征?①正态曲线在横轴上方均数处最高②正态分布以均数为中心,左右对称③正态分布有两个参数,即位置参数μ和形态参数σ④正态曲线下的面积分布有一定规律,正态曲线与横轴间的面积恒等于1。曲线下区间(μ-1.96σ,μ+1.96σ)内的面积为95.00%;区间(μ-2.58σ,μ+2.58σ)内的面积为99.00%5.制定医学参考值范围时,正态分布法和百分位数法分别适用于何种资料?①通过大量调查证实符合正态分布的变量或近似正态分布的变量,可按正态分布曲线下面积的规律制定医学参考值范围,服从对数正态分布的变量,可对观察值取对数后按正态分布法算出医学参考值范围的对数值,然后求其反对数②对于经正态性检验不服从正态分布的变量,应采用百分位数法制定医学参考值范围。第五章、定性资料的统计描述1.应用相对数时需要注意哪些问题?①应有足够的观察单位数;②不能以构成比代替率;③计算观察单位数不等的及格率的合计率和平均率时,不能简单的把各组率相加求其平均值而得,而应该分别将分子和分母合计,再求出合计率和平均率;④相对数的比较应注意其可比性,如果内部构成不同,应计算标准化率;⑤样品率或样品构成比的比较应作检验假设。2.为什么不能以构成比代替率?率是指某现象实际发生数和某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。构成比是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,以说明事物内部各组成部分所占比重,不能说明某现象发生的频率或强度大小。3.标准化率计算的直接法和间接法的应用有何区别?如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法;当不知道被标化组的年龄别死亡率,只有年龄别人口数和死亡总数时,可采用间接法。4.常用动态数列分析指标有哪几种?各有何用途?绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。绝对增长量是指事物现象在一定时期增长的绝对值;发展速度与增长速度都是相对比指标,用以说明事物现象在一定时期的速度变化;平均发展速度是指一定时期内个环比发展速度的平均值,用以说明事物在一定时期内逐年的平均发展速度;与平均增长速度是说明事物在一定时间内逐年的平均增长速度。5.率的标准化需要注意那些问题?①仅用于相互间的比较,实际水平应采用未标化率来反映。②样品的标化率是样品指标,存在抽样误差,若要比较其代表的总体标准化率是否相同,需作假设检验。③注意直接法和间接法的选用。④各年龄组若出现明显交叉,或呈非平行变化趋势时,不适合采用标准化法,宜分层比较各年龄组率。此外,对于因其他条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。第六章总体均数的估计1、什么是均数的抽样误差?决定均数的抽样误差大小的因素有哪些?抽样研究中,由于同质总体中的个体间存在差异,即个体变异,因而从同一总体中随机抽取若干样本,样本均数往往不等于总体均数,且各样本均数之间也存在差异。这种由个体变异产生的、随机抽样引起的样本均数与总体均数间的差异称均数的抽样误差。决定均数抽样误差大小的因素主要为样本含量和标准差。2、样本均数的抽样分布有何特点?样本均数的抽样分布特点有:1、各样本均数未必等于总体均数;2、样本均数之间存在差异;3、样本均数服从正态分布;4、样本均数的变异范围较原变量的变异范围小;5、随着样本含量的增加,样本均数的变异范围逐渐缩小。3、阐述标准差与标准误的区别与联系。标准差与标准误的区别在于:1、计算公式不同;2、统计学意义:标准差越小,说明个体值相对越集中,均数对数据的代表性越好;而标准误越小,说明样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大;3、用途:标准差用于描述个体值的变异程度,标准误用于描述均数的抽样误差大小。标准差与标准误的联系:当样本量n一定时,标准误随标准差的增加而增加,公式为:看小抄。4、如何运用抽样分布规律估计总体均数?中心极限定理:从均数为u,标准差为σ的正态总体中进行独立随机抽样,其样本均数服从均数为u,标准差为σ/根号下u的正态分布;即使是从非正态总体中进行独立随机抽样,当样本含量逐渐增加时(n大于等于50),其样本均数的分布近似于均数为u,标准差为σ/根号下u的正态分布。σx越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。反之,σx越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。5、阐述总体均数的置信区间与医学参考值范围的区别。区别均数的置信区间医学参考值范围意义按一定的置信度(1-a)估计的总体均数所在的区间范围大多数“正常人”的某项解剖、生理、生化指标的波动范围计算公式1、σ未知……;2、σ未知而n较大……;3、σ已知……1、正态分布法:双侧95%的参考值范围为(……)用途用于总体均数的估计或假设检验判断观察对象的某项指标正常与否,为临床诊断提供参考第七章假设检验1、解释零假设与备择假设的含义。零假设又称无效假设或无差异假设,记为H0,表示目前的差异是由抽样误差引起的;备择假设又称对立假设,记为H1,表示目前的差异是因为比较的对象之间存在本质不同造成的。2、简述假设检验的基本步骤。假设检验的基本步骤如下:(1)建立检验假设,确定检验水准。(2)计算检验统计量。(3)确定P值,作出统计推断。3、比较单侧检验与双侧检验的区别。选用双侧检验还是单侧检验需要根据分析目的及专业知识确定。例如,在临床试验中,比较甲、乙两种治疗方法的疗效有无差异,目的只要求区分两方法有无不同,无需区分何者为优,则应选用双侧检验。如果有充分的理由认为甲法疗效不比乙法差,此时应选用单侧检验。若从专业角度无法确定的情况下,一般应采用双侧检验。4、解释I型错误、II型错误和检验效能,并说明它们之间的关系。拒绝实际成立的H0所犯的错误称为I型错误,记为α。不拒绝实际不成立的H0所犯的错误称为II型错误,记为β。如果两个总体参数间确实存在差异,即H1:μ≠μ0成立,按照现有检验水准,使用假设检验方法能够发现这种差异(即拒绝H0)的能力被称为检验效能,记为(1-β)。三者的关系为:当样本量确定时,α与β成反比,与(1-β)成正比。如果把α设置得很小,势必增加犯II型错误的概率,从而降低检验效能;反之,如果把重点放在减少β上,势必增加犯I型错误的概率,从而降低了置信度。要同时减小α和β,只有通过增加样本含量来实现。5、简述假设检验与置信区间估计的联系。假设检验与置信区间估计的联系是:二者都属于统计推断的范畴,且统计推断结论是等价的。此外,置信区间在回答差别有无统计学意义的同时,还能提供一些假设检验不能提供的信息,并可以提示差别是否具有实际意义。因此,置信区间