医学统计学1、应用相对数时应注意的事项①计算相对数时分母不能太小;②分析时不能以构成比代替率;③当各分组的观察单位数不等时,总率(平均率)的计算不能直接将各分组的率相加求其平均;④对比时应注意资料的可比性:两个率要在相同的条件下进行,即要求研究方法相同、研究对象同质、观察时间相等以及地区、民族、年龄、性别等客观条件一致,其他影响因素在各组的内部构成应相近;⑤进行假设检验时,要遵循随机抽样原则,以进行差别的显著性检验。2、正态分布的特点及其应用性质:①两头低中间高,略呈钟形;②只有一个高峰,在X=μ,总体中位数亦为μ;③以均数为中心,左右对称;④μ为位置参数,当σ恒定时,μ越大,曲线沿横轴越向右移动;σ为变异度参数,当μ恒定时,σ越大,表示数据越分散,曲线越矮胖,反之,曲线越瘦高;⑤对于任何服从正态分布N(μ,σ2)的随机变量X作的线性变换,都会变换成u服从于均数为0,方差为1的正态分布,即标准正态分布。应用:①概括估计变量值的频数分布;②制定参考值范围;③质量控制;④是许多统计方法的理论基础。3、确定参考值范围的一般原则和步骤、方法一般原则和步骤:①抽取足够例数的正常人样本作为观察对象;②对选定的正常人进行准确而统一的测定,以控制系统误差;③判断是否需要分组测定;④决定取单侧范围值还是双侧范围值;⑤选定适当的百分范围;⑥选用适当的计算方法来确定或估计界值。方法:①正态分布法:②百分位数法(偏态分布)4、总体均数的可信区间与参考值范围的区别概念:可信区间是按预先给定的概率来确定的未知参数μ的可能范围。参考值范围是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。计算公式:可信区间①②③参考值范围①正态分布②偏态分布用途:可信区间用于总体均数的区间估计参考值范围用于表示绝大多数观察对象某项指标的分布范围5、标准差与标准误的区别与联系区别:含义:标准差反映观察值在个体中的变异大小,标准差越大,变量值越分散;标准误是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以及样本统计量与总体参数的差异程度,即抽样误差的大小。计算方法:标准差:总体标准差:样本标准差:标准误:均数的标准误:率的标准误:用途:标准差①用于对称分布,特别是正态分布资料,表示观察值分布的离散程度②结合均数,描述正态分布的特征、估计参考值范围③结合样本统计量,计算均数标准误④计算变异系数⑤反映均数的代表性标准误①衡量样本均数的可靠性②估计总体均数的可信区间③用于均数的假设检验与样本例数的关系:随着样本量的增加,样本标准差稳定于总体标准差;随着样本量的增加,样本标准误减少并趋于0。联系:二者均为变异度指标,样本均数的标准差即为标准误,标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数。6、假设检验的步骤①建立假设与确定检验水准(α)(反证法思想)H0:μ1=μ2无效假设H1:μ1≠μ2备择假设检验水准:α=0.05(双侧或单侧)②选定方法和计算检验统计量:根据资料的性质(变量类型、设计类型、资料组数、样本含量等)和分析目的选择检验统计量。所有检验统计量均在无效假设成立的前提下,可以证明其分布。③确定P值,作出判断(利用小概率原理)P值是指在H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端情况下的概率。P≤α(0.05),拒绝H0,接受H1,认为差别有统计学意义,可以认为......不同或不等;Pα(0.05),接受H0,拒绝H1,认为差别无统计学意义,还不能认为......不同或不等。④结合专业知识下结论。7、假设检验时应注意的问题①样本具有代表性且可比;②正确选用假设检验方法;③差别的统计学意义不等于实际意义;④判断结论时不能绝对化;⑤单侧检验与双侧检验的选择;⑥报告结果应注明样本含量、统计量值、P值,单侧检验也应注明;95%CI既能说明差别的大小,也具有检验的作用,建议使用。8、方差分析的基本思想、基本条件基本思想:①首先将总变异分解为组间变异和误差(组内)变异,然后比较两者的均方,即计算F值。②若F值大于某个临界值,表示处理组间的效应不同;若F值接近甚至小于某个临界值,表示处理组间效应相同(差异仅仅由随机原因所致)。③对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。④不同之处在于变异分解的项目因设计不同而异。基本条件:①资料无偏性,各样本是相互独立的随机样本(独立性);②各样本来自正态分布总体(正态性);③各样本组的总体方差相等(方差齐性)。9、R×C表χ2检验的应用注意事项1.采用专用公式计算χ2值,无须计算理论频数,但也必须求出最小理论频数。2.对R×C表,若T5的个数超过所有理论频数个数的1/5或有T1的格子出现,则易犯第一类错误。此时应:①增大样本含量②根据专业知识将相邻的行或列进行合理合并,一般仅对有序分类合并③精确概率法④似然比χ2检验⑤删去T过小的行或列,但会丢失相应信息3.多组样本率或构成比比较时,若效应有强弱的等级时,χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。4.当结果变量为无序分类时,可采用χ2检验;当结果变量为有序分类时,可考虑趋势检验或等级相关分析。10、简述直线相关与回归的区别与联系区别:资料:相关分析要求X、Y服从双变量正态分布回归分析要求应变量Y服从正态分布,x无特定要求应用:相关分析用于说明两变量间的相关关系,描述两变量X、Y之间呈线性关系的密切程度和方向回归分析用于说明两变量间的依存关系,可以用一个变量的数值推算另一个变量的数值联系:正负符号:对同一资料中,r与b的符号相同假设检验:对同一资料中,r与b的假设检验是等价的,二者的t值相等,tb=trr与b可相互转换回归可解释相关:相关系数r的平方称决定系数,表示Y的变异中可由X解释的部分占总变异的比例11、应用直线相关与回归的注意事项①作相关与回归分析要有实际意义。②对相关关系的作用要正确理解。③作相关与回归分析前必须先作散点图。④积差法计算相关系数r适用于正态资料;资料明显偏态或原始资料只能用等级划分或难以判定资料属何种分布时,才宜按等级相关处理。⑤相关、回归若无统计学意义,不等于无任何关系。⑥回归方程的适用范围仅适用于自变量X的实测范围内。12、相关系数的意义、应用直线相关的注意事项相关系数是用以说明在两个变量之间存在线性相关关系以及相关关系的密切程度与方向的统计指标。样本相关系数用r表示,总体相关系数用ρ表示。相关系数没有单位,其值为-1≦r≦1。r值为正表示正相关,r值为负表示负相关,r值为0表示X与Y无线性关系。r的绝对值越大表示相关越密切。①线性相关表示两变量之间的关系是双向的分析变量之间的关系;须首先绘制散点图,散点图呈直线趋势时再做分析;②r表示服从双变量正态分布的两变量间的相关关系,描述两变量之间呈线性关系的密切程度和方向;r=0只能说明X与Y之间无线性关系,并不表示X与Y之间无任何相关;③计算出相关系数是样本相关系数,是总体相关系数的估计值,因此判断总体相关时需做假设检验;④相关关系不一定是因果关系。**13、频数表的编制步骤①找出观察值中的最大值和最小值,并求出极差②按极差大小决定组段数、组段和组距③列出组段④划记计数**14、统计图的制图通则①据资料的性质和分析目的选择合适的图形②确切的标题与编号(在图的下方正中央位置)③纵、横轴之比为5:7,必要时注明度量单位④必要时辅以图例**15、t分布有如下性质:①单峰分布,曲线在t=0处最高,并以t=0为中心左右对称②与正态分布相比,曲线最高处较矮,两尾部翘得高③随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。**16、非参数统计的优缺点优点:①适用范围广,是对有序分类资料最有效的统计方法②对不满足参数统计的资料,非参数统计的效率高③搜集资料方便缺点:对适用参数统计的资料,应用非参数统计的效率低,即犯第II类错误的概率比参数统计大1、医学统计学:是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。2、变量:是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示。3、数值变量/定量变量/计量资料/定量资料:是以定量的方式来表示观察单位某项观察指标的大小,所得的资料称之为~,有度量单位。4、分类变量/定性变量/计数资料/定性资料:是以定性的方式来表示观察单位某项观察指标,所得的资料称之为~,无固有度量单位。5、有序分类/等级资料:是以等级的方式来表示观察单位某项观察指标,所得的资料称之为~,为半定量的观察结果,有大小顺序。6、同质:是指事物的性质、影响条件或背景相同或相近。7、变异:是指同质的个体之间的差异。8、总体:是根据研究目的所确定的同质观察单位的全体或集合,分为有限总体和无限总体。9、样本:是从总体中随机抽取的一部分观察单位所组成的集合。10、随机变量:是指取值不能事先确定的观察结果。11、统计量:是样本的统计指标,采用拉丁字母表示,是参数附近波动的随机变量。12、参数:是总体的统计指标,采用小写的希腊字母,为固定的常数。13、随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法,使总体中每个个体均有相同的机会被抽到。14、抽样误差:是由于个体差异导致在抽样研究中产生的样本统计量与相应的总体参数之间的差异以及统计量间的差异。15、确定性现象:在一定条件下,一定会发生或一定不会发生的现象。16、随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。17、频率:样本的实际发生率称为~,0≦f≦1。18、概率:随机事件发生的可能性大小,0≦P≦1。19、小概率事件:概率小于等于0.05或0.01的事件称为小概率事件,习惯上以0.05为标准,统计学上认为小概率事件在一次实验中是不大可能发生的。20、平均数:是反应一组观察值的集中趋势、中心位置或平均水平的指标体系,常用的指标有均数、几何均数、中位数。21、中位数:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,适用于任何分布、开口资料、偏态分布。22、百分位数:是指一种位置指标,用Px表示,一个百分位数将按大小顺序排列的变量值分为100份,旦论上有x%的变量值比它小,有(100-x)%的变量值比它大,对应x%位次的数值。23、标准差:方差是指样本观察值的离均差平方和的均值,方差的正平方根为标准差,表示一组数据的平均偏离程度。24、变异系数:是指标准差与均数之比,常用百分数表示,没有单位,主要用于度量衡单位不同或均数相差悬殊的几组资料间的比较。25、相对比:是指A、B两个有联系的指标之比,用于说明A为B的若干倍或百分之几,是对比的最简单形式。26、构成比:是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,用以说明某一事物内部各组成部分所占的比重或分布。27、率:是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,用以说明某种现象发生的频率大小或强度。28、率的标准化/标化率:即采用统一的标准对内部构成不同的各组频率进行调整和对比的方法,调整后的率为标准化率/标化率/调整率。29、统计表:是以表格的形式列出统计分析的事物及其指标,它可避免长篇文字叙述,并具体列出数据。30、统计图:是用点的位置、线段的升降、直条的长短或面积的大小等形式表达统计资料,它可直观醒目地反映出事物间的数量关系。31、正态分布:靠近均数分布的频数最多,两边频数逐渐减少并且近似对称,这种两头低中间高、略呈钟形、左右近似对称的连续性分布称为~。32、参考值范围:是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。33、标准误:是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以及样本统计量与总体参数的差异程度