1第四章 医学统计学 目录 统计学概述 资料特征的描述性分析 资料的统计推断 常用卫生统计指标 统计图表 统计学概述 统计学的基本概念(重点掌握) 总体 总体是根据研究目的确定的同质研究对象(或称观察单位、个体)的总和;或者更确切地说,总体是根据研究目的确定的同质研究对象(或观察单位、个体)某种变量值的总和。分为有限总体和无限总体。 有限总体是指总体范围内的个体数是可知的,通常有其时间或空间范围; 无限总体则指总体范围内的个体数不可知,有时甚至是抽象的。 无论是有限总体还是无限总体,在实际的研究中除非有必要,通常都是从总体中抽取部分个体进行观察、研究,并从这一部分个体的情况推论总体状况,这样的研究方法即为抽样研究,所观察或研究的部分个体即为样本。 样本 样本是从总体中随机抽取的部分个体。随机抽取的意义在于使样本对总体具有代表性,从而使得“由部分个体推论总体”具有科学性和可信性。样本中所含的个体数称之为样本含量,用符号n表示。 概率指随机事件发生的可能性的大小,用符号P来表示。 P值介于0~1之间,P=0表示该事件不会发生,P=1表示该事件必然发生。大多数随机事件发生的概率在0~1之间,其P值越接近于1,发生的可能性越大;其P值越接近于0,发生的可能性越小。 统计学上把P≤0.05或P≤0.01的事件称为小概率事件,即实际中可以认为概率在此范围内的事件几乎不会发生。这一小概率事件原理是统计推断的基本原理之一。 描述总体特征的指标称为参数,如总体均数μ、总体标准差σ、总体率π等。 由样本数据计算得到的指标值称为统计量,如中位数M、样本标准差s、t检验统计量t值、方差分析统计量F值、χ2检验统计量χ2值等。 变量及其分类 变量的概念 变量是指研究中观察单位的某种特征,亦可称为观察指标。如一个人的特征可有性别、年龄、身高、血压等,一个家庭的特征可有家庭结构、家庭人均收入、人均居住面积等。 变量是由变量名和变量值组成的,如性别是变量名,其值为男、女;血压为变量名,其值为80mmHg或100mmHg等。 变量的分类 变量可根据分析内容或其性质进行分类。 1.按分析内容分类 可将变量分为因素性变量和结果性变量。如在病人生命质量调查问卷中,反映生命质量的各条目得分是结果性变量,而与生命质量有关的年龄、性别、经济收入即为因素性变量。 因素性变量也常常作为分组变量。 2.按变量性质分类 (1)数值变量(定量变量、定量指标):变量值是连续的,通常有度量衡单位。 由数值变量构成的资料称为计量资料、定量资料。 (2)分类变量(定性变量、定性指标):表现为不同类别或属性。 由分类变量构成的资料称为分类变量资料。 分类变量资料又可分为计数资料和等级资料。 ①计数资料是将观察单位按事物的某种属性或类别分组,再计数各组的观察单位数所得的资料,如性2别、职业、血型等; ②等级资料是将观察单位按事物某种属性的不同程度分组,再计数各组的观察单位数所得的资料,它的分组是按等级排序的,具有一定的量的概念,也称之为半定量资料,如尿蛋白检测结果以-、+、++、+++等表示或疗效以无效、显效、临床控制、治愈表示等。 资料类型的转换 一般来说,定量的资料,即数值变量资料可转移为分类变量资料或等级变量的资料。 如100人的血红蛋白值构成一份定量资料,但亦可按医学参考值将其分为正常和贫血,此时即为分类资料;或按不同水平分级分为正常、轻度贫血、中度贫血和重度贫血,此时即为等级资料。 资料的类型只能从定量向半定量或定性转换,或者从半定量向定性转换,无法反向转换。 统计分析的基本步骤 1.统计设计 统计设计是根据研究目的,按照统计学原理,对整个研究中所涉及的方法学内容作出全面的计划。包括研究对象和研究因素的界定、观察指标的选择、抽样方法或实验方法的确定、对照的设立、随机化的分组、样本含量的估计等准备工作的设计;调查表或实验记录表格的设计、研究参与者或调查员的培训、误差的估计和控制等实施阶段的设计;资料整理、录入、分析方法的设计等总结阶段的设计等。这是整个统计工作的起点,是后续步骤的依据,是数据分析的前提。 2.收集资料 这是按照统计设计的要求实施调查或试验,获取原始数据的过程。医学资料的来源主要有以下两个方面: (1)利用现有资料:包括各类统计报表,如经常性工作记录和既往做过的调查研究报告等。 (2)进行专项调查研究:根据研究目的制订科学、周密的研究计划,按科学研究设计要求,有针对性地收集所需资料。3.整理资料 通过调查或试验获得的原始数据,往往是没有条理、杂乱无章的,因而整理资料的过程就是使数据条理化、系统化的过程。它是统计分析数据的准备阶段,主要包括数据的审核、根据分析目的进行分组整理或编制频数分布表等。 4.分析资料 数据的统计分析包括统计描述和统计推断。 统计描述就是用适当的指标或统计表、统计图等描述资料的特征。 统计推断是指用样本信息推断或估计总体状况的过程,包括参数估计和假设检验。参数估计即用样本指标估计总体指标,如用样本均数估计总体均数,用样本率估计总体率等;假设检验是运用误差规律,根据概率论原理对要比较的样本指标间的差异或变量间的相互关系作出推论。 资料特征的描述性分析 定量资料的统计描述 集中趋势的描述 平均数是用于描述一组同质的数值变量集中趋势的一个指标系列,是均数、几何均数、中位数、众数、调和均数等多指标的通称,它反映一组变量值的平均水平。医学研究中常用的平均数有算术均数、几何均数、中位数。 1.算术均数 算术均数简称均数。总体均数记作μ,样本均数记作。该指标适用于对称分布,尤其是正态或近似正态分布的资料。3 (1)直接法:当观察值的个数不多时可直接计算。 (2)加权法:当资料中相同观察值的个数较多时,可用加权法,加权法用于频数表资料。式中f为组段频数,χ为组中值。组中值=组段下限+组段上限/2。 例:对某社区123名糖尿病患者餐后2小时血糖,用加权法计算平均血糖值。 组段(mmol/L)(1)频数f(2)组中值x(3)fx(4)=(2)(3)7.0~38.525.510.0~711.580.513.0~1114.5159.516.0~1717.5297.519.0~2520.5512.522.0~2623.5611.025.0~1526.5397.528.0~929.5265.531.0~632.5195.034.0~37.0435.5142.0合计123—2686.5 2.几何均数 记作G。该指标适用于:①变量值呈等比级数关系的资料,如血清抗体滴度的资料;②对数正态分布的资料,即某些偏态分布的资料,当将变量值取对数后又呈现正态分布的资料。 (1)直接法:当观察值的个数不多时可直接计算。 公式: 例:测得5人的血清IgG抗体滴度为1:20,1:40,1:80,1:40,1:20,求其平均抗体滴度。 (2)加权法 例:40名麻疹易感儿接种麻疹疫苗后一个月,血凝抑制抗体滴度,试求其血凝抑制抗体的平均滴度。 抗体滴度(1)人数f(2)滴度倒数x(3)lgx(4)flgx(5)=(2)(4)1:4140.60210.60211:8580.90314.51551:166161.20417.22461:322321.50513.010241:647641.806212.64341:128101282.107221.07201:25642562.40829.63281:51255122.709313.5465合计40——72.2471 3.中位数 一组按由小到大顺序排列的数据,位次居中的变量值即为中位数,记作M。中位数适用于:①明显偏态分布或总体分布型不明的资料;②开放型数据,即数据的一端或两端没有界限的资料。 (1)直接法:先将观察值按大小顺序排列,然后计算。 (2)频数表法: 例:151例慢性胃炎患者住院时间(天),计算中位住院时间。 住院天数频数累计频数累计频率(%)0~707046.3615~5412482.1230~1614092.7245~514596.0360~414998.6875~115099.3490~015099.34105~1151151100.00 4.百分位数 以P×表示,一个百分位数P×将总体或样本的全部观察值分成两部分,理论上有的观察值比它小,有(100-×)%的观察值比它大,故百分位数是一个界值,也是分布数列的百等份分割值,P50百分位数也就是中位数。 5.平均数指标的正确应用 (1)对称分布(尤其正态或近似正态分布)资料首选均数; (2)对数正态分布资料应首选几何均数,等比级数资料必选几何均数; (3)其他分布情况则使用中位数。 离散趋势的描述 例:三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。5 定量资料的统计描述 1.极差(亦称全距)它反映一组观察值的波动范围,记作R。极差是一组数据中最大值与最小值之差。 该指标数值越大说明变异度越大;反之说明变异度越小。它适用于任何分布类型的资料。但因其只受两侧极端值的影响,故反映一组观察值的变异程度时较粗糙,也不够稳定。 2.四分位数间距 四分位数间距是上四分位数QU(P75)与下四分位数QL(P25)之差,记作Q。 该指标的适用条件同中位数,而且通常与中位数(亦称第50百分位数)结合,全面描述偏态分布或总体分布不明资料的特征。 3.方差 总体方差记作σ2,样本方差记作S2。 4.标准差 将方差开平方即为标准差,总体标准差记作σ,样本标准差记作s。 标准差的适用条件与均数相同,而且通常与均数结合全面描述正态或近似正态分布资料的特征。标准差越大,说明变量值越分散,即变异度越大。 5.变异系数 记作CV。若各组数据观察指标的度量衡单位不同或虽单位相同但均数相差较大时,则应计算变异系数进行比较。 例:某地20岁男子100名,其身高均数为166.06(cm),标准差为4.95(cm);体重均数为53.72(kg),标准差为3.96(kg)。身高与体重的变异度何者为大。 身高CV=4.95/166.06×100%=2.98% 体重CK=3.96/53.72×100%=7.37% 正态分布及应用 1.正态分布的基本概念 正态分布又称高斯分布,是医学和生物界最常见的分布。如身高、体重、红细胞数、血红蛋白、血压等的分布均属于正态分布。 正态分布是以均数为中心,低于均数的人数与高于均数的人数大致相等,越接近均数,人数越多,离均数越远,人数逐渐减少,形成了以均数为中心两侧基本对称的钟形分布。这种资料在医学现象中很常见,称为正态分布。 正态分布具有下列特征: (1)正态曲线在横轴上方,均数处最高。 (2)正态分布以均数为中心,左右对称。6 (3)正态分布有两个参数,即均数μ与标准差σ。μ是位置参数,当σ固定不变时,μ越大,曲线越向右移动。σ是变异度参数,μ不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。 (4)正态曲线下的面积具有一定的分布规律。 2.正态曲线下面积的分布规律 无论μ和σ取值如何,正态曲线与横轴间的面积都是1或100%,而曲线下的面积分布具有如下规律: 实际工作中,我们常需了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分比(频数分布)或观察值落在该区间的概率。常用的两个区间是μ±1.96σ及μ±2.58σ,二者的区间面积分别占总面积(或总观察例数)的95.00%及99.00%。当我们计算得到了均数和标准差时,就可按照正态曲线下的面积分布规律掌握资料的频数分布特征。 3.正态分布的应用 (1)正态分布是很多统计方法的理论基础:后面要讨论到的t分布、F分布、×2分布等都是在正态分布的基础上推导出来的。某些分布,如t分布、二项分布、Poisson分布等的极限均为正态分布,在一定条