汤在祥博士/副教授苏州大学医学部公共卫生学院Email:tangzx@suda.edu.cnTEL:159-6221-5800QQ/微信:65-617-464医学统计学基础知识•卫生统计学一门运用统计学,尤其是数理统计学的原理和方法,研究医学科研及卫生工作中有关数据的收集、整理、分析的科学。•卫生统计学是一门应用学科,是应用统计学的一个分支。第一节医学统计学的概念及其作用(掌握)用数量反映质量;用群体归纳个体。特点:研究对象:随机事件(偶然事件)非确定性事件不可能事件确定性事件必然事件第一节卫生统计学的定义和内容卫生统计学的主要内容1.按卫生统计工作的基本步骤划分,包括:研究设计收集资料整理资料分析资料(掌握)包括资料收集、整理和分析全过程总的设想和安排抽样方法或设计方案样本含量(大小)的确定设计1、统计报表:国家法定的有关卫生工作报表、传染病报表、职业病报表、医院工作报表等。2、日常工作记录:医院的病例、经常性的卫生监测记录、健康检查记录等。3、专题调查或实验:针对某个专题做的调查或实验研究所收集的资料。资料的三个来源:内容:数据录入、核查和汇总目的:使资料系统化和条理化整理资料:分析资料统计推断又包括两个内容:参数估计和假设检验。统计分析包括:统计描述(descriptivestatistics)统计推断(inferentialstatistics)2.按统计学方法的层次划分⑴基本统计方法:统计图表、定量资料的统计描述、定性资料的统计描述,参数估计,两组定量(或等级)资料平均值的比较,多组定量(或等级)资料平均值的比较,定性资料统计指标的比较,两变量间关系的分析。⑵高级统计方法:多因素对某定量指标的影响分析,多因素对某定性指标的影响分析,随访时间资料的分析,判别分析,重复测量设计两组或多组定量资料均数的比较。第二节统计学中的几个基本概念研究单位所研究对象中的个体。研究因素所要研究的研究对象的某个或某些性质。一、研究单位和研究因素统计的研究对象是由个体构成的群体,必需给个体规定一些相同的因素(各种特征),这样的群体才有研究意义,这些规定的相同因素就称为同质(homogeneity)。二、同质和变异同质是相对的,研究对象的因素很多,不可能都相同,一般只要规定对研究指标有影响的主要因素相同,即为同质。同质的基础上观察单位之间的差异称为变异(variation)。变异是由不可控制的因素产生的。二、同质和变异总体(population)根据研究目的所确定的同质观察单位或某项特征观测值的集合。总体分有限总体和无限总体。个体(individual)是构成总体的最基本的观察单位。样本(sample)从总体的全部观察单位中随机抽取的部分观察单位或某项特征观测值的集合。三、总体、样本、个体(掌握)随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。样本中所包含的个体或个体值的个数称为样本含量(samplesize)随机抽样是指按随机原则从总体中获取样本(总体中的每个个体都有同等机会被抽取)。参数与总体相对应,又称为总体参数,是指根据总体个体值统计计算出来的描述总体的特征量。统计量与样本相对应,又称为样本统计量,是指根据样本数据按有关统计公式计算出的用来描述样本的统计指标。四、参数和统计量(掌握)统计中用于推断的统计量如t、u和χ2等称为推断统计量或检验统计量。误差:测量值和真实值之间的差(系统误差和随机测量误差),样本指标与总体指标之间的差(抽样误差)(掌握)从所研究的总体中,用随机化的方法,抽取一定数量的个体构成实际加以研究的样本,根据实际观察到的样本所提供的信息应用统计方法对相应的总体做科学的统计推断,这样的研究方式称为抽样研究。五、抽样研究与抽样误差由抽样造成的样本统计量与总体参数,样本统计量之间的差别称为抽样误差(samplingerror)。抽样误差是随机误差,是不可避免的。但可用抽样设计来控制(减小)抽样误差。六、统计资料的类型变量每个观察单位被测量和观察的某项特征。变量值对变量的测得值,亦称为资料。对个体的定量特征(定量因素或定量指标)的描述,其取值是定量的,表现为数值大小,有单位,又称为数值变量资料(numericalvariable)或称为计量资料。(一)定量因素和定量资料(掌握)定性因素和定性资料(分类资料)对个体的定性特征(定性因素或定性指标)的描述,其观察值是定性的,表现为互不相容的类别或种属。也称为计数资料。包括二分类变量和多分类变量。(二)定性因素和定性资料(掌握)(三)等级资料治愈,好转,有效,无效-,-/+,+,++,+++,++++,+++++各类变量之间的转化定量资料分类资料等级资料分类资料、等级资料赋值0、1、2、3……定量资料Hb(g/l)分正常、偏低两类贫血程度:重度、中度、轻度、正常频率将随机试验重复n次,n次试验中随机事件A共发生m次,则n/m表示随机事件A发生的频率。七、频率和概率概率是描述随机事件可能发生的量。用P表示,⑴概率的统计定义当试验次数n趋向于无穷的大时,频率m/n的极限值即为概率,即。10p七、频率和概率limnmPn历史上许多科学家都做过投硬币实验:次数n正面朝上的次数nH频率f德.摩根204810610.5181蒲丰404020480.5064K.皮尔逊1200060190.5016K.皮尔逊24000120120.5005概率推断是按一定的概率用样本信息推断总体的特征,即统计推断含有一定概率。小概率事件:P0.05(或0.01)小概率事件原理:即小概率事件在一次抽样中一般认为不会发生。第二章计量资料的统计描述1.能够了解频数分布表的编制方法及分布图的绘制,并以此描述资料的频数分布特征。2.能够掌握各种集中趋势指标的计算,特点及其适用条件。3.能够掌握各种离散趋势指标的计算,特点及其适用条件。4.能够了解正态分布的概念、特征及应用,掌握标准正态分布的基本规律。学习目标:对于大样本的观察数据,频数分布表(frequencydistributiontable)频数分布图(frequencydistributiondiagram)是两种简单明了考察与描述数据的重要方法。第一节频数分布表与频数分布图一、频数分布表(frequencydistributiontable)例2.1表2.1是某医院产科某月100个顺产婴儿出生身长的资料(单位:cm),试列出频数分布表。(数据集:例02-01.sav)表2.1某医院产科某月顺产婴儿出生身长(单位:cm)48484742534945504852495746484642495150515642594948524249555351454747475048515153464757454651465147515547524748544754494453544548444842474850555053564950564153534944494845525246545044534947484551455053表2.2某医院产科某月顺产婴儿出生身长频数分布组段(cm)频数f相对频数(%)累计频数累计相对频数(%)41~66.066.043~44.01010.045~1313.02323.047~2323.04646.049~1818.06464.051~1414.07878.053~1313.09191.055~66.09797.057~5933.0100100.0合计100100.0--频数分布表制作步骤如下:1.计算极差找出数据中最大值与最小值,计算二者之差,称为极差或全距(range),常用R表示。2.确定组数根据样本容量n对数据进行分组。为了显示分布特征,组数不宜太多或太少。通常可分为5~15组,常用k表示。3.确定组距一般都用等距,且用“极差/组数”之商最接近的整数值作为组距(classinterval),常用d表示。4.确定各组段的上、下限通常要求第一组段的下限要略小于最小值,最末组段的上限要略大于最大值。另外,采用半开闭区间,确保每个数据只能落在一个组区间内。需要注意的是,最末一组通常为闭区间。5.计算频数、相对频数组段确定后将原始数据用划记法或计算机计算频数,得到各个组段的频数fi,并计算相对频数vi,i=1,2,…,k,列入表格之中。本例数据中,最小值为41,最大值为59,极差R=18。18/10=1.8,取整数2.0为组距d,组数k=9。表2.2某医院产科某月顺产婴儿出生身长频数分布组段(cm)频数f相对频数(%)累计频数累计相对频数(%)41~66.066.043~44.01010.045~1313.02323.047~2323.04646.049~1818.06464.051~1414.07878.053~1313.09191.055~66.09797.057~5933.0100100.0合计100100.0--二、频数分布图(frequencydistributiondiagram)图2.1100名顺产婴儿出生身长的频数分布直方图Histogram第二节集中趋势的描述集中趋势(centraltendency)是指某计量资料的大多数观察值所在的中心位置。描述集中趋势的主要统计指标有均数、几何均数和中位数,这些指标也称为位置度量指标(measuresoflocation)。(掌握)一、均数均数(mean),即算术均数(arithmeticmean)总体均数用希腊字母(读作mu)表示,样本均数用X表示。用以描述一个随机变量观测值的平均水平。(掌握)二、几何均数几何均数(geometricmean),常用G来表示,等于一个变量的所有n个观察值的乘积的n次方根。其公式为)lg(lg)lglglg(lg1121121nXnXXXXXXGniinnn)lg(lg111kiikiiifXfG加权法(掌握)例2.4某医院药敏试验中,测得10例患者环丙沙星对葡萄球菌的最低抑制浓度(mg/L),分别为0.25000,0.03125,0.06250,0.06250,0.03125,0.03125,0.03125,0.25000,0.50000,1.00000。计算此10例观测值的几何均数。由于环丙沙星对葡萄球菌的最低抑制浓度呈严重偏态。故宜采用式(2.3)计算其样本几何均数)()()(mg/L0.1015=0.9934-lg=)/10lg1.00000+lg0.50000+lg0.25000+lg0.03125+lg0.03125+lg0.03125+lg0.06250+lg0.06250+lg0.03125+lg0.25000(lg1-1-G三、中位数中位数(median),常用M表示,是将一组变量值按大小顺序排列,位于正中间位置的数值。中位数是一个位置指标,以中位数为界,将变量值分为左右两半,即各50%。将观察值由小到大排列,n为奇数时,2/)1(nXM(2.5)n为偶数时,)(2112/2/nnXXM(2.6)(掌握)第三节离散趋势的描述一、极差与四分位数间距极差,又称为全距(range,R)是所有观察值中的最大值(maximum,Max)与最小值(minimum,Min)之差。其计算公式为:R=Max-Min(掌握)统计学将特殊的三个分位数X25%、X50%和X75%统称为四分位数(quartile)。并且分别称为第一四分位数、第二四分位数和第三四分位数,记为Q1、Q2和Q3。即,Q1=X25%,Q2=X50%=M,Q3=X75%。并且称Q3与Q1的差值为四分位间距(quartilerange,Q),其计算公式如下:Q=Q3-Q1=X75%-X25%对于同单位的变量,四分位间距越大,变量的观察值变异越大。(掌握)二、方差与标准差nXNii122)((2.11)1)(122nXXSnii(2.12)(掌握)nXNii12)(1)(1)(211212