人人为我,我为人人!第1页共48页卫生统计学复习材料第一章统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。第二节、统计学的几个重要概念一.资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。一般有度量衡单位,每个对象之间有量的区别。2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。每个对象之间没有量的差异,只有质的不同。3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。从总体中随机抽取样本的目的是:用样本信息来推断总体特征。四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。亦称偶然事件。五、概率描述随机事件发生可能性大小的数值,记作P,其取值范围0≤P≤1,一般用小数表示。P=0,事件不可能发生必然事件(随机事件的特例);P=1,事件必然发生;P→0,事件发生的可能性愈小;P→1,事件发生的可能性愈大六、小概率事件习惯上将P≤0.05或P≤0.01的随机事件称小概率事件。表示某事件发生的可能性很小。七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。第三节统计工作的基本步骤统计设计收集资料整理资料分析资料一、统计设计1、调查设计2、实验设计(详见第十三章)人人为我,我为人人!第2页共48页二、收集资料资料来源(1)统计报表(2)日常医疗工作原始记录和报告卡(3)专题调查三、整理资料1.目的将收集的原始资料系统化、条理化,便于进一步计算和分析2.整理分组方式(1)性质分组(2)数量分组三、分析资料1、统计描述2、统计推断第四节统计图表一、统计表1、统计表的作用代替冗长的文字叙述,便于计算、分析和对比。2、统计表的结构1)标题2)标目横标目(主语):说明表各横行数字的涵义,通常列在表的左侧纵标目(谓语):说明表各纵栏数字的涵义主语和谓语连贯起来能读成一句完整而通顺的话3、统计表的种类:1)简单表:只按单一变量分组2)组合表:按两个或两个以上变量分组某地1980年男、女HBsAg阳性率━━━━━━━━━━━━━━━━性别调查数阳性数阳性率(%)────────────────男42343037.16女45301814.00──────────────合计87644845.52━━━━━━━━━━━━━━━━4、列表原则:重点突出,简单明了;主谓分明,层次分明5、统计表的基本要求:1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。常见的缺点:过于简略,甚至不写标题;或过于繁琐;或标题不确切。2)标目:文字简明扼要,有单位的标目要注明单位。常见的缺点:标目过多,层次不清3)线条:不宜过多,除上面的顶线,下面的底线,纵标目与合计之间的横线外,其余线条一般均省去。表的左上角不宜有斜线。4)数字:A、数字一律用阿拉伯数字表示B、同一指标的小数位数应一致,位次对齐C、表内不宜留空格,暂缺或未记录,用“…”表示,无数字,用“—”表示,数字为0,填写0D、绝对数太小而无法计算指标,则用“…”代替。5)备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。二、统计图1、统计图作用:通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。但需注意,由于统计图对数量的表达较粗糙,不便于作深入细致的分析,一般需附相应的统计表。2、常见统计图种类:人人为我,我为人人!第3页共48页条图、百分条图,圆图,线图,半对数线图,直方图,散点图3、制图的基本要求:1)按资料的性质和分析目的,选用适合的图形2)要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。横轴与纵轴坐标长度比例一般为5:74)比较不同事物,用不同线条或颜色表示,并附上图例说明。4、常见统计图适用范围及其绘制要点1)条图:(1)适用范围:相互独立的资料,常用形式:单式和复式(2)绘制要点:A.用等宽的直条的长短反映各指标的数量大小。B.纵轴的尺度必须从0开始。C.各直条之间的间隙应相等,一般将比较的指标按大小顺序排列。2)百分条图:(1)适用范围:构成比资料(2)绘制要点:A.将长条全长为100%,B.将各百分构成比在长条上分割若干段,C.各段按大小顺序排列。3)圆图(1)适用范围:构成比资料(2)绘制要点:A.将圆面积为100%,B.将各百分构成比乘以3.6度,变为圆心角度数,C.在圆上绘出各扇型面积D.各扇型面积按大小顺序排列。4)普通线图(1)适用范围:连续性资料(2)绘制要点:A.纵横轴均用算术尺度,B.纵横轴尺度比一般为5:7C.相邻两点用直线连接。(3)意义:反映事物的变化趋势。5)半对数线图(1)适用范围:连续性资料(2)绘制要点:A.横轴用算术尺度,纵轴用对数尺度,B.纵横轴尺度比一般为5:7C.相邻两点用直线连接。(3)意义:反映事物的变化速度。6)直方图(1)适用范围:计量的频数表资料(2)绘制要点:A.横轴表示被观察事物,纵轴表示频数或频率,B.用等宽的矩形面积表示各组段的频数或频率7)散点图:(1)适用范围:双变量资料人人为我,我为人人!第4页共48页(2)分析目的:用点的密度程度和趋势表示两变量间的相关关系(3)绘制要点(见第五章)第二章数值变量(计量)资料的统计分析第一节计量资料的统计描述一、计量资料的频数分布(一)频数表的编制1、求极差(全距)R=最大值-最小值=132.5-108.2=24.32、求组距(i)i=极差/组数=24.3/10=2.4≌23、分组段原则:第一组段包括最小值,最后组段包括最大值。每一组段都有上限和下限上限:组段的终点(最大值)下限:组段的起点(最小值)4、列表划记(二)频数分布的特征1、集中趋势:数据向某一数值集中的倾向2、离散趋势:数据的数值大小不等的倾向(三)频数分布的类型1、对称分布:集中位置在中间,左右两侧频数大体对称2、偏态分布:(1)正偏态:集中位置偏向数值小的一侧;(2)负偏态:集中位置偏向数值大的一侧(四)频数表的用途:1、揭示资料的分布特征和分布类型2、便于进一步计算指标和统计分析3、便于发现特大或特小的可疑值二、集中趋势的描述人人为我,我为人人!第5页共48页(一)常用平均数的种类:1、算术均数(简称均数)2、几何均数3、中位数(二)算术均数(均数)样本均数用X表示,总体均数用μ表示1、适用范围:对称分布,尤其是正态分布的资料2、计算方法:(1)直接法X=∑X/n(2)加权法适用于频数表资料X=∑fX/∑f其中X=组中值=(上限+下限)/2f=频数(三)几何均数(简记为G)1、适用范围:(1)等比级数资料,如血清滴度资料(2)对数正态分布资料2、计算方法:(1)直接法G=log-1(∑logX/n)(2)加权法G=log-1(∑flogX/∑f)(四)中位数(简记M)1、中位数的定义:中位数:将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。在全部观察值中,大于和小于中位数的观察值的个数相等。2、中位数的适用范围:(1)偏态分布资料(2)分布不明资料(3)分布末端无确定值资料(开口资料)理论上,中位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是开口资料。在对称分布资料中,M=X3、计算方法:(1)直接法:适用于观察数少资料n为奇数时,M=X(n+1)/2n为偶数时,M=(Xn/2+X(n/2+1))/2(2)频数表法:适用于频数表资料步骤:①从小到大计算累计频数和累计频数;②确定中位数所在组段;③计算中位数MM=LM+iM/fM(n/2-∑fL)LM=M所在组段的下限iM=M所在组段的组距fM=M所在组段的频数人人为我,我为人人!第6页共48页∑fL=小于L各组段的累计频数M在8~组段L=8i=4fX=48∑fL=26n=108M=L+i/fX(n/2-∑fL)=10.33(五)小结:常用平均数的意义及其应用场合平均数意义应用场合─────────────────────────均数平均数量水平最适用于对称分布,特别是正态分布几何均数平均增(减)倍数等比资料或对数正态分布中位数位次居中的观察值(1)偏态分布,(2)分布不明,(3)分布末端无确定水平三离散趋势的描述甲组26,28,30,32,34.X甲=30乙组24,27,30,33,36.X乙=30丙组26,29,30,31,34.X丙=30(一)反映离散程度的常用指标:1、极差2、四分位数间距3、方差4、标准差5、变异系数(二)极差(全距)R1、计算公式:R=最大值-最小值2、意义:R愈大,离散度愈大,R愈小,离散度愈小。3、优点:计算简单,意义明了4、缺点:(1)不能反映每一个观察值的变异;(2)样本例数越大,R可能越大;(3)R抽样误差大,不稳定。(三)四分位数间距(简记Q)1.百分位数(记作PX)(1)定义:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。P50分位数也就是中位数。(2)计算步骤与公式①从小到大计算累计频数和累计频数;②确定百分位数所在组段;③计算百分位数Px人人为我,我为人人!第7页共48页Px=L+i/fx(n.x%-∑fL)L=Px所在组段的下限i=Px所在组段的组距fx=Px所在组段的频数∑fL=小于L各组段的累计频数如计算P25P25在8~组段L25=8,i25=4,f25=48,∑fL=108,n=108P25=L25+i25/f25(n.25%-∑fL)=8.083计算P75P75在12~组段L75=12,i25=25,f75=4,∑fL=74,n=108P75=L75+i75/f75(n.75%-∑fL)=13.1202.四分位数间距(1)计算公式:P25:下四分位数简记QLP75:上四分位数简记QU四分位数间距Q=QU-QL=13.120-8.083=5.037(2)意义:中间一半观察值的极差,与R意义相似。(3)特点:A.比R稳定,但仍未考虑每一个观察值的变异;B.常用于描述偏态资料的离散度。(四)方差(总体方差简记σ2,样本方差简记S2)一组观察值的离均差平方和,取其均数,即方差。1、计算公式:Nx22)(1)(22nxxs2、意义:方差越大,离散度越大;方差越小,离散度越小。(五)标准差(总体标准差简记σ,样本标准差简记S)1、定义:方差的开方,即标准差。Nx2)(1)(2nxxs2、意义:与方差的意义相同人人为我,我为人人!第8页共48页3、样本标准差计算方法:(1)直接法:1/)(22nnxxs(2)加权法:1/)(22fffXfXs4.应用:(1)用于表示正态或近似正态分布资料的离散度;(2)结合均数描述正态分布的特征;(3)计算标准误。(4)计算变异系数(六)变异系数(简记CV)1、计算公式:CV=S/X×100%2、用途: