口腔执业医师考试辅导预防医学第1页医学统计学方法一、基本概念和基本步骤统计学的几个基本概念总体与样本总体(population):根据研究目的确定的同质的研究对象,其某项变量值的全体。某省2000年14岁男孩的身高抽样(sampling):从研究总体中随机抽取一部分有代表性的个体的方法。样本(sample):从研究总体中随机抽取的一部分有代表性的个体(其某项变量值的全体)。统计推断(inference):利用样本信息推断总体特征。同质与变异同质(homogeneity):除了试验因素外,影响被研究指标的非实验因素相同被称为同质。一个总体中有许多个体大同小异,存在共性,这些个体处于同一总体。某省2000年14岁男孩的身高变异(variation):在同质基础上个体间的差异。变异性是统计学的根本需要误差误差观察值与实际值的差别为误差。观察过程中由于不认真仔细,造成错误地判断、记录或录入计算机所致的观察值与实际值之差为一过失误差;仪器若未经校准,使观察值统一地都偏低或偏高则为系统误差;由于偶然的因素使同一个样品的测定值在不同的观察者之间或者相同观察者的若干次观察值之间不完全相同,则被称作随机测量误差;从同一总体中抽样.得到某变量值的统计量之间或与总体参数之间的差别,被称为抽样误差。抽样误差(samplingerror)定义:由个体变异产生,由抽样引起的总体指标(参数)与样本指标(统计量)以及样本指标之间的差异口腔执业医师考试辅导预防医学第2页特点:不可避免目的:减小抽样误差方法:减小个体间的差异;增大样本含量参数与统计量参数(parameter):是由总体中个体值计算出来的用于描述总体特征的指标。其大小是客观存在的,然而往往是未知的。统计量(statistic):是由样本中个体值计算出来的用于描述样本特征的指标。统计学关心的常常是总体参数的大小,其依据却是统计量及其性质。概率(Probability)定义:描述随机事件发生可能性大小的数值(P)取值范围:不可能事件必然事件估计方法:当n足够大时,用频率估计概率小概率事件:某随机事件发生可能性很小含义:在一次试验或观察中某随机事件发生可能性很小资料类型变量:根据研究目的,对研究对象的某个或某些特征(研究指标或项目)实施观测,这些特征(指标或项目)称为变量(variable)资料(数据):变量的取值(变量值)口腔执业医师考试辅导预防医学第3页医学统计工作的基本步骤【例题】下面的变量中,属于分类变量的是A.脉搏B.血型C.肺活量D.红细胞计数E.血压『正确答案』B二、定量资料的统计描述统计描述:利用统计表、图以及统计指标描述资料的数量特征及其分布规律口腔执业医师考试辅导预防医学第4页描述数值变量资料的集中趋势指标——平均数平均数:它是一类指标,统计中常用的平均数包括:算术平均数、几何平均数、中位数。平均数的选取:根据资料的分布类型(一)算术平均数算术平均数简称均数,总体均数—,样本均数—1.适用条件:对称分布,特别适用于正态或近似正态分布资料2.计算方法:(1)直接法—观察单位较少公式:某市10名4岁女孩的身高(cm)分别为:112.9,108.0,99.8,102.5,116.3,105.6,100.7,103.2,104.9,98.9,试求其均数。口腔执业医师考试辅导预防医学第5页(2)频表法—观察单位较多时(二)几何均数几何均数(geometricmean)用G表示。1.适用条件:观察值呈倍数关系或对数正态分布,多用于描述抗体的平均滴度等。2.计算方法:(一)直接法—观察单位较少公式:例题某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度分别为1:10,1:20,1:40,1:40,1:160,求抗体的平均滴度。解:平均指标选用几何均数(观察值呈倍数关系)首先取观察值的倒数5份血清抗体效价的平均滴度为1:34.8(2)加权法—频数表资料公式:例题:69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布如下,求其平均抗体滴度。某医院预防保健科用流脑疫苗为75名儿童进行免疫接种,1个月后测定其抗体滴度如下表所示,试求其平均滴度。75名儿童的平均抗体滴度计算表抗体滴度滴度倒数XlgX频数fflgX1:41:81:161:321:641:128481632641280.60210.90311.20411.50511.80622.10724921201252.40848.127925.286130.102021.674410.5360口腔执业医师考试辅导预防医学第6页1:2562562.408249.6328合计——75107.7676(三)中位数中位数(median)用M表示,是一组观察值按由小到大的顺序排列后,位于中间位置上的那个数值。1.适用条件:(1)变量值中出现个别特小或特大的数值(2)资料的分布呈明显的偏态(3)变量值分布一端或两端无确定数值,只有小于或大于某个数值(90)。(4)资料的分布不清2.计算方法:(1)当样本含量为奇数时,1,8,2,4,12→1,2,4,8,12(2)当样本含量为偶数时,1,8,2,4,12,3→1,2,3,4,8,12(四)百分位数百分位数(percentile)用Px(第x百分位数)表示,也是一种位置指标,观察值按由小到大的顺序排列后,一个百分位数Px将全部变量值分为两部分,其中有x%的变量值比它小,(100-x)%变量值比它大。P50=M适用条件同中位数频数表法:L:第X百分位数所在组段的组下限i:组距fx:第X百分位数所在组段对应的频数ΣfL:为小于L的各组段的累计频数例题测得某地200名正常人发汞值(μg/g),试计算其平均水平及P75百分位数。某地200名正常人发汞值频数分布口腔执业医师考试辅导预防医学第7页组段(μg/g)(1)频数f(2)频率(%)(3)累计频数(4)累计频率(%)(5)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~4.3205046302516642110.025.023.015.012.58.03.O2.01.00.5207011614617118719319719920010.035.058.073.085.593.596.598.599.5100.0合计200100.0——三、定量资料的离散趋势(变异程度)指标离散趋势(一)极差(全距)1.定义:极差(R)=最大值-最小值极差越大变异程度越大。例:甲乙两组球员身高资料如下:甲组:184,186,188,190,192乙组:180,184,188,192,196甲乙两组的集中趋势相同(有相同的平均水平),但离散程度不同(乙组大于甲组)。也就是说,即考虑集中趋势,又要考虑离散趋势,这样才能全面对数值变量资料进行描述。2.应用范围:适用于任何分布类型的资料,描述偏态分布资料。3.优缺点优点:计算简单、概念清晰。口腔执业医师考试辅导预防医学第8页缺点:(1)只考虑了最大值与最小值,容易受个别极端值的影响,且不能反应组内其它变量值的变异情况。(2)受样本含量影响,不稳定(一般样本含量越大越有机会观察到偏小或偏大的数据)。(二)四分位数间距1.定义:2.应用范围:适用于任何分布类型的资料,主要和中位数一起描述偏态分布资料。3.优缺点优点:要比极差稳定缺点:仍未考虑到全部观察值的变异程度(三)方差公式的由来(四)标准差由于方差的单位是原单位的平方,因此为了应用方便,对方差进行开方得到,该公式就是样本的标准差。标准差的简化公式方差和标准差主要应用于正态分布(五)变异系数1.应用条件:反映资料的相对变异程度。常用于比较度量衡单位不同或均数相差悬殊的两组(或多组)资料的变异度。2.公式:例比较单位不同的几组资料的离散程度某年某市城区120名5岁女孩身高均数为110.15cm,标准差为5.86cm,体重均数为17.71kg,标准差为1.44kg,比较其离散程度。例比较均数相差悬殊的几组资料的离散程度某年某市城区120名5岁女孩体重均数为17.71kg,标准差为1.44kg,同年该地120名5个月女孩体口腔执业医师考试辅导预防医学第9页重均数为7.37kg,标准差为0.77kg,比较其离散程度。【例题】正态分布资料宜用()来描述其集中趋势A.算术平均数B.标准差C.几何均数D.变异系数E.四分位数间距『正确答案』A【例题】变异系数越大说明A.标准差越大B.标准差越小C.均数越大D.均数越小E.以均数为准变异程度大『正确答案』E【例题】数列8,-3,5,0,1,4,-1的中位数是A.2B.0C.2.5D.0.5E.1『正确答案』E【例题】原始数据呈倍数关系的资料,宜用()描述其分布的集中趋势A.算数均数B.几何均数口腔执业医师考试辅导预防医学第10页C.极差D.中位数E.百分位数『正确答案』B【例题】离散程度指标中,最容易受极端值影响的是A.极差B.标准差C.变异系数D.方差E.四分位数间距『正确答案』A正态分布正态分布是医学和生物学中最常见,也是最重要的一种连续性分布,如正常人的身高,体重,红细胞数,血红蛋白等。我们可以从频数表和频数图对正态分布进行研究。120名正常成年男子红细胞计数的频数表(×1012/L)组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)3.20~21.721.73.50~54.275.93.80~108.31714.24.10~1915.83630.04.40~2319.25949.24.70~2420.08369.25.00~2117.510486.75.30~119.211595.95.60~43.311999.25.90~6.2010.8120100.0合计120100.0——长方形的高度等于频数口腔执业医师考试辅导预防医学第11页频数分布以均数为中心,向两侧逐渐减少,并且基本对称长方形的面积等于频率所有长方形面积之和等于1或100%利用正态分布曲线特点来描述正态分布的特征(一)正态分布的概念和特征1.概念如果随机变量x的分布服从概率密度函数,则称x服从正态分布,记作,μ为x的总体均数,σ为总体标准差。2.正态分布的特征(1)在直角坐标的横轴上方呈钟形曲线,两端与x轴永不相交,且以x=μ为对称轴,左右完全对称。(2)在x=μ处,f(x)取最大值,其值为,并且x越远离μ,f(x)值越小。口腔执业医师考试辅导预防医学第12页(3)正态分布有两个参数:一个为位置参数μ,一个为形态参数σ。3.正态分布曲线下的面积分布规律(二)标准正态分布正态分布是一个分布组族,对应于不同的参数μ和σ会产生不同位置、不同形状的正态分布,为了应用方便,我们将正态分布转化成标准正态分布。由于我们实际面对的大多是正态分布,因此可采用如下的方法求其曲线下面积:口腔执业医师考试辅导预防医学第13页正态分布的应用例:调查某单位101名正常成年女子的血清总胆固醇,得其均数,标准差。试估计该单位正常女子血清总胆固醇在4.00mmol/L以下者及5.00mmol/L以下者各占正常女子总人数的百分比。【例题】下列关于正态分布描述错误的是A.是医学和生物学中常见的一种连续型分布B.正态分布曲线的对称轴是x=μ这条直线C.正态分布曲线有两个参数,μ为形态参数,σ为位置参数D.正态分布曲线是一簇曲线E.正态分布曲线下的总面积为1『正确答案』C【例题】在正态曲线下,区间所包含的面积为A.1%B.1.5%C.97%D.2%E.95%『正确答案』D【例题】下列关于标准正态分布的说法中错误的是A.标准正态分布曲线下总面积为1B.标准正态分布是总体均数为0,总体标准差为1的正态分布C.标准正态分布的曲线是一簇曲线D.标准正态分布是对称分布E.不同的正态分布都可以通过变换转化为标准正态分布『正确答案』C口腔执业医师考试辅导预防医学第14页四、定量资料的统计推断-总体均数的估计和假设检验计量资料总体均数的参数估计:假设检验:(四)假设检验的原理和步骤(五)t检验(一)均数的抽样误差和标准误(衡量抽样误差大小的指标)例若某