常用的几种统计方法宿州市立医院心内一科田真前言学习统计学方法,主要目的在于建立统计学观念,提高医学统计学思维,学会运用统计学理论和方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,并据此写出严谨的研究报告和学术论文。呋喃硝胺100人西米替丁100人疗效85人疗效90人例如:某医生比较两种疗法对活动期十二指肠球部溃疡的疗效。据此能否立即下结论,呋喃硝胺的疗效高于西米替丁?显效有效无效合计单纯西药925640冠心灵1918542冠心灵与单纯西药疗效对比问题:某医师用“冠心灵”治疗冠心病,其疗效是否优于单纯西药?授课提纲医学统计学概述统计工作的基本步骤统计资料的类型医学统计中的基本概念常用的几种统计方法一、医学统计学概述定义是用统计学原理和方法研究生物医学问题的一门学科。医学统计方法在医学研究中的运用主要有三个方面:一、医学统计学概述①以正确的方式收集数据,如实验设计、调查设计等。②描述数据的统计特征,如数据化简、统计指标的选择与计算、统计结果的表达等。③统计分析及得出正确结论,如根据概率分布,对实验和观察结果存在的差异和关联作出统计推断。工作生活中常见的统计学问题如何判断药物的疗效?(假设检验)明天是否下雨?体育彩票能否中奖?(概率论)子女为什么象父母,其强度有多大?(相关与回归)美国的民意测验是如何进行的?(设计,抽样)中国的市场调查的可信性有多大?(现场调查)统计学是对令人困惑费解的数字问题做出设想的艺术。医学论文中的统计学问题60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%~72%。1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。60年代到80年代,国外医学杂志调查表明:20%~72%的论文有统计错误。1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果为:相对数误用占11.2%,抽样方法误用占15.9%,统计图表误用占11.7%1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。2001年《中华预防医学杂志》:中华医学会系列杂志误用约54%(1995)。1996年,有机构对申报科技成果的4586篇科研论文分析,统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。伪造统计数据违反科学道德1976年NewScience杂志关于科研舞弊行为的调查(1)74%的调查表反映有不正当修改数据的情况(2)17%拼凑实验结果(3)7%凭空捏造数据(4)2%故意曲解结果二、统计工作的基本步骤设计收集资料整理资料分析资料1.专业设计:选题、建立假说、确定研究对象和技术方法等→个性2.统计设计:围绕专业设计确定统计设类型、样本大小、分组方法、统计分析指标及统计分析方法。(一)设计(二)收集资料(一)资料来源第一手资料①经常性:统计报表(死亡登记、疫情报告等),工作记录(病历、化验);②一时性:专题调查、实验或临床试验。第二手资料:已公布的资料,如全国、全省卫生统计资料。(二)收集资料(二)资料要求1.完整:观察单位及观察项目完整。观察单位:最基本的获取数据的单元。可以是一个体,亦可以是一个单位、家庭、地区,一批样品,一个采样点。2.准确:即真实、可靠。真实是统计学的灵魂。3.及时:即时限性。如人口普查规定调查开始日期和截止日期。(三)整理资料整理资料即原始数据的条理化、系统化的过程。所采取的手段→合理化分组,目的→实现专业目标。质分组:按事物的属性或性质分组→分类变量;量分组:按数据的大小→数值变量。(四)分析资料1.统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行测定和描述。2.统计推断:用样本信息推断总体特征:①参数估计。②假设检验。三、统计资料的类型有三种类型的资料:计量资料,计数资料,等级资料基本概念:变量及变量值,研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值),称为资料。按变量值的性质可将资料分为定量资料和定性资料。1.计量资料定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。特点:有度量衡单位多为连续性资料(通过测量得到)如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012/L)定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位多为间断性资料(通过枚举或记数得来)如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)2.计数资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。①癌症分期:早、中、晚。②药物疗效:治愈、好转、无效、死亡。③尿蛋白:,,,++,+++及以上3.等级资料对观察对象按属性或类型分组计数所得的资料。每个对象之间没有量的差异,只有质的不同。资料的类型计量资料(数值变量或定量资料)计数资料(无序分类变量或定性资料)等级资料(有序分类变量或半定量资料)对每一观察对象用定量的方法,测定某项指标所得的资料。一般有度量衡单位,每个对象之间有量的区别。对观察对象按属性或类型程度的不同分组计数,但各属性或类型之间又有程度的差别。(1)不同类型的资料采用的统计分析方法不同;(2)三类资料类型可以相互转化。注意:例:某地调查高血压的患病情况。每人的血压:以mmHg计计量资料以舒张压≥90mmHg为高血压,结果在1000人中有10名高血压患者,990名非高血压患者,整理后的资料计数资料按低血压、正常、高血压分组所得资料。等级资料四、统计学中的基本概念(一)总体与样本1、总体(population)根据研究目的所确定的同质的所有观察单位某项变量值的集合。有关总体的三个要点:研究目的、同质的、全体观察对象:该地2002年全部正常成人同质:同一地区、同一年份、同为正常成人全体:该地2002年全部正常成人白细胞数目的:了解某地2002年正常成人白细胞数观察单位:每个人观察值:测得的白细胞数例如:了解某地2002年正常成人白细胞数四、统计学中的基本概念(二)变异:同质基础上个体值之间的差异,称为变异。同质:指观察单位或观察指标受共同因素制约的部分。例如,同种族、同年龄、同性别的健康人,在相同的条件下测其脉搏、呼吸、体温等生理指标可以有很大差异。四、统计学中的基本概念(三)参数和统计量1.参数:总体指标。2.统计量:样本指标。(四)抽样误差1.定义:在统计学上把由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异统称为抽样误差。四、统计学中的基本概念(五)概率概率:是描述随机事件发生的可能性大小的数值。(1)必然事件:P(A)=1(2)不可能事件:P(A)=0(3)随机事件(偶然事件):0<P(A)<1(4)小概率事件:P≤0.05或P≤0.01t检验不是处理计数资料的万能方法双向无序,两个分类变量皆为无序分类变量,一般用卡方检验。单向有序资料,采用秩和检验。双向有序且属性相同,研究目的通常是分析两种检测方法的一致性,此时应用一致性检验。双向有序属性不同,根据具体情况可选择秩和检验,等级相关分析或者线性趋势检验。卡方检验不是处理计数资料的万能方法表5-1两种方法治疗慢性乙型肝炎的疗效比较方法有效数无效数合计有效率(%)肝炎灵注射液5196085.00常规疗法27245152.94合计783311170.27卡方检验秩和检验或Ridit分析原则:选择最恰当的统计指标准确描述资料的特征。非正态分布计量资料正态分布SX),(,7525PPMd计数资料率或比X2检验X2检验或称卡方检验,是一种用途较广的假设检验方法,常用于检验两个或多个样本率及构成比之间有无差别,还用来检验配对定性资料及两种属性或特征之间是否有关系等。2检验的适用资料两组样本率的比较;多组样本率的比较;两组或多组构成比的比较;配对设计下两分类资料检验。一、四格表资料的检验四格表资料的检验主要用于两个样本率(或构成比)的假设检验,一般制成表6-2的计算格式(以阳性和阴性为例)。表6-2四格表资料检验计算表组别阳性数阴性数合计甲组aba+b乙组cdc+d合计a+cb+da+b+c+d=nX2检验的基本公式为理论频数TTTA22nnnTCRRC•条件:n>40,T>=5四格表检验专用公式省去计算T值))()()((22dbcadcbanbcad例6.7以例6.6资料为例表6-3用药组和对照组流感发病率的比较组别发病人数未发病人数合计用药组14(20)86(80)100对照组30(24)90(96)120合计44176220两种方法计算结果125.496969024243080808620201422222125.4176441201002203086901422结果判断X2临界值:X20.05,1=3.84,请记住:X20.01,1=6.63,X2=u2本例:X2=4.125X20.05,1=3.84,两组差别有统计学意义。与前面的结论相同。四格表值的校正条件:(1)任一格的1≤T<5,且n≥40时,需计算校正值。(2)任一格的T<1或n≤40时,用确切概率计算法。TTA225.0))()()((222dbcadcbannbcad基本公式专用公式例6.8某医师用甲、乙两疗法治疗小儿单纯性消化不良,治疗结果如表6-4,问两疗法的治愈率是否相等?表6-4甲、乙两疗法治疗小儿单纯性消化不良的治愈率比较组别发病人数未发病人数合计用药组26(28.8)7(4.2)33对照组36(33.2)2(4.8)38合计62971计算结果及判断本例:X2=2.71X20.05,1=3.84本例若对X2值不校正,α=4.06,得P0.05,结论正好相反。74.296238337127136722622三、行×列表的检验行×列表(R×C表)的检验主要用于解决多个样本率或多个样本构成比的比较以及有序分类资料的关联性检验。122CRnnAn式中n为总例数,A为每格子的实际频数,nR、nC分别为与某格子实际频数(A)同行、同列的合计数。行×列表资料的检验的注意事项1.理论数不宜太小,一般不宜有1/5以上格子的理论频数小于5,或有一个理论频数小于1。对理论数太小有三种处理方法:①最好增加样本含量以增大理论频数;根本的方法。②删去理论频数太小的行和列;此法不好。③将理论频数较小的行或列与邻行或邻列合并以增大理论频数。但后两法可能会损失信息,行×列表资料的检验的注意事项2.当多个样本率(或构成比)比较的检验,结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间不全相等,但不能认为彼此间都不相等。若要比较彼此间的差别,可用下述的行×列表的分割法。3.对于行×列表单向等级资料(单向有序资料)组间的比较,宜用第八章秩和检验,如作卡方检验法只说明各处理组的效应在构成比上有无差异,而不能说明组间整体效应的差异。t检验与u检验的应用条件两组数值变量资料比较;小样本时用t检验,要求资料为随机样本并服从正态分布;大样本时用u检验,仍要求资料为随机样本,但正态性条件可以放宽;在两样本均数比较的t和u检验中,要求两组总体方差相等,即方差齐性;组间要求具有均衡可比性。单样本均数的t检验0,1/XtnSn对于总体标准差未知的小样本数据(n60),单样本均数的假设检验采用t检验,计算公式为例通过以往大规模调查,已知某地新生儿出生体重均数为3.30kg。从该地难产儿中随机抽取35名新生儿作为研究样本,平均出