王辉公共卫生学院流行病与卫生统计学系流行病学调查资料分析时的质量控制主要内容:数据录入常用软件常用研究设计的统计学分析思路、方法和指标偏倚的测量决定验证假设所需的资料为得到所需资料,设计调查表和资料整理表收集资料数据录入和整理资料描述性分析:病例计数、频数分布、构成比、率联系的测定:四格表、显著性检验、可信区间计算分层分析:评价混杂因素和效应修正作用必要时作多因素分析必要时进一步深入分析合理解释结果,评价因果关系产生假设流行病学调查资料分析步骤流行病学资料录入和分析常用软件资料的整理规定变量的取值方法如:男性=1,女性=2,缺失=9录入资料时有章可循,正确地处理不可接受数值审查可与录入同步(Epidata)质量控制:范围核对逻辑核对及时纠正数据错误不能因调查结果不在取值范围而将数据随意改动现场审查,列出病例一览表数据录入和管理常见软件面对所收集的大量的原始资料,研究者必须对原始资料建立数据库、录入数据,并保证数据能真实反映资料所收集的信息,因此这些工作都需要数据管理软件来实现。EpiDataEpiInfoMSExcelMSFoxProMSAccess统计功能ⅹ√√√√录入量大√√ⅹⅹⅹ录入方便√√√ⅹⅹ双录核对√√ⅹⅹⅹ语言要求ⅹⅹⅹ√√各种软件操作方式不同,个人使用习惯不同,因人而异选择不同的软件。EpiData建立数据库数据录入数据库管理数据库输出与输入数据统计分析当数据录入和管理软件把所有收集的流行病学信息资料进行整理后,就进入流行病学研究的另外一个重要环节,即对资料进行分析处理,并对分析结果做出符合专业领域的合理解释。SPSSStataSAS一般用法容易较容易难数据管理不强较强强统计分析进行大多数统计分析进行大多数统计分析进行大多数统计分析绘图功能操作简单、质量极佳操作简单,无再编辑操作复杂,功能强大语言要求较少较多需经过专业学习语言总结真正统计,确实简单使用简单,功能强大适用于高级用户资料分析策略的制定为实际资料分析提供纲领和指南草拟资料整理表又称预期分析表(一系列)可按逻辑顺序可由简单到复杂可由描述到分析资料整理表资料描述整理表1类:临床特征描述2类:三间分布描述分析性研究整理表3类:2×2表(因素和疾病之间联系的基本表)4类:分层分析表(混杂因素、效应修正)5类:剂量反应关系6类:配比病例对照研究整理表举例Kawasaki综合征调查资料整理表整理表A川崎病临床症状频数分布项目病人数百分比(%)1.发热大于5天2.双眼结膜充血3.口腔改变(1)双唇充盈(2)咽充血(3)唇干裂(4)草莓舌4.皮肤和四肢改变(1)水肿(2)红斑(3)指(趾)甲脱落5.皮疹6.颈部淋巴结肿大≥1.5cm整理表B川崎病严重并发症病人频数分布并发症病人数构成(%)关节炎冠状动脉瘤其他并发症死亡整理表C川崎病病例特征项目特征病人数构成(%)年龄(岁)<11~2~3~4~5~≥6性别男女种族白人黑人亚裔整理表D川崎病病人家庭收入年均家庭收入(元)病人数构成(%)<1500015000~2999930000~44999≥45000整理表E川崎病病例地区分布地区名称病例数人口数罹患率(%)甲乙丙丁戊己整理表F川崎病病例发病时间分布日期病人数构成(%)X月1日X月2日X月3日X月4日X月5日X月6日X月7日X月8日X月9日X月10日X月11日X月12日整理表G川崎病与既往病史关系的病例对照研究病例对照合计OR=95%CL:χ2=P值既往病史有无合计整理表H川崎病与地毯清洁剂关系的病例对照研究病例对照合计OR=95%CL:χ2=P值使用地毯清洁剂有无合计整理表I川崎病与家庭收入关系的病例对照研究病例对照合计OR家庭年均收入(千美元)<1515~30~≥45合计一、描述性研究描述性研究现况研究(横断面研究)生态学研究历史常规资料的收集和分析随访监测研究现况研究又称横断面研究(cross-sectionalstudy),根据研究的人群范围或调查方式不同可分为:普查抽样调查个案调查追踪调查公共卫生监测(一)普查数据统计分析思路和方法1.统计应调查人数、实际调查人数,描述漏查率和应答率。2.描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。计数资料采用构成比(百分比)描述,计量资料采用均数±标准差描述。3.统计调查人群的总体指标,根据数据类型,分别描述总体的患病率、感染率等频率指标,或总体计量数据的集中和离散趋势指标(均数±标准差、百分位数等)。4.按社会人口学特征或暴露与否分组,统计、描述疾病和健康状态相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。(二)抽样调查数据统计分析思路和方法统计分析步骤:1.一般描述2.统计描述3.关联分析1.一般描述包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。(二)抽样调查数据统计分析思路和方法2.统计描述(1)计算有关统计指标,包括患病率、感染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。(2)结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述,如按时间-地区、地区-人群、时间-人群等不同分层方法进行描述。(二)抽样调查数据统计分析思路和方法3.关联分析对暴露和疾病的关系可作初步的关联分析,如:计量资料的比较采用t检验或方差分析(ANOVA)率的比较采用χ2检验或u检验。也可选择适当的自变量和因变量进行多因素分析,多重线性回归分析或Logistic回归分析。(三)生态学研究数据统计分析思路和方法通常采用比较、分析等常用的统计学处理技术。在描述研究因素与疾病或健康状况的关系时,通常以图示法直观表述。驱虫药与脑炎的因果关系(三)生态学研究数据统计分析思路和方法多组比较资料的分析,则包括:1.直线回归分析将各群体研究因素的平均暴露水平作为自变量,以疾病的频率作为应变量,通过计算生态学相关系数和回归系数,进行相关回归分析。由于在生态学研究中,一般可获得发病率,故可计算。2.危险度分析计算相对危险度、归因危险度和人群归因危险度百分比。二、分析性研究(一)病例对照研究数据统计分析思路和方法描述性分析推断性分析1.描述性分析(1)一般性描述首先描述病例和对照的来源、样本例数、匹配比例等,然后描述研究对象的一般特征,如性别、年龄、职业、出生地、居住地、疾病类型等。1.描述性分析(2)均衡性检验比较病例组与对照组研究因素以外的某些特征构成是否齐同,检验其可比性。计量指标的比较(如两组平均年龄的比较)可采用t检验、ANOVA;计数指标的比较(如两组性别构成比较)可采用χ2检验。对有统计学显著差异的因素,在分析时应考虑它对主要关联因素的影响。2.推断性分析(1)成组设计病例对照研究资料的分析比较病例组和对照组之间研究因素暴露比例的差异,推断暴露和疾病之间是否存在统计学关联(χ2检验),计算关联强度(OR)及其95%的可信区间。病例对照研究的资料整理表2.推断性分析(2)成组设计分层资料的分析分层分析是把研究人群(暴露与未暴露人群或者病例与对照)根据某些特征和因素分为不同层(如按性别分为两层),然后分别分析各层中暴露与疾病的关联。2.推断性分析(2)成组设计分层资料的分析如果各层OR值接近,异质性检验无统计学意义,则可通过Mantal-haenszel方法计算χ2MH,并计算控制混杂因素(分层因素)影响后暴露和疾病之间真实的关联强度ORMH及其95%可信区间。病例对照研究分层资料整理表第i层暴露特征病例对照合计有无aicibidin1in0i合计m1im0iNi表5-7按年龄分层计算OR值表5-9按年龄分层分析OC与MI的关系40岁≥40岁服OC未服OC合计服OC未服OC合计病例组2126471888106对照组175976795102合计388512325183208OR2.802.78两层的OR均较不分层的OR(2.20)大。进一步分析年龄对MI的关系按OC与MI的关系列表计算χ2=7.70,RR=2.20可见OC与MI有联系2.推断性分析(2)成组设计分层资料的分析如果各层OR值相差较大,异质性检验有统计学意义,则不宜采用Mantal-haenszel方法合并,可通过计算标准化死亡比(standardmortalityratio,SMR)或标准化率比(standardrateratio,SRR),评价控制混杂因素影响后暴露和疾病的真实关联强度(具体原理和计算方法参见相关专业书籍)2.推断性分析(3)成组设计分级暴露资料的分析若能获得某暴露因素在不同暴露水平的资料,计算不同暴露等级的OR值,并作趋势性χ2检验,分析疾病和暴露的剂量反应关系(dose-responserelationship),以增加因果关系推断的依据。2.推断性分析(4)1:1配对和1:M配比设计资料的分析1:1配对和1:M配比设计病例对照研究资料的分析方法与成组设计资料的分析方法不同。表5-51:1配对研究中疾病与暴露的关系病例对照有暴露无暴露合计有暴露aba+b无暴露cdc+d合计a+cb+da+b+c+dcbcb22)1(bcOR2.推断性分析(5)多因素分析在病例对照研究中往往需要同时研究多个因素的作用,如果仅应用一般分层分析方法同时对若干因素加以控制,计算复杂且受样本量的限制。随着多因素分析软件的出现,可比较容易地分析多个因素与疾病的联系、联系程度以及各因素之间的相互关系。目前经常使用的有条件和非条件Logistic回归模型。2.推断性分析(6)交互作用与效应修饰的分析交互作用主要表现为暴露与疾病的联系由于受某个因素的作用而改变,这因素称为效应修饰因素(effectmodifier),其所产生的影响为效应修饰(effectmodification)。2.推断性分析(6)交互作用与效应修饰的分析在病例对照研究中,评价交互作用最常用的方法是按某一因素分层后,再看各层的OR是否相同,一般需检验各层OR是否同质。通常可以用多元回归分析的方法来评价交互作用,如果某个代表交互作用的回归系数具有显著性,就认为该系数所代表的几个因素之间存在交互作用。常用的有Logistic回归、Cox模型和对数直线模型等。(二)队列研究数据统计分析思路和过程1.描述性分析2.推断性分析3.标化比的计算1.描述性分析(1)一般性描述描述研究对象的组成、社会人口学特征、随访经过、随访时间、结局的发生和失访情况等。1.描述性分析(2)均衡性检验比较各组研究因素以外的某些特征构成是否齐同,检验其可比性;对各组的失访率也要进行比较。计量指标的比较采用t检验、ANOVA;计数指标的比较采用χ2检验或u检验。对差异有统计学意义的因素,在分析时应考虑它对暴露和疾病关系的影响。1.描述性分析(3)队列发病率或死亡率的计算根据研究人群的稳定程度,队列通常分为固定队列(fixedcohort)和开放队列(opencohort),两种队列人群发病率或死亡率的计算指标不同。但通常都要计算累计发病率或发病密度。2.推断性分析比较暴露组和对照组(或多组)之间发病率或死亡率的差异,推断暴露和疾病之间是否存在统计学关联。符合正态分布或近似状态分布,可进行两个率差别的u检验;样本较小、发病率较低时,可用直接概率法、二项分布或Poisson分布检验;样本稍大和发病率稍大时,可用四格表χ2检验。队列研究的资料整理表2.推断性分析再分组或分层计算关联强度-相对危险度(relativerisk,RR)和95%的可信区间,以及危险度指标。危险度指标包括:归因危险度(AR)归因危险度百分比(ARP)人群归因危险度(PAR)人群归因危险度百分比(PARP)3.标化比的计算当研究对象人数较少或死亡(发病)率较低时不宜计算率,此时可以全人口的死亡(发病)率作为标准,计算该观察人群的预期死亡(发病)人数,然后计算实际死亡(发病)数与预期数之比,即为标化死亡(发病