ICS11.020C01团体标准T/CPMA001-2018大型人群队列研究数据处理技术规范Technicalspecificationofdataprocessingforlargepopulation-basedcohortstudy2018年12月13日发布2019年1月1日实施中华预防医学会发布T/CPMA001-2018I目次目次...............................................................................I前言..............................................................................II引言...........................................................................III1范围...............................................................................12规范性引用文件.....................................................................13术语和定义.........................................................................14数据标准化.........................................................................34.1基本要求.........................................................................34.2实施过程.........................................................................34.3数据库设计.......................................................................44.4数据类型标准化...................................................................44.5数据格式和值的标准化.............................................................54.6用标准方式生成新变量.............................................................54.7标准编码.........................................................................55数据清理及质控.....................................................................55.1数据检查.........................................................................55.2问题处置.........................................................................65.3统计学监测.......................................................................76数据整合与开发.....................................................................86.1基本内容.........................................................................86.2基本过程.........................................................................87数据处理记录与报告.................................................................97.1计划.............................................................................97.2执行记录.........................................................................97.3报告和存档......................................................................10参考文献............................................................................11T/CPMA001-2018II前言本标准按照GB/T1.1-2009给出的规则起草。本标准由北京大学提出,中华预防医学会归口。主要起草单位:北京大学、中国医学科学院、北京理工大学本标准主要起草人:李立明、余灿清、吕筠、卞铮、谭云龙、刘亚宁、郭彧、汤海京、杨旭。本标准为首次发布。T/CPMA001-2018III引言大型人群队列研究数据内容丰富、来源多样,规范而准确的数据是高质量队列研究的基本要求之一。大型人群队列研究数据的管理和利用应遵循一定的原则和规范,依次进行数据标准化、清理及质控和数据整合。数据标准化应当遵循系统性、科学性、统一性和可用性的原则,从数据处理计划开始,涉及数据类型、格式、值、衍生和编码等多个方面。经数据标准化后,还应进行数据清理和质控,对数据进行全面的检查并给予相应的处置,保证数据达到规范性、完整性和准确性等质量要求。由于队列研究数据来源多样,最后应整合到项目的标准化数据库中。在数据整合过程中,应综合考虑数据来源、数据特征等方面的因素,确保实现队列数据的高效存储和利用。T/CPMA001-20181大型人群队列研究数据处理技术规范1范围本标准规定了大型人群队列研究实施过程中数据标准化、清理、质控及整合的基本原则。本标准对不同来源、不同类型的队列数据标准化、清理、质控及整合进行规范化要求,适用于已建立或拟开展大型人群队列研究的机构,包括但不限于大型自然人群队列、区域性人群队列、针对某一特种疾病或基于特殊机构开展的人群队列。本标准还可供规模相对较小的人群队列研究参考。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T1.1标准化工作导则第1部分:标准的结构和编写规则(GB/T1.1-2009,ISO/IECDirectives,Part2,2004)3术语和定义下列术语和定义适用于本文件。3.1队列研究cohortstudy队列研究是将一个范围明确的人群按是否暴露于某可疑因素或其暴露程度分为不同的亚组,追踪其各自的结局,比较不同亚组之间结局的差异,从而判定暴露因子与结局之间有无因果关联及关联大小的一种观察性研究方法。3.2数据data数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。3.3数据库database数据库,或称电子数据库,是指按照数据结构来组织、存储和管理数据的仓库,它是以一定方式存储在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。3.4T/CPMA001-20182数据集dataset数据集是指数据的集合。最常见的形式是数据表,其中每一列代表一个变量,每一行代表一个观察记录。3.5数据标准化datastandardization数据标准化是指将数据转换成某种统一形式的过程。3.6编码字典codebook编码字典,或称值域代码,是指记录编码及其相应属性的文件。3.7数据清理datacleaning数据清理是指对数据进行重新审查和校验,发现并纠正数据文件中可识别错误的过程。3.8研究对象studysubject研究对象是指样本人群中符合纳入和排除标准的合格对象。3.9个体唯一性标识personaluniqueidentification个体唯一性标识是指每一名研究对象特有的,可以唯一识别其自然人个人身份的信息,包括身份证号码、医疗或社会保险号码等。3.10常规监测routinesurveillance常规监测是指通过相关政府部门(包括卫生、公安、民政、社会保障、计划生育等)当前运行的各类监测系统或常规工作中形成的资料和数据库,从中筛选出研究所需的随访信息,收集研究对象各类死亡、发病、迁移和失访等终点事件。3.11社区定向监测communitytargetedsurveillance社区定向监测是指将研究对象的名单提供给研究社区街道、居委会或乡镇、村的相关工作人员,定期联系研究对象,从而获取该社区内研究对象的死亡、发病、迁移等有关随访信息。3.12失访losstofollowup失访是指队列研究中,户口已迁出调查区域,且经查找仍无法得知去向,或虽有明确下落,但无法进行长期随访监测(如户口搬迁到外地等)的研究对象。3.13非结构化数据unstructureddataT/CPMA001-20183非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。3.14数据整合dataconsolidation数据整合是指将不同数据源的数据收集、整理、清洗,转换后加载到一个新的数据源,为数据消费者/数据使用者提供统一数据视图的数据集成方式。3.15数据脱敏datamasking数据脱敏是指利用随机字符或数字加密隐藏原始数据的过程。一般需要进行脱敏处理的数据包括个人识别数据、个人敏感数据等。4数据标准化4.1基本要求对研究数据进行标准化的目的,是为了保证数据集内部的一致(consistency),也为了便于数据集间的整合。对数据的标准化处理应满足如下要求:4.1.1一致性即数据集或数据库内部的标准(如:变量定义、格式、单位、取值精度、编码规则等)应保持一致。4.1.2通用性即数据与其他外部数据的标准应尽量保持一致,宜参考或使用现行或通用的卫生相关数据集标准,尤其是需要与外部数据进行链接时。4.1.3易用性即标准化之后的数据应尽量清晰易懂,并且方便进行进一步的数据清理、整合与分析。4.2实施过程4.2.1数据标准化之前,应制定详细的数据处理计划,其中应包括:a)原始数据的来源、性质、内容。b)数据库的设计方案。c)准备处理的文件和变量,以及相应的标准化处理方案。d)准备生成的新变量和生成方法。e)准备予以编码的变量,以及编码方式。4.2.2按照数据处理方案,对数据文件进行标准化处理,并且详细记录每一步的处理方法与结果。中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防医学会中华预防