—2023代替WS/T306-2009卫生健康信息数据集分类与编码规则Rulesforhealthinformationdatasetclassifyingandcoding2023-08-07发布2024-02-01实施中华人民共和国国家卫生健康委员会 发布—2023I前言本标准为推荐性标准。本标准代替WS/T306-2009《卫生信息数据集分类与编码规则》。与WS/T306-2009相比,主要为编辑性修改。本标准由国家卫生健康标准委员会卫生健康信息标准专业委员会负责技术审查和技术咨询,由国家卫生健康委统计信息中心负责协调性和格式审查,由国家卫生健康委规划发展与信息化司负责业务管理、法规司负责统筹管理。本标准起草单位:中国人民解放军总医院、国家卫生健康委统计信息中心、中国人民解放军空军军医大学。本标准主要起草人:刘丽华、张黎黎、冯丹、李顺飞、王珊、王霞、胡建平。—20231卫生健康信息数据集分类与编码规则1范围本标准规定了卫生健康信息数据集分类与编码需遵循的基本原则、技术方法以及应用规则。本标准适用于卫生健康领域各类卫生健康信息数据集分类与编码方案的制定。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本标准必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本标准;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本标准。GB/T2260中华人民共和国行政区划代码GB/T2659世界各国和地区名称代码GB/T7027信息分类和编码的基本原则与方法GB/T10113分类与编码通用术语GB/T11714全国组织机构代码编制规则GB/T13745学科分类与代码GB/T14396疾病分类与代码3术语和定义GB/T10113中确立的及下列术语和定义适用于本标准。3.1数据集dataset具有一定主题,可以标识并可以被计算机化处理的数据集合。3.2数据集编码datasetcoding在分类的基础上,给数据集赋予的有一定规律性、计算机容易识别与处理的符号。3.3数据集标引datasetindexing指分析数据集的内容属性及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予数据集检索标识的过程。4数据集概述4.1数据集基本概念数据集是具有主题的、可标识的、能被计算机处理的数据集合。a)主题:围绕着某一项特定任务或活动进行数据规划和设计时,对其内容进行的系统归纳和描述。通常数据集主题应具有划分性和层级性,划分性是指主题间可通过不同的命名,将相同属性的主题归并在一起形成相同的类,将不同属性的主题区分开形成不同的类;层级性是指主题可被划分成若干子主题或子子主题。—20232b)可标识:指能通过规范的名称和标识符等对数据集进行标记,以供识别。标识与名称的取值需要通过具体的命名或编码规则来规范。c)能被计算机处理:指可以通过计算机技术(软硬件、网络),对数据集内容进行发布、交换、管理和查询应用。这些数据可以由不同的物理存储格式来实现,按照数据元的定义与数据类型,在计算机系统中以数值、日期、字符、图像等不同的类型表达。d)数据集合:指由按照数据元所形成的若干数据记录所构成的集合。例如,病案首页数据集由主索引、入出转、诊疗、护理、手术、费用等不同数据组成。4.2数据集基本属性每个数据集所具有的属性都包括通用属性和特有属性两部分。数据集的通用属性包括数据集主题、标识、实体和数据项,又称“基本属性”。数据集特有属性包括类别、区域、专业、学科、建立时间、涉及的疾病等。4.3卫生健康信息数据集卫生健康信息数据集是在卫生健康领域,为满足政府卫生决策、业务处理、科学研究、信息发布与绩效评价等需求,按照数据集概念设计、归纳、整合的主题信息集合。卫生健康领域的数据集主要可以归纳为三个方面:a)信息发布类统计数据集:如中国卫生健康统计年鉴中卫生机构设置及规模、卫生人员资源的地区分布、卫生经费的筹集及分配等数据集,各类卫生机构的统计月报、年报,以及满足某一专项统计需求通过统计收集、归纳、整理、报告形成的数据集。b)业务系统建设类的基本数据集:包括医疗服务、公共卫生、药品供应、医疗保障、卫生管理等领域为了满足业务信息系统规范化建设和领域内部以及领域间数据交换与共享需求,设计归纳的各个子系统(或者功能模块)所包含的最小数据元素的集合。如:儿童出生登记、食品卫生许可、个人健康档案、住院病人入出转、居民死亡登记报告等基本数据集。c)为满足特定目的收集整理制作的数据集:包括通过调查、观察、监测、检测、试验、实验等方式获取的满足科学研究、业务咨询或卫生服务决策等需求的数据集。如:近年来国家投入建设的国家人口健康科学数据集、卫生服务调查数据集、疾病及危险因素调查等内容的数据集。5数据集分类5.1分类基本原则a)系统性原则:综合考虑数据集主题一致性,按其内在联系进行系统化排列,确保类目唯一、结构合理、层次清晰,减少冗余。b)实用性原则:满足数据集分类编目的简便性、可操作和通用性需求和数据集查询的一致性理解。c)可扩展性原则:保证分类体系框架适应数据集不断丰富的内容和日益增长的种类与数量。d)兼顾科学性原则:自顶向下,优先选择最能代表卫生健康信息数据集主题的语言、词条定义类目名称,编制受控分类体系表。e)稳定性原则:使用稳定的因素作为分类依据,同时提高分类体系的可延展性或兼容性,促进稳定性。5.2分类方法5.2.1主题优先法卫生健康信息数据集分类体系首先依据主题构建主分类框架,分类框架各层级类目可表示为一级、二级、三级类目等,见表1。—20233表1卫生健康信息数据集主分类框架一级类目二级类目三级类目n级类目数据集系列一级类目1二级类目1三级类目1n级类目1数据集1数据集2......n级类目2..................三级类目2n级类目1......n级类目2............三级类目3n级类目1......n级类目2............n级类目1............n级类目2............二级类目2三级类目1n级类目1....................................................................................5.2.2多属性复分法卫生健康信息数据集以相同主题构建,同时在若干相同主题数据集中,又根据其个性,如时间、地域、疾病、学科、机构等多属性,构成辅助分类体系,即复分类体系。卫生健康信息数据集复分类见图1:特有属性1类目1类目2类目3......特有属性3类目1类目2类目3......特有属性2类目1类目2类目3......特有属性n类目1类目2类目3......图1卫生健康信息数据集-复分类5.2.3组配分类法组配分类法是按照多维度、交叉性方式,将数据集主分类框架与复分类表组合使用,对数据集进行分类的规则。在某个主分类下的卫生健康信息数据集的组配分类示意见图2:—20234时间1949/01/011950/01/011951/01/01......疾病肺癌乙肝鼠疫......地域北京市天津市河北省.........类目1类目2类目3......数据集系列数据集1数据集2数据集3......图2卫生健康信息数据集组配分类5.3类目设置规则5.3.1主分类表类目设置5.3.1.1类目界定规则卫生健康信息数据集分类与编码中的每一个类目都围绕特定的主题,表达一定主题知识的内涵和外延。遵照本分类与编码规则,科学分类体系所列的类目,能够容纳大量卫生健康信息的最小单元--数据集,从而成为管理数据集的工具。a)类目名称与主题对应:类目反映主题内容,一一对应。b)类目名称规范:名称应简洁、规范、通用、无歧义,且确切表达主题内容、范围,必要时应给出类目注释。c)同位类互斥:同位类之间应界限分明,非此即彼。d)数据集存在性:每个类目应确保存在一定数量的卫生健康信息数据集。e)类目均衡:类目均衡展开,允许突出或合并列类。f)层次逐级隶属:类目从总到分的结构须逐级隶属,每层划分应有单一、明确依据,连续展开。5.3.1.2类目层级约束规则卫生健康信息数据集分类体系的展开层次决定着分类导航系统的导航程度,层次越多越深,知识被组织得越细密,用户查找信息耗费的时间和精力就越多。卫生健康信息数据集主分类层次应控制在3级-6级之间。5.3.2复分类表类目设置5.3.2.1类目界定规则类目界定规则如下:a)复分类表的类目根据特有属性分区段设置,每个区段对应数据集的一个特有属性,构成一个复分类的类目。b)复分类的类目间无层级、无关联,无顺序约束,属于分区段的松耦合约束。c)复分类目区段个数可根据实际需要进行扩展。5.3.2.2属性有限性控制复分类表属性宽度的控制应该充分考虑卫生健康信息数据集内容的特有属性进行设置,详细描述、全面覆盖数据集内容信息,多属性组配,增加数据集管理维度、提高数据组织和生产的效率和质量,增强数据集聚类的灵活性、增加检索入口,适应计算机检索的需要。—20235卫生健康信息数据集分类中的复分类表可以包括多种属性分类,例如,地区表(国内地区按GB/T2260、国际地区按GB/T2659)、组织机构代码表按GB/T11714、疾病分类表按GB/T14396、学科分类表按GB/T13745的规定。6数据集编码6.1编码基本原则编码基本规则如下:a)唯一性:在卫生健康信息数据集编码体系中,每一个类目仅有一个代码,一个代码只唯一表示一个主题概念。b)匹配性:代码结构应与分类体系相匹配。c)可扩充性:代码应留有适当的后备容量,以便适应不断扩充的需要。d)简洁性:代码结构应尽量简单,以便减少代码的差错率,便于管理。e)区段性:在卫生健康信息数据集编码体系设置若干区段,每个区段表达不同的类目属性,便于实现不同维度检索。6.2编码方法按GB/T7027规定的方法。6.3编码设计规则卫生健康信息分类与编码体系设计为两类系统,一类是主分类编码系统,一类是复分类编码系统。给予数据集主分类码和复分类码,进行分段编码标识。6.3.1主分类表编码6.3.1.1码位设计本标准规定主分类框架中每一个类目设定唯一的编码,码位结构对应各级类目分段组合而成,见表2,此示例中,一级类目为1位英文字母,二级、三级等类目分别为2位数字,从01到99,后3位给出数字流水码,从001-999,各层级按从属关系逐级顺序编码。表2卫生健康信息数据集主分类码位结构码位第1位第2位第3位第4位第5位第6位第7位...后3位名称一级类目码二级类目码三级类目码四级类目码...流水码类型字母码数字码数字码数字码数字码数字码取值A—Z01—9901—9901—9901—99001—9996.3.1.2编码规则编码规则如下:——整体编码是数字字母混合码,同位类目位数、类型一致;——各级类目中的“其他”类编码定为“99”。6.3.2复分类表编码6.3.2.1码位设计复分类表编码需依据卫生健康信息数据集的特有属性采用分段设计,其基本内容可以由诸如卫生机构、疾病分类和学科分类等多个区段组成,表述格式为×××××××××(GB/T11714)—×××.×××(GB/T14396)—×××.××××(GB/T13745)—……。对扩增的复分属性,其代码按照同一规则设计。—202366.3.2.2编码规则编码规则如下:——标准优先性原则。复分类表编码须参照其相应特有属性的标准化代码表,各类代码表的采用中,依次优先采用国家、地区、行业标准代码或积极采用适宜的国际标准代码,没有参考标准时可自定义代码。——数据集内容不体现某一复分类目属性时,相应编码位须用