HJ721-2014环境数据集加工汇交流程Environmentaldataset’sprocessingandcollectionworkflow(发布稿)本电子版为发布稿。请以中国环境科学出版社出版的正式标准文本为准。2014-12-25发布2015-03-01实施发布i目次前言…………………………………………………………………………………………..II1适用范围………………………………………………………………………………………..12规范性引用文件………………………………………………………………………………..13术语和定义……………………………………………………………………………………..14技术内容……………………………………………………………………………………..14.1环境数据集加工汇交流程及职责…………………………………………………………...14.2环境数据集加工汇交立项…………………………………………………………………..24.3环境数据集实体采集制作…………………………………………………………………...24.4环境数据集审核……………………………………………………………………………...54.5环境数据集汇总……………………………………………………………………………...64.6环境数据集归档、保管及备案……………………………………………………………...64.7环境数据集加工汇交安全要求……………………………………………………………...6附录A(规范性附录)环境数据集工作文件……………………………………………………7附录B(资料性附录)环境数据集加工汇交示例………………………………………………10ii前言为贯彻《中华人民共和国环境保护法》,促进环境信息化工作,规范环境数据集加工、汇交流程,制定本标准。本标准规定了环境数据共享与服务建设中环境数据集加工、汇交的业务流程、内容、方法和要求。本标准附录A为规范性附录,附录B为资料性附录。本标准为首次发布。本标准由环境保护部科技标准司组织制订。本标准主要起草单位:环境保护部信息中心、福建省环境信息中心。本标准环境保护部2014年12月25日批准。本标准自2015年3月1日起实施。本标准由环境保护部解释。1环境数据集加工汇交流程1适用范围本标准规定了环境数据共享与服务建设中环境数据集加工、汇交的流程、内容、方法和要求。本标准适用于指导各级环境业务部门和机构进行环境数据集制作、存储、归档等工作。2规范性引用文件本标准内容引用了下列文件中的条款。凡是不注日期的引用文件,其有效版本适用于本标准。GB17859计算机信息系统安全保护等级划分准则GB/T18894-2002电子文件归档与管理规范HJ720环境信息元数据规范HJ722环境数据集说明文档格式HJ729环境信息系统安全技术规范HJ/T417-2007环境信息分类与代码BMB17-2006涉及国家秘密的计算机信息系统分级保护技术要求环办[2012]92号附件11环境身份认证技术规定环办[2012]92号附件12环境数据加密技术规定环办[2012]92号附件13环境数据访问技术规定环办[2012]92号附件15环境信息安全测试与评估技术规定3术语和定义下列术语和定义适用于本标准。3.1环境数据集environmentaldataset由环境保护业务相关的若干数据实例组成、遵循统一的数据模型、具有相对独立的业务语义的数据集合。3.2数据集实体datasetentities由一系列静态数据文件组成的数据或图形的集合。3.3环境数据集实体environmentaldatasetentities由一系列静态环境数据文件组成的环境数据或图形的集合。3.4数据集说明文档dataset'sdiscriptiondocument描述数据集的一组说明文件,组成内容必须包括概述、数据集标识、数据内容和结构、覆盖范围和元数据。3.5数据集制作过程文件dataset'sprocessingandcollectionprocessdocument数据集制作过程中形成的除数据集实体、元数据和数据集说明文档之外的各种文件。3.6加工汇交processingandcollection制作环境数据集全部过程的总称,由环境数据集采集、制作、审核、汇总、归档、保管及备案等流程组成。4技术内容4.1环境数据集加工汇交流程及职责4.1.1环境数据集加工汇交流程环境数据集加工汇交流程如图1所示。2图1环境数据集加工汇交流程环境数据集加工汇交详细工作流程见附录A.1。4.1.2各方职责4.1.2.1 环境数据集管理单位 负责立项、编制《环境数据集制作任务书》;审核环境数据集;备案数据集加工汇交的过程及结果。4.1.2.2采集加工制作单位 根据《环境数据集制作任务书》的要求落实数据来源,对数据来源的数据质量进行检查;负责制作环境数据集实体、元数据及说明文档;配合环境数据集管理单位完成数据审核及环境数据集归档。4.1.2.3支持单位负责保管验收通过的环境数据集实体、元数据及说明文档,并开展环境数据集共享服务工作。4.2环境数据集加工汇交立项4.2.1环境数据集管理单位根据环境数据集共享工作要求以及使用需求确定环境数据集加工汇交任务,填写《环境数据集制作任务书》,见附录A.2中表A.1。4.2.2环境数据集管理单位应明确环境数据集制作、追加或更新的目标,确定环境数据集的内容和完成时间,需要提交的环境数据集、相关的技术文档等。4.2.3《环境数据集制作任务书》命名规则为:环境数据集名称_TASK.扩展名。4.3环境数据集实体采集制作4.3.1确定数据源为了保证环境数据集的完整性和正确性,采集加工制作单位应对数据源进行格式检查、质量检查和分析,并将检验方法、检验原则和检验结果在《环境数据集说明文档》中进行说明,格式应符合HJ720的要求;在有多种数据来源的情况下,应根据环境数据集制作需求选择合适的数据源,并详细记录数据源的选择理由。4.3.2数据采集采集加工制作单位应根据《环境数据集制作任务书》进行数据采集。对数据采集情况进行检查,确认是否符合《环境数据集制作任务书》的要求,并对采集过程、结果及处理办法进行记录。4.3.3数据处理4.3.3.1 数据处理工具和方法 采集加工制作单位应按照《环境数据集制作任务书》的要求,选取相应的工具和方法对数据源进行3加工,形成环境数据集实体数据文件;同时应在环境数据集说明文档中对数据处理工具和方法进行详细说明。数据处理工具包括各类数据处理软件如EXCEL,以及管理数据的文件系统和数据库系统如ACCESS,数据处理方法包括数据查找、数据筛选、数据排序、分类汇总以及复杂的数据分析方法等。4.3.3.2 数据文件的存储格式 数据文件的存储格式应选用国内、国际通用的数据格式,如文档文件格式、数据库文件格式以及通用图像文件格式等。4.3.3.3质量内控要求a)质量管理:要求在元数据、环境数据集说明文档中对环境数据集质量控制过程和质量检查结果进行描述。b)质量控制过程:包括自查、审核两个步骤。c)质量检查结果描述:数据质量应当用质量定量元素和质量非定量元素两个组件来描述,质量定量元素包括完整性、可靠性、逻辑一致性、数据精度等;质量非定量元素包括目的、用途等。4.3.4环境数据集组织及命名4.3.4.1 环境数据集分类编码 环境数据集分类编码应依据HJ/T417-2007进行制订。4.3.4.2 环境数据集实体文件命名 环境数据集实体文件命名:环境数据集名称“_”文件的补充说明部分。a)每个环境数据集文件都隶属于某个环境数据集,文件名称的前半部分即为该数据集名称,后半部分为文件的补充说明部分,文件扩展名为文件类型。b)文件补充说明部分用于补充说明该文件必须说明的一个或多个属性特征(如时间、空间位置、要素、格式等),用中横线“_”分割,名称不限长。4.3.4.3 环境数据集组织 参照HJ/T417-2007,按不同分类信息的属性组成不同的环境数据集。如环境质量数据可以按照监测及统计时段、监测区域、监测单位级别、监测对象组成不同的数据集,如:2012中国环境状况公报、2012年XX省环境状况公报、2013年全国地表水水质月报(9月份)等。4.3.5环境数据集元数据制作4.3.5.1环境数据集元数据信息必须包含HJ720规定的核心元数据信息,也可包含环境数据集特需的元数据信息。若为污染源自动监控数据集,可采用HJ720附录F的相关规定;若为污染源监督性监测数据集,可采用HJ720附录G的相关规定;若为环境统计数据集,可采用HJ720附录H的相关规定。4.3.5.2在制作环境数据集元数据时应采用XML和纯文本格式对元数据进行描述,XML格式的schema应遵循HJ720的相关规定。4.3.5.3元数据文件中文名称命名规则为:环境数据集名称_META.XML或环境数据集名称_META.TXT。4.3.5.4为保证元数据制作的规范性,应采用元数据制作工具完成元数据的制作和维护。4.3.6环境数据集说明文档制作环境数据集说明文档编制应按照HJ722的有关规定执行。4.3.7环境数据集存储4.3.7.1环境数据集存储目录结构 环境数据集在介质中要制作四级目录,存储目录结构如图2所示。4图2环境数据集存储目录结构a)环境数据集根目录下应附加readme.txt文件,用来说明环境数据集存放介质序号、各级目录下存放文件内容,readme.txt文件格式如下:1)介质序号:介质序号/介质总数,并简述环境数据集的内容。介质序号书写格式为:介质序号/介质总数,如2/3:表示环境数据集介质总数为3,该介质在环境数据集中的序号是2;2)Datasets目录:环境数据集实体文件数量,并简述该目录(及子目录)下每个文件的内容;3)Metadata目录:环境数据集元数据文档数量,并简述该目录(及子目录)下每个文件的内容;4)Description目录:环境数据集说明文档数量,并简述该目录(及子目录)下每个文件的内容;5)Documents目录:环境数据集附加文件档和环境数据集制作过程文件全部数量,并简述该目录(及子目录)下每个文件的内容。b)环境数据集第一级目录为环境数据集名称;c)第二级目录用以标识出相同“环境数据集名称”的不同数据的唯一性,使用“流水号”作为唯一性标识,由采集加工制作单位统一分配;d)第三级目录为四个子目录,其中:第一个子目录的名称为“datasets”,该子目录用于放置环境数据集实体文件;1)第二个子目录的名称为“metadata”,该子目录用于存放环境数据集元数据文档;2)第三个子目录的名称为“description”,该子目录用于存放环境数据集说明文档;3)第四个子目录的名称为“documents”,该子目录用于存放环境数据集附加文档及在环境数据集的制作过程中形成的具有保存和使用参考价值的其它文档,包括环境数据集制作任务书、环境数据集说明文档的补充性文档、质量检查情况、环境数据集归档文档等材料。e)第四级目录如果文件数目较多可以分多级子目录,命名规则可自定义,目录名应使用英文或数字等表示。54.3.7.2环境数据集在介质中的放置 如果环境数据集的数据量超过单个存储介质的容量,应分散在多个存储介质上存放。示例:以光盘作为存储介质,具体存放方式如下。a)当一张光盘可存放一个环境数据集时,全部环境数据集文件应统一按4.3.7.1的规定存放;b)如果datasets目录容量较大,应分别放置在多张光盘上,则第一张光盘的目录结构应符合4.3.7.1的规定,自第二张起,每张光盘只保留子目录“datasets”和readme.txt文件,在readme.txt文件中应说明“介质序号”和“datasets”目录或子目录下放置的环境数据集实体文件数量。4.3.7.3环境数据集索引 为快速检索到所需的环境数据集,应建立多维索引,包括时间索引、内容索引、专题索引,并记录到元数据中去。4.3.7.4环境数据集示例 环境数据集应附带示例,用来帮助使用者使用环境数据集