I基础科学数据共享网项目标准TR-REC-014数据集核心元数据标准2011年3月国家科技基础条件平台建设基础科学数据共享网项目组II目录1范围......................................................................32规范性引用文件.............................................................33术语和定义.................................................................34符号和缩略语...............................................................44.1缩略语.................................................................44.2数据集标识(URI)命名规则..............................................44.3网址和文件名...........................................................44.4日期...................................................................44.5图例说明...............................................................55一致性....................................................................66约定......................................................................77核心元数据.................................................................77.1概述...................................................................77.2数据集元数据...........................................................87.2.1描述信息.............................................................97.2.2元数据参考信息......................................................207.2.3联系信息............................................................22附录A元数据扩展和应用方案.................................................25A.1元数据标准扩展的必要性................................................25A.2元数据应用方案........................................................25附录B科学数据库元数据标准使用指南.........................................30B.1元数据标准定制........................................................30B.2元数据内容著录和工具..................................................32附录C代码表...............................................................343数据集核心元数据1范围本标准面向国家科技基础条件平台建设项目基础科学数据共享网(以下简称基础科学数据共享网项目)规定了各种需求层次的元数据应用所需要的最小元数据元素(简称为核心元数据),以及为满足各学科领域的特殊需求,对元数据进行扩展和制定元数据应用方案的规则和方法。本标准适用于科学数据库的编目和描述、组织管理,也可用于数据资源的交换、集成和服务。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。TR-REC-017资源唯一标识符规范3术语和定义下列术语和定义适用于本标准。3.1数据集Dataset可标识的数据集合。一个数据集可能是一个较小的数据集合,在物理上或逻辑上位于一个较大的数据集之内;反之,一个数据集也可能由若干数据集组成,是这些子数据集的父数据集。理论上,一个数据集可以小到单个数据文件或关系数据库中的单个数据表,大到图像、音频、视频、软件等也可以被视为数据集。3.2数据集类型Datasettype根据数据集的结构或资源特征,对数据集所作的类型划分。3.3数据类型Datatype对数据的有效值域及对该值域中的值所允许的操作的规定。例如,整型、实型、布尔型、日期类型、字符串类型等。对于复合元素,其数据类型用“复合类型”来标识。3.4元数据Metadata关于数据的数据。本规范中,具体指描述数据及其环境的数据。3.5元数据元素Metadataelement元数据的基本单元。本文档中对每一个元数据元素的定义都用一个包含九个属性的集合4来描述,这些属性是中文名称、英文名称、标识、定义、类型、值域、可选性、最大出现次数、注释。3.6模块Module该标准按照层次结构组织元数据元素,不同的数据元素和复合元素组成一个模块。该层次结构的最高起始点为复合元素“数据集元数据”,该复合元素由其它表示数据集不同方面特征的复合元素构成,即本标准中的三个模块——描述信息模块、元数据参考信息模块和联系信息模块。模块是本标准中一个最大的组织单位。3.7复合元素Compounddataelement一个复合元素是由若干数据元数据元素、或者元数据数据元素与其它复合元素、或者若干其它复合元素共同组成的。它通常用来表示较高层次的概念。3.8实体Entity按一定结构组织起来的数据的集合,其结构可以用一组属性来刻画。例如,关系数据库中的数据表就是一个典型的实体代表。4规则和缩略语4.1缩略语URI统一资源标识符(UniformResourcesIdentifier)4.2数据集标识(URI)数据集标识对于数据集资源描述和发现的意义和重要作用,和其他资源特别是网络资源的标识具有同样的重要性,用来实现数据资源在网络环境下的唯一识别数据集。数据集URI命名执行《TR-REC-017资源唯一标识符规范》。4.3网址和文件名对于其他的资源,如文件名、计算机系统的网络地址等也应遵循Internet的“统一资源标识符-URI”的规定。有关URI约定的详细信息,请参阅。4.4日期有关日期的规定,采用ISO8601关于日期的表示格式,即YYYY-MM-DD的形式。其5元素标识元素标识元素标识元素标识中,YYYY是公历的年份,MM是一年中的月份,DD是一个月中的天。例如:2003-04-01表示2003年4月1日,2002-06表示2002年6月,1999表示1999年。3.4.1时间有关一天中时间的规定,采用ISO8601关于时间的表示格式,即使用24小时的计时方法:hh:mm:ss。其中,hh表示一天中自午夜之后的小时数,mm表示某一小时自开始之后的分钟数,ss表示某一分钟自开始之后的秒数。例如:23:59:59表示午夜之前的23点59分59秒,06:10表示早上6点10分,12表示中午12点。3.4.2日期和时间有关日期和该日期中时间的表示,采用ISO8601中同时表示日期和时间的格式:YYYY-MM-DDThh:mm:ss。其中的大写字母T用于分割日期和时间。例如:2003-04-01T13:01:02表示2003年4月1日下午1点1分2秒。4.5图例说明图4-1表示:A为一个复合元素,它有四个子元素B、C、D、E,其中:B为必选元素但不可重复著录(即必须著录且只能著录一次)。必选但不可重复著录元素用来表示。C为可选元素但不可重复著录(即可著录也可不著录,最大著录次数为一次)。可选但不可重复著录元素用来表示。D为必选元素且可重复著录(即必须著录,不限制著录次数)。必选且可重复元素用来表示。E为可选元素且可重复著录(即可著录也可不著录,不限制著录次数)。可选且可重复元素用来表示。图4-1元素的必选性、可选性和可重复性6图4-2元素的选择关系图4-2表示:复合元素A的三个子元素B、C、D之间存在着选择关系,三者不能同时著录。即,如果著录了B,则不能著录C和D;同理,著录了C,则不能著录B和D;著录了D,则不能著录B和C。元素之间的选择关系用来表示。图4-3复合类型图4-3表示:虚线框的作用在于更清晰地标示出A为一个复合元素以及A所包含的子元素,虚线框左上角的字符串AType是为元素A定义的复合类型名称。图4-4元素引用图4-4表示:元素A为含有三个子元素的复合元素,其子元素B、C、D已经被分别定义为单独的元素,此处被元素A直接引用,能体现体系内部元素的复用。5一致性本标准定义的元数据元素在第7章中阐明。用户制定的元数据扩展和应用方案照附录A中的要求和规定定义和描述。一个声明与本标准严格一致的元数据应用方案只包括本标准中定义的元数据元素、元数据实体和元数据子集。一个声明与本标准一致的元数据应用方案可包括扩展的元数据元素和元数据子集。76约定对于每个元数据元素,本标准从语义和语法两方面进行描述。具体来说,使用以下9个属性(基于GB/T18391.3-2001定义有关属性)进行定义:a)中文名称赋予元数据元素的一个中文标记。b)英文名称元数据元素的英文名称,一般用英文全称。c)标识用字符串表示的元素标识。d)定义对元数据元素含义的解释,以使之与其他元数据元素在概念上相区别。e)类型元素所属数据类型,如复合类型(即该元素为复合元素)、整数类型、实数类型、文本类型等。f)值域元数据元素所允许的值的集合。g)可选性元素是必选元素还是可选元素。h)最大出现次数元素所允许的著录次数,如1(不可重复著录)、n(可重复著录无限次)等。i)注释对元素的补充说明、著录格式的建议及其它。7核心元数据7.1概述核心元数据面向数据集层次的科学数据资源,定义了一组元数据模块和元素。核心元数据主体包括描述信息、元数据参考信息二个主要复合元素模块,且二者均为必选模块。此外,还包括联系信息一个辅助模块,此模块不可单独使用,供其它模块的特定元素在需要的时候进行引用。7.1.1描述信息描述信息模块是记录数据库数据集基本信息模块,是一个必选模块。通过使用描述信息模块,建库单位可以对数据集的基本属性信息进行详细描述,例如数据集名称、简介、创建者、来源等,数据集用户可通过浏览这些描述信息对数据集形成一个总体了解。7.1.2元数据参考信息8元数据参考信息模块是关于数据集元数据本身状态的信息,为必选模块,包括元数据标准名称、元数据创建日期、元数据联系信息等内容。通过该模块,一方面,数据集用户可以了解到与元数据记录的建立有关的信息,另一方面,元数据参考信息将有助于元数据维护人员进行元数据的修改与维护。7.1.3联系信息联系信息模块记录与数据集有关的联系信息。该模块不可单独使用,而是被主要模块的有关元素引用。7.2数据集元数据中文名称:数据集元数据英文名称:DatasetMetadata标识:Dataset定义:关于