《数据模式描述规则和方法》标准培训教材

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

科学数据共享通用标准培训系列教材《数据模式描述规则和方法》标准培训教材科学数据共享工程办公室2006年2月目录一、编制背景.............................................................................................................-1-(一)科学数据资源现状..........................................................................................-1-(二)面临资源整理需求..........................................................................................-1-(三)解决此类问题的惯例......................................................................................-2-二、编制思路.............................................................................................................-3-(一)本标准的基本原则..........................................................................................-3-(二)本标准的工作思路..........................................................................................-4-(三)本标准的适用范围..........................................................................................-5-(四)本标准与其他标准关系..................................................................................-5-三、标准总体结构.....................................................................................................-6-四、标准内容要点解析.............................................................................................-7-(一)数据模式概述..................................................................................................-7-(二)数据模式描述规则........................................................................................-10-(三)数据模式建立与描述方法............................................................................-15-五、标准使用...........................................................................................................-15-(一)前期工作基础................................................................................................-16-(二)正式工作阶段................................................................................................-18-科学数据共享通用标准培训教材-1-《数据模式描述规则和方法》标准培训教材一、编制背景(一)科学数据资源现状科学数据资源是指,科技活动或其它方式获取到的原始基本数据,以及根据科技活动需要进行加工整理后的各类数据集。科学数据共享工程中存在大量科学数据资源,科学数据共享的核心是科学数据资源。科学数据资源具有两个的显著特点:一是共享科学数据数据的来源非常广泛。例如各个领域的业务信息系统所产生的数据、科学研究活动中积累的数据、以及在基础数据基础上加工衍生出来的各种数据资源等。二是数据的存储形态各异。例如文档,文本,数据库,图像,音频,视频文件等。(二)面临资源整理需求科学数据共享工程中,不同来源、不同格式的科学数据资源,将以主体数据库形式进行建设,以数据集形式进行共享和交换,提供给需要科学数据共享数据集的用户。数据建模对于共享数据库的建设非常重要。从建设的角度看,各单位是在明确了共享数据集内容含义和组成结构的基础上,确定相应的共享数据建库方案,从业务数据库等信息源中提取、转换、加工形成共享数据集,多单位联合建立共享数据集的时该工作尤其重要。从使用的角度看,用户需要了解数据内容及其组成结构后,才能够有效使用。数据模式是数据的概念、组成、结构和相互关系的总称,因此可以先建立共享数据集的数据模式标准,再将共享数据集提供给用户。建立的数据模式不但可以保障对于共享数据集准确、无歧义的理解,而且还提供了进一步加工、处理和应用共享数据集的必要基础。科学数据共享通用标准培训教材-2-实现科学数据资源共享的前提条件是对共享数据集内容和结构信息进行规范化描述,形成共享数据集的数据模式标准。我们通过数据模式描述规则和方法标准来提供一整套规范化的数据模式描述规则与科学的建立方法。(三)解决此类问题的惯例在数据模式规范化表述方面,国内外普遍采用的主流方法包括:n实体关系(Entity-Relation)模型描述E-R模型是由P.P.S.Chen1976年提出,用E-R图来抽象表示现实世界的数据特征,是一种语义表达能力强易于理解的概念数据模型。E-R模型图是用图解的方法描述实体、联系及其相关属性。目前,E-R模型图已经是比较成熟的应用在关系型数据库前期信息建模过程中。实体是任何可以明确的人、地方、事件、概念、事物。例如:地震台站、某天的天气情况。关系是实体与实体之间的联系。n统一建模语言(UnifiedModelingLanguage,缩写UML)UML是一种通用的建模语言,它由GradyBooch,JamesRumbaugh和IvarJaccobson共同提出,该语言由对象管理组织OMG采纳作为业界标准。科学数据共享工程的数据模式定义使用UML作为标准、规范的数据模式语言。统一建模语言的优势在于,是一种通用的可视化建模语言,主要用于理解、设计、浏览、配置、维护以及控制系统的信息。UML比较易于使用、表达能力强,可升级,具有很强的适用性和可用性。UML不是编程语言,反而可以应用于任何编程语言和工具平台。目前,UML已经作为大多数国际组织和工业联盟采用的数据模式描述语言。n数据字典(DataDictionary)描述数据字典是通过二维表描述数据结构的一种方式。比较多的应用在MIS系统的需求和软件总体设计当中。n巴式范式(Backus-NaurForm,缩写BNF)描述巴式范式是由JohnBackus和PeterNaur引入的、一种形式化符号来描述给定科学数据共享通用标准培训教材-3-语言的语法。BNF是一种语法的描述语言,几乎每个新编程语言都会使用BNF来描述语言的语法规则。该语法主要应用在科学数据共享工程中的数据格式定义环节。巴式范式包含有基本的BNF元符号和扩展的BNF符号,其中基本的BNF元符号,如下所示:约定/符号含义::=等效|ORX+一个或多个X。[X]X可选。可选的分隔符由[]表示。任何粗体文本字符串。任何斜体文本如何构造字符串。其语法示例为,registryexpression::=AddKey。表达式的含义是,指定registryexpression等效于AddKey。n可扩展的置标语言(eXtensibleMarkupLanguage,缩写XML)XML起源于SGML,SGML是HTML的前身。目前,XML语言主要用于跨平台数据的交换,W3C负责该标准的维护。由于XML是异构信息系统之间数据交换过程中数据编码的主要方式,在科学数据共享工程中规定采用XML编码,可以更加有利于增加接口定义的规范化和互操作特性。二、编制思路(一)本标准的基本原则制定数据模式描述规则和方法标准的目标有两个。一是解决不同来源、不同类型、不同交换格式和存储方式的数据描述问题。二是方便用户了解数据的内容和结构,这种用户不仅包括数据用户,同时也包括系统开发人员。数据模式描述规则和方法标准的作用是指导建立规范的、科学数据共享数据集的数据模式标科学数据共享通用标准培训教材-4-准。为达到上述的既定目标,本标准遵循了下述基本原则。n工业支持工业支持原则是指,利用一些成熟的工具,加速和规范化数据模式标准的建立。诸如,比较通用的建模工具软件有RationalRose,MicrosoftOfficeVisio,Togethor等。这些类型的UML工具软件,不但是基于“实体-关系”模型,而且还能够规范化、标准化表述数据集的内在组成结构。n针对性针对性原则是指,针对科学数据共享的具体问题有选择性的重点描述,而且还需要结合各个领域的科学数据资源和各方面的实际情况,有针对性的选择适当的工作方式。n成熟性成熟性原则是指,利用业界在信息建模方面的成熟经验。借鉴国内外的有益经验,在数据模式描述规则和方法标准中采用已经比较成熟的E-R模型、统一建模语言UML、数据字典形式描述。(二)本标准的工作思路为了制定出规范的数据模式标准,结合上述的基本原则,数据模式描述规则和方法标准采取的基本思路和解决方案如下所述。首先,明确数据的表述方法,能够准确、简单的描述数据。然后,再明确工作流程,从科学数据共享的具体情况给出具体的过程。最后,依据提供的一整套参考模板,产出相应的阶段成果和最终的共享数据集模式。当实际梳理数据模式时,还需要区分采用的是自顶向下,还是自下向上的工作方式。如果不存在领域级的数据模式标准,可以采取自下向上的工作方式,以共享数据集为单位,遵循数据模式描述规则与方法标准提供的各个阶段、步骤、操作指导,逐步构建数据模式标准。如果存在领域数据模式标准,建议采用自顶向下的工作方式。对已有的数据科学数据共享通用标准培训教材-5-模式标准进行考察后采标,结合共享数据资源的现状,直接进入数据模式建立与描述阶段。(三)本标准的适用范围数据模式描述规则和方法标准提出了的构建数据集数据模式的规范化描述方式、表示和操作的步骤,规范了各个领域里数据模式的制定。数据模式描述规则和方法标准适用于各领域制定科学数据共享数据集内容模式时使用,保障数据集生产者及数据集使用者对共享数据集内容能够无歧义的理解。本标准也可以用于一般的数据内容建模。这里还需要区分清楚科学数据共享数据集和业务数据资源共享两者之间的范围界定。科学数据共享数据集是指在业务数据资源的基础和前提上,遵照本领域的共享需求,经过加工、制作和规范化后的共享数据集。共享数据资源不包括有关业务管理方面的信息,不是单纯的业务数据交换共享,而是在业务数据的基础上经过加工和综合的规范化数据。业务数据资源则是共享数据的基础和前提,诸如业务数据库表、数据文件、自由文本等。(四)本标准与其他标准关

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功