11复习:元数据?•元数据(Metadata):–是关于数据的数据(Dataaboutdata).•前一个数据是:原始的媒体信息•后一个数据是:该媒体信息的格式化的描述。•元数据是关于媒体信息的格式化的描述信息。11复习:元数据?用于描述一个文献资源的内容及其与其它资源的关系的元数据。例如资源的名称、主题、类型等描述性元数据用于定义一个复杂的资源对象的物理结构。例如描述各个组成部分是怎样组织到一起的元素。结构性元数据以保存资源对象为目的的元数据,例如与资源对象长期保存有关的属性元素。存取控制性元数据以管理资源对象为目的的属性元素,包括资源对象的显示、注解、使用、长期管理等方面的内容管理性元数据11复习:元数据?•元数据模式是数据交换的“数据字典”113.3媒体数据编目技术•3.3.1基本概念•关键术语:编目:即编制目录,又称内容标引,是指对已经数字化资源的外部特征和内容特征进行分析、选择、表述,再根据相关标准将其按一定结构组成目录的过程,目的是能够方便、快速、准确的检索相关信息。本质:基于某种规范对媒体素材进行著录和标引形成元数据的过程媒体数据编目元数据编目标准113.2媒体数据转码技术•分类:1.单级编目。•特点:结构简单,所有与描述有关的信息都存储在一个数据表中,操作和查询比较简单明了,对于规模较小的管理系统较适用。•缺点:描述的信息较单一,以节目或素材的档案为主,缺少层次和描述的个性化。2.多级树状编目。是以描述节点为基本的描述单元,多个节点组成的树状描述结构。•优点:除了对描述节点可以重新定义外,还可利用这些节点组成一个完整的描述结构,就像一本书一样,详细地记载了节目或素材的每一个细节。也可利用这些节点组成一个较简单的单级描述结构,伸缩性比较大。•缺点:结构较复杂,对编目人员的素质要求较高。11•3.3.2元数据编码语言-XML3.2媒体数据转码技术•关键术语:元数据编码语言:是一种对元数据元素和结构进行定义和描述的语言。常用编码语言:•通用标记语言标准(SGML)•超文本标记语言(HTML)•可扩展标记语言(XML)11•元数据编码作用形式化表述—结构化,如标记语言—例:ISO2709,……元数据管理—组织与存储元数据表现元数据互操作长期保存3.2媒体数据转码技术SGML家族Other..HTMLSGMLXHTMLXML•TEI•EAD•RDF•OWL•ONIX•METS•MODS•MARC-XMLSGML(标准通用标记语言:StandardGeneralizedMarkupLanguage)ISO8879:信息处理---文本与办公系统---标准通用标记语言(SGML),([日内瓦]:ISO,1986)主要是为了定义通用的文件格式:—优点:»开放的ISO规范»可以描述复杂的文本,适用性强»适合支持对大信息容量及复杂的文本印刷的处理—缺点:»复杂的体系对效率与便携性是个挑战»成本很高,需要昂贵、复杂的软件支持»不能通过浏览器这种简单客户端来解析HTML(超文本链接标记语言:HyperTextMarkupLanguage)最新规范HTML4.01(W3C推荐稿(1999-12-04))是由TimBerners-Lee在1990年代为万维网应用开发的:—一个SGMLDTD(实际上是SGML的一个应用)—小型实用的固定的标记集—史上最成功的文档格式—维护机构:W3C超文本标记语言(HyperTextMarkupLanguage)一种简单的文本置标和排版语言,带有指向其他对象的链接,用于万维网。HTML的优缺点优点:—相对易学易用—适用面广,有很多应用工具—非常适合用作信息展现缺点:—“非标准”的各种实现—将信息展现与信息本身混合在一起—预定义的标记集发展的空间受限—链接能力受限HTML语言实例HTML实例:htmlhead/headbodypb张三/bbr系统网络中心br上海图书馆/p/body/html结果显示:张三系统网络中心上海图书馆XML(可扩展标记语言:eXtensibleMarkupLanguage)最新规范XML1.0(第三版)(W3C推荐稿(2004-2-4))最新规范XML1.1(W3C推荐稿(2004-2-4))“专用于网络世界的SGML”—支持SGMLDTD--实际上是SGML的一个子集,但避免了SGML的复杂与高代价—也是一种支持自定义标记集的“元语言”(利用XML的命名域机制)—能够描述元数据与内容,但是没有格式与展现部分的内容—缺省支持UNICODE—有一个完整的规范系列予以支持—维护机构:W3CXML(续)XML是一种基于内容的结构标记定义的语法体系—XML可以被用作:»标记一篇文档的结构与内容»表述结构化的元数据»作为一个容器表述非XML的内容»以上各种用途的综合—XML的一些原则:»可扩展:每一个个人、机构或团体都可以定义自己的标记体系以满足各自的需求»清晰明确:XML文档可以自我表述定义»构造能力:通过严格遵守的简单规则»可阅读:基本上是XML实例:?XMLversion=“1.0”encoding=“GB2312”?职工名字张三/名字部门系统网络中心/部门单位上海图书馆/单位/职工XML实例又一个XML实例?xmlversion=1.0encoding=GB2312?将帅姓名陈伯钧/姓名曾用名陈国懋/曾用名照片filename523173918.jpg/filename/照片出世年月1910年11月26日/出世年月逝世时间1974年2月6日/逝世时间籍贯四川省达县河市乡/籍贯职别北京高等军事学院院长/职别军衔上将/军衔授予时间1955年/授予时间荣获奖励1955年一级解放勋章/荣获奖励生平介绍陈伯钧(1910-1974)陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。....../生平介绍/将帅应用XML的优势在哪儿?数据处理能力更强:—索引–系统可以既快又聪明地索引XML文档—智能代理–XML能让计算机读懂哪一部分的文档内容是哪一类型的数据—数据交换–可以在不同的领域交换数据,各种数据中介将会更简单、便宜与可靠—应用–与应用无关的数据共享能力可移植性:—一次构建文档,可以按需要多次以各种格式发布(HTML、PDF或其他各种格式,包括在手机与PDA上的应用等等)—XML似乎要比其他文档格式寿命更长信息展示:—采用XSL/XSLT语言可以使文档内容可以很方便的以各种形式被剪裁、翻译以及格式化11•3.3.3.1DTD(文档类型定义)文档类型定义的作用是定义允许哪些或者不允许哪些内容在XML文档中出现。•定义用来表示数据的元素有两种方法。1.一种方法是使用文档类型定义(DocumentTypeDefinition),或简称DTD。DTD定义可以在XML文档中出现的元素、这些元素出现的次序、它们可以如何相互嵌套以及XML文档结构的其它详细信息。2.另一种方法是使用XMLSchema。模式可以定义您能在DTD中使用的所有文档结构,它还可以定义数据类型和比DTD更复杂的规则。113.2媒体数据转码技术•DTD允许您指定XML文档的基本结构。?xmlversion=1.0encoding=GB2312?!ELEMENT联系人列表(联系人)!ELEMENT联系人(姓名,编号,单位,职务,电话)!ELEMENT编号(#PCDATA)!ELEMENT姓名(#PCDATA)!ELEMENT单位(#PCDATA)!ELEMENT职务(#PCDATA)!ELEMENT电话(#PCDATA)113.2媒体数据转码技术113.2媒体数据转码技术11113.2媒体数据转码技术DTD的调用要利用DTD来验证XML文档是否有效,就必须把XML文档同DTD文件关联起来,这种关联就是DTD调用。DTD调用也称为文档类型声明,他出现在XML文档的序言部分,在XML声明之后,在其他基本元素之前。文档类型声明•内部DTD声明•外部DTD声明11内部DTD声明DTD定义语言直接放XML文档中的声明方式:!DOCTYPE文档类型名[DTD定义语句]带有DTD的XML文档实例(请在IE5以及更高的版本打开,并选择查看源代码):?xmlversion=1.0?!DOCTYPEnote[!ELEMENTnote(to,from,heading,body)!ELEMENTto(#PCDATA)!ELEMENTfrom(#PCDATA)!ELEMENTheading(#PCDATA)!ELEMENTbody(#PCDATA)]notetoGeorge/tofromJohn/fromheadingReminder/headingbodyDon'tforgetthemeeting!/body/note11外部DTD声明在XML文档中引用已经编写好的独立DTD文件:!DOCTYPE根元素SYSTEM文件名这个XML文档和上面的XML文档相同,但是拥有一个外部的DTD:?xmlversion=1.0?!DOCTYPEnoteSYSTEMnote.dtdnotetoGeorge/tofromJohn/fromheadingReminder/headingbodyDon'tforgetthemeeting!/body/note这是包含DTD的note.dtd文件:!ELEMENTnote(to,from,heading,body)!ELEMENTto(#PCDATA)!ELEMENTfrom(#PCDATA)!ELEMENTheading(#PCDATA)!ELEMENTbody(#PCDATA)11XSL样式单语言•XML用于承载数据,而XSL则用于设置数据的格式。•W3C正式推荐的样式单标准有两种:一种是层叠样式单(CascadingStyleSheet,CSS);另一种是可扩展样式单语言(eXtensibleStyleLanguage,XSL)。–下面是根据上述的DTD设计的一种XSL样式:?xmlversion=1.0encoding=gb2312?xsl:stylesheetxmlns:xsl=:templatematch=/htmlheadtitleXML示例/title/headbodypalign=centerspan通讯录/span/pdivxsl:apply-templatesselect=联系人列表//div/body/html/xsl:template……11XSL•XSL是一种标记语言,表示如何将XML文档的内容转换成另一种形式的文档。•XSL使用XML来描述规则、模板和模式。•xls:stylesheet:根元素•xls:template:表示模板规则•XSL文档的第一行实际上都是XML声明:•?xmlversion=1.0encoding=ISO-8859-1?11元数据组织法实例介绍——DublinCore•DublinCore产生于1995年3月在美国俄亥俄州的都柏林召开的第一届元数据研讨会,后历经了7次研讨,逐步形成了稳定的元素集。目前DublinCore已得到了国际间的广泛承认,是世界上使用最广泛的元数据格式,具有最强的适应性和最大的弹性。DublinCore元数据元素集1.1版本已成为国际标准ISO15836、美国国家信息标准Z39.85以及其他多个国家标准。