媒体资产管理技术MediaAssetManagement第5章:元数据与媒体数据交换MEDIAASSETMANAGEMENT第5章元数据与媒体数据交换元数据的基本概念1元数据编码语言2媒体元数据主要标准3媒体文件交换格式4§5.1.1元数据的定义元数据(Metadata):是关于数据的数据(Dataaboutdata).前一个数据是:原始的媒体信息后一个数据是:该媒体信息的格式化的描述。元数据是关于媒体信息的格式化的描述信息。MEDIAASSETMANAGEMENT§5.1.1元数据的定义元数据——媒体信息的格式化的描述信息MEDIAASSETMANAGEMENT内部表示:MON§5.1.1元数据的定义一级二级三级记录简单格式结构化格式复杂格式特征私有(非开放的)正形成的标准已成为国际标准全文索引结构化字段详细标识格式LycosDublinCoreICPSRAltavistaIAFATemplatesCIMIYahooetc.RFC1807EADSOIFTEILDIFMARCMEDIAASSETMANAGEMENT元数据的三个级别§5.1.2元数据的类型和特点用于描述一个文献资源的内容及其与其它资源的关系的元数据。例如资源的名称、主题、类型等描述性元数据用于定义一个复杂的资源对象的物理结构。例如描述各个组成部分是怎样组织到一起的元素。结构性元数据MEDIAASSETMANAGEMENT以保存资源对象为目的的元数据,例如与资源对象长期保存有关的属性元素。存取控制性元数据以管理资源对象为目的的属性元素,包括资源对象的显示、注解、使用、长期管理等方面的内容管理性元数据§5.1.2元数据的类型和特点元数据应用的一些共同点(1)元数据一经建立,便可共享;(2)元数据的结构和完整性依赖于信息资源的价值和使用环境;(3)元数据的开发与利用环境往往是一个变化的分布式环境;(4)元数据要求使用起来简单,不太可能一个标准可以涵盖多种数字对象的特征,因此一个元数据方案通常只用于描述一种或几种类似的数字对象上;(5)元数据是用来描述数字化信息资源的编码体系,这导致了元数据和传统的基于印刷型文献的编目体系根本区别,元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。MEDIAASSETMANAGEMENT§5.1.3元数据模式元数据模式(MetadataSchema)用于指明元数据之间的结构和语义关系。模式不仅应该能够定义数字资源的结构和语义等关系,而且还应该允许对其内容进行自动检查和对元数据进行有效性验证。一般来说,元数据集合仅定义了描述最基本的数据特征的元数据成分,这些元数据成分仅能描述比较简单的数据特征,想要得到结构上更加复杂、语义上更加丰富的元数据描述,就必须利用元数据模式来对元数据集合进行定义和组织。MEDIAASSETMANAGEMENT§5.1.3元数据模式元数据模式是数据交换的“数据字典”MEDIAASSETMANAGEMENT§5.1.3元数据模式定义元数据模式的工具应该满足如下7个条件:1)层次结构的定义:元数据模式应该能定义元素的层次结构关系;2)元素和属性的继承:为了重用与共享,应该支持元素和属性的继承;3)名称空间(Namespace):用来解决名字冲突的问题,尤其是语义的冲突;4)数据类型机制(DataTyping):不仅应该支持简单数据类型和复杂数据类型,还应该支持数据模式;MEDIAASSETMANAGEMENT§5.1.3元数据模式定义元数据模式的工具应该满足如下7个条件:5)时间和空间的表示:比如时间表示为开始时间、结束时间和持续时间;而空间可以用区域表示等;6)时间和空间的同步关系:同步是多媒体数据最重要的特征,例如,时间的同步关系可以表示为顺序关系和并行关系等。模式应该能够根据由时间和空间的同步关系所给定的完整性约束条件对元数据的值进行有效性验证,例如视频序列中的镜头的起始时间必须限定在它所属的场景的起止时间内;7)易读的和机器可理解的。MEDIAASSETMANAGEMENT§5.1.3元数据模式描述元数据特征的元素的集合。属性集确定这些元素的取值范围及规范。受控词集MEDIAASSETMANAGEMENT根据所确定的受控词集,规定一套分类编目方案。受控词分类方案确定记录和存储元数据的格式。表现形式元数据模式定义过程§5.1.1元数据的定义元数据结构实例元数据格式描述(对象方式):Product{Manufacturer:TEXT;ProductList:LISTOF{Name:ANCHOR;Price:TEXT;}}MEDIAASSETMANAGEMENT§5.1.1元数据的定义元数据的语言:[Wrapper][contentpackage]description.title=“DaysofourLives”descriptionsubtitle=“Episode24”description.owner=“XYZ-TV”[contentitem]description.title=“firstprogramsegment”temporal.duration=00:00:10:05[contentitemelement]video.format=“5254:2:2”video.location=“server1\days24_1.vid”……MEDIAASSETMANAGEMENT§5.1.1元数据的定义元数据标准:网络资源:DublinCore、IAFATemplate、CDF、WebCollections文献资料:MARC(with856Field),DublinCore人文科学:TEIHeader社会科学数据集:ICPSRSGMLCodebook博物馆与艺术作品:CIMI、CDWA、RLGREACHElementSet、VRACore政府信息:GILS地理空间信息:FGDC/CSDGM数字图像:MOA2metadata、CDLmetadata、OpenArchivesFormat、VRACore、NISO/CLIR/RLGTechnicalMetadataforImages档案库与资源集合:EAD技术报告:RFC1807连续图像:MPEG-7MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第5章元数据与媒体数据交换元数据的基本概念1元数据编码语言2媒体元数据主要标准3媒体文件交换格式4§5.2元数据编码语言XML语言简介XML,或称为可扩展标记语言(ExtensibleMarkupLanguage),是一种基于元数据的标记语言。它由万维网协会(W3C)创建,用来克服HTML(即超文本标记语言HypertextMarkupLanguage,它是所有网页的基础)的局限。和HTML一样,XML基于SGML—标准通用标记语言(StandardGeneralizedMarkupLanguage)。尽管SGML已在出版业使用了数十年,但其理解方面的复杂性使许多本打算使用它的人望而却步。XML是为Web设计的。MEDIAASSETMANAGEMENT§5.2元数据编码语言使用XML的优点1)保证了元数据的结构化,易于被计算机处理和交流,对人来说也有很好的可读性。2)标记语言采用了最简单的文本格式,使其具有很强的兼容性和不依赖于软硬件平台的独立性,同时这些特性也确保其具有很强的生命力。3)可以将元数据与资源内容的管理结合在一起,元数据描述与其被描述的对象整合在一起大大提高了内容管理与交换元数据的可用性。MEDIAASSETMANAGEMENTXML语言简介HTML始终是最成功的标记语言。您几乎可以在任何设备(从掌上电脑到大型机)上查看最简单的HTML标记,并且您甚至可以用合适的工具将HTML标记转换成语音和其它格式。既然HTML成功了,为什么W3C还要创建XML呢?为了回答这个问题,请查看下面这个文档:pbMrs.MaryMcGoon/bbr1401MainStreetbrAnytown,NC34829/pHTML的问题在于它是为人设计的。即使不用浏览器查看上面的HTML文档,大家也会知道那是某个人的邮政地址。MEDIAASSETMANAGEMENTXML语言简介现在让我们来看一个样本XML文档。使用XML,您可以给文档中的标记赋予某种含意。更重要的是,机器也容易处理这样的信息。您只需通过找到postal-code和/postal-code标记之间的内容(技术上称为postal-code元素),就可以从该文档抽取邮政编码。MEDIAASSETMANAGEMENTXML语言简介addressnametitleMrs./titlefirst-nameMary/first-namelast-nameMcGoon/last-name/namestreet1401MainStreet/streetcitystate=NCAnytown/citypostal-code34829/postal-code/addressMEDIAASSETMANAGEMENTXML可说明每个属性的含义XML语言简介XML文档必须包含在一个单一元素中。这个单一元素称为根元素,它包含文档中所有文本和所有其它元素。在下面的示例中,XML文档包含在一个单一元素greeting中。请注意文档有一行注释在根元素之外;那是完全合乎规则的。?xmlversion=1.0?!--Awell-formeddocument--greetingHello,World!/greeting而不包含单一根元素的文档不管该文档可能包含什么信息,XML解析器都会拒绝它。MEDIAASSETMANAGEMENT§5.2.1DTD文档定义用来表示数据的元素有两种方法。1.一种方法是使用文档类型定义(DocumentTypeDefinition),或简称DTD。DTD定义可以在XML文档中出现的元素、这些元素出现的次序、它们可以如何相互嵌套以及XML文档结构的其它详细信息。DTD是最初的XML规范的一部分,与SGMLDTD非常相似。2.另一种方法是使用XMLSchema。模式可以定义您能在DTD中使用的所有文档结构,它还可以定义数据类型和比DTD更复杂的规则。W3C在提出最初的XML规范的几年之后开发了XMLSchema规范。MEDIAASSETMANAGEMENT§5.2.1DTD文档DTD允许您指定XML文档的基本结构。?xmlversion=1.0encoding=GB2312?!ELEMENT联系人列表(联系人)!ELEMENT联系人(姓名,编号,单位,职务,电话)!ELEMENT编号(#PCDATA)!ELEMENT姓名(#PCDATA)!ELEMENT单位(#PCDATA)!ELEMENT职务(#PCDATA)!ELEMENT电话(#PCDATA)MEDIAASSETMANAGEMENT§5.2.2XSL样式单语言W3C正式推荐的样式单标准有两种:一种是层叠样式单(CascadingStyleSheet,CSS);另一种是可扩展样式单语言(eXtensibleStyleLanguage,XSL)。下面是根据上述的DTD设计的一种XSL样式:?xmlversion=1.0encoding=gb2312?xsl:stylesheetxmlns:xsl=:templatematch=/htmlheadtitleXML示例/title/headbodypalign=centerspan通讯录/span/pdivxsl:apply-templatesselect=联