名人手稿馆元数据方案的设计和实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

名人手稿馆元数据方案的设计和实现上海图书馆名人手稿数字图书馆课题组1(上海图书馆200031)名人手稿是上海图书馆的特藏之一,上海图书馆自1992年开始恢复向社会各界征集名人文献的工作,1996年新馆开放后,更是加快步伐、增强力度进行收集整理,目前藏品已逾5万2千余件。建设一个名人手稿数字图书馆是上海图书馆数字图书馆建设的一项重要工程。根据实际情况,名人手稿数字图书馆的建设将分期进行。在大规模地数字化之前,名人手稿数据库的建设将先期完成,同时进行数字图书馆系统的设计和试验性数字化,形成名人手稿数字图书馆的一个原型系统,供研究、演示和进一步修改完善后投入使用。项目开始之初,课题组从元数据标准规范和数字化项目两个角度进行了全面考察。国际上类似的项目只有近期完成的“欧洲手稿与书信网络集成(MALVINE)”2项目在需求、复杂程度和技术环境方面昀为接近,于是我们与该项目的人员取得了联系,获得了其完整的元数据元素列表。但由于该项目是一个手稿与书信的联合目录项目,采用的属性元素集合没有考虑直接执行有关的元数据标准,因此我们仅仅从属性元素的选取方面参考了该项目,在体系结构和方案设计上没有太多的借鉴。名人手稿数字图书馆的开发目的是对名人手稿馆所涉及的所有资源进行有效的管理和利用。元数据方案是数字图书馆需求分析和系统设计时需要首先考虑的因素,是数据加工制作、藏品数字化和系统设计与功能实现的基础。制定名人手稿馆元数据方案的目的是提供其所涉及的所有资源类型的属性定义和置标方案(也就是相当于传统上的制定编目规则和目录格式),为名人手稿数字图书馆提供资源管理(又称为内容管理)方案。元数据方案基本上决定了系统的整个架构,以及系统设计(包括各类著录系统、检索系统、管理系统等)的需求。名人手稿馆馆藏在许多方面不同于图书馆传统的资源,它是文献和文物的结合。其元数据方案也不同于一般博物馆的元数据方案。与通用元数据标准的制定所不同的是,后者考虑更多的是互操作性和通用性,需要进行许多妥协和折衷,会牺牲许多个性和细节,而“名人手稿馆元数据方案”必须详尽地考虑和满足资源管理、保存、揭示、检索、利用等各方面需求,同时也要在实现众多个性化的需求之外,保证与上海图书馆的整个数字图书馆架构兼容,甚至与正在制定中的国家标准兼容,并符合国际上通行的标准和做法。只有这样,才能实现较高的互操作性、灵活性和可扩展性。总体考虑由于名人手稿馆的馆藏资源丰富,种类繁杂,本方案所针对的对象不仅仅是名人手稿,确切地说应该是“名人手稿馆信息系统元数据方案”,包括创作手稿、信函、书画篆刻作品、照片、签名本、日记、录音/录像资料、奖状奖章等各方面的资料,并且有可能还会增加。对于这样一个复杂的系统,系统设计的开放性、灵活性、可互操作性和可扩展性就显得非常1本课题成员有:祝均宙,刘炜,赵亮,浦纯,楼向英,张春景,夏翠娟,孙秀娣,王洪治,徐频,朱小灵,王恺顺。本文执笔:刘炜,楼向英,张春景2参见:重要,而且还要兼顾其永久保存的特性和整个信息处理流程易管理性的考虑。按照传统的方法,可以请负责系统设计的计算机专家、资源管理部门的文献专家和系统将来的用户一起,对每一种资源类型乃至整个系统提出详尽的著录、检索和其他功能需求,然后通过开发专用的数据库系统来实现。这样做的问题是,系统一俟开发出来,就可能是一个“遗留系统”,虽然能够实现名人手稿馆对于信息管理的需求,但是不具有数字图书馆所要求的开放性、互操作性和可扩展性,将对上海图书馆现有的计算机信息管理系统带来新的互操作问题,也很难在资源内容上方便地与其他“数字图书馆”系统互通互联。整个系统将成为一个典型的“封闭系统”而不是“数字图书馆”。或者可以按照目前“数字图书馆”的一般设计方法,制定一个包含“核心”元素和所有扩展元素的并集,作为元数据方案。但这样一个方案有一个危险,它无法保证与将来的国家标准,甚至上海图书馆自身的元数据标准相统一,因为这些标准尚在讨论之中,还未定稿,但是由于项目实施尚有两年甚至更长的过程,这些标准有可能在项目实施过程中就会逐步制定出来,这个过程中碰到的兼容性和互操作性问题很难处理。为了尽可能避免上述问题,我们考虑制定一些基本原则,依据这些原则制定具体的工作手册,以求昀大限度地获得灵活性和可扩展性。首先在体系结构方面尽可能参照一些成熟的参考模型、分析模型来做,例如OAIS3所提供的信息系统参考模型在数字资源的永久保存方面提供了一个思考框架,国家图书馆已经在它的基础上有一些元数据方案的探索4;FRBR5对数字对象整个生命周期不同过程和形态的关系建立了一个思考框架,对于建立复杂的数字对象之间的ER模型以及不同阶段知识产权属性的管理非常有用,这个模型还可以看成是一个初步的名人手稿资源的本体模型。在元数据描述语义方面我们考虑尽可能“复用”现有的方案和标准,而尽可能少地“创造”新的元素;整个元数据方案按照DCMI对于元数据应用概要(ApplicationProfile)的抽象模型6来建立。在置标方面尽可能采用标准的方案或者灵活的XML/RDF7模式。因此名人手稿数字图书馆的元数据方案是一种“混合”型元数据应用概要的形式,即借鉴OAIS、FRBR以及DCMI目前正在形成的AbstractModel作为方法论,采用以DC-Lib8为基础的“上海图书馆元数据方案”作为核心元数据9,并从多种元数据标准、方案中“复用”元素,对所有元素的语义强调严格遵从,但在著录规范中对在每种特定资源类型中的具体含义进行补充说明,限定或扩展方式也强调尽可能采用现有的框架、体系和规范,并充分采用XMLSchema(METS10和MODS11等)和RDFs(WSDL12)提供的结构限定方式,昀后再考虑增加子元素或元素。本文是对名人手稿馆元数据方案的总体介绍,包括原则、流程、框架、模型、元素集(包括核心集和扩展集)及其置标的考虑等等,限于篇幅,不可能介绍得非常详细,规范控制和系统的需求与设计将在以后另文阐述。当然本项目是一个具体实践,限于条件和水平,在实3ReferenceModelforanOpenArchivalInformationSystem(OAIS).ConsultativeCommitteeforSpaceDataSystems(CCSDS).URL:(检索日期:2004-2-1)4中文元数据方案(征求意见稿).国家图书馆.内部资料,2001年6月5FunctionalRequirementsforBibliographicRecords(FRBR).IFLAStudyGroupontheFunctionalRequirementsforBibliographicRecords.URL:(检索日期:2004-2-1)6DublinCoreAbstractModel.AndyPowell.URL:(检索日期:2004-1-14)7RDFVocabularyDescriptionLanguage1.0:RDFSchema.W3CProposedRecommendation.URL:(检索日期:2004-2-1)8LibraryApplicationProfile.RebeccaGuenther.URL:(检索日期:2004-1-14)9这一核心集也包含了IFLA提出的10项“核心记录元素(CoreMetadataElements)”集合(草案)。参见:(METS).URL:(检索日期:2004-1-14)11MetadataObjectDescriptionSchema(MODS).URL:(检索日期:2004-2-1)12WebServicesDescriptionLanguage(WSDL)1.1.W3CNote.URL:(检索日期:2004-2-1)现时必然有许多妥协和折衷,缺憾之处在所难免,敬请批评指正。设计原则设计原则是设计思想的具体体现,贯穿整个设计过程,对项目的后期实施也会产生巨大影响。名人手稿馆元数据方案的设计原则一部分可以是元数据方案设计的通用原则,但在具体尺度的把握上有自己的特色,另一部分属于具体原则,专门针对本项目而制定。通用原则包括如下六项13:1.简单性与适用性原则简单性要求元数据方案尽可能采用精简的“核心”元素集,以便于实现,降低成本,加快实现进度,以及有利于互操作的实现;适用性要求数据元素必须“够用”,必须能够完全实现系统需求。简单性和适用性是一对矛盾,参与方案设计的各方人员往往会有不同意见,需要仔细斟酌。对于名人手稿馆元数据方案,我们以适用性原则为重点,同时从技术实现的角度删繁就简,满足昀低“核心”元素集的要求。2.专指度与通用性原则专指度指对于特殊领域资源描述所提出的特殊要求的满足,例如名人手稿馆元数据方案中的“捐赠人”、“捐赠日期”、“书写工具”、“誊写人”等描述要求;通用性原则要求考察是否有更一般的或这些“专指概念”的上位概念能够满足描述要求,例如考虑某一“专指”元素到一个一般“核心”元素的映射或考虑如何进行“dumpdown”的方案;决定是用“专指”元素还是“通用”元素的过程,就是权衡专指度与通用性的过程。这两个原则也是一对矛盾,其实这也是考虑互操作问题。在名人手稿馆元数据方案中典型的例子是:如果考虑通用性,对于不同资源类型的相应元素定义统一的元素名称(如“责任者”),这样对于某些类型的资源会显得非常别扭(例如对应“书信”中的“下款名”),这就需要权衡,是增加元素,还是增加修饰,还是在系统实现时进行处理,等等。3.互操作性与易转换性原则因为元数据方案的立足点就是解决互操作问题,这里的许多原则实际上都是在一个侧面或从一定程度上解决互操作问题。可以看出“互操作性”原则是元数据方案设计和实现中需要遵循的昀重要的原则,通过尽可能地复用标准方案、复用元素、或复用修饰词及扩展方式,以及建立映射、转换机制等方式来达成互操作性。易转换性原则指元素的含义应该尽可能符合“原子性”要求,以便于向其它元数据方案(一般是标准的或“核心”的方案)映射或转换,尽可能保证在映射和转换过程中语义不损失。4.灵活性与可扩展性原则强调标准性和专指性常常都意味着灵活性和可扩展性的损失。灵活性和可扩展性都是指元数据方案对于未来的适应性,常常要求总体的平衡,不能在某一方面强调过度。例如对于限定,应该支持多种限定方式,同时个别元素的限定级别不宜过深;对于现有标准的遵循,不宜过于严格以至于标准的未来版本扩展了元素而自己制定的方案却扭曲地局限在“核心元素”的限定上(有些方案将许多扩展都置于DCMES的”Description”下,以至于这个元素过于臃肿,同时增加了限定级别,方案显得非常不灵活)。5.用户需求原则这一原则是不言而喻的。但是其前提是必须分清谁是用户。名人手稿馆元数据方案的用户首先是其工作人员,因为整个系统首先作为馆藏管理系统,然后是专业用户。普通读者的需求可以包含在专业用户中。13六项通用原则的前五项参考2003年7月《专门数字对象描述元数据规范研制工作手册(修订稿)》并根据名人手稿馆的应

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功