Dspace系统文档(选译)糊涂小三一、简介Dspace是一个开软软见平台,它具有如下功能:●通过使用工作流提交模块或者一系列的规范获取接口获取和表述数字资源。●使用搜索系统和检索,通过网络的方式发布机构所拥有的数字资产。●长期保存数字资产。Dspace系统文档对系统功能作了一个整体的描述。它对Dspace系统进行了一个良好的性能描述,为非技术人员学习使用Dspace系统是一个良好的导向。在阅读整个系统文档之前,读者应该首先阅读这一部分内容,因为该部分内容包括许多后续文档中用到的术语。对于需要运行Dspace系统的用户来说,文档提供了安装指南,以及如何配置系统以及介绍系统目录结构的相关内容。注意:自从Dspace1.2版本之后,系统就提供了有关用户接口管理的在线帮助手册。最后,为了那些Dspace系统爱好者能更好的了解Dspace系统如何工作,为了使使用者能根据具体应用对Dspace系统进行修改使用,文档中提供了Dspace详细系统架构和设计部分的内容。Dspace系统文档还提供了如下一些有用的信息。DspacePublicAPIJavadocsDspaceWiki:AlistofDSpaceresourcesFAQ:TechnicalFAQProjects:AlistofprojectsusingDSpaceGuidelines:GuidelinesforcontributingbacktoDSpace二、Dspace功能介绍1.DataModel(数据模型)Dspace系统中数据组织方式能很好地反映一个组织的结构。每个Dspace站点被分成若干个Communities,每个community对应一个实验室、研究中心、或者部门。Communities由Collections组成,这些Collections将相关的内容(数字资产)分组。一个Collection可能同时出现在几个不同的Communities中。一个Collection由多个item组成。2.Metadata(元数据)一般来说,Dspace系统支持三种类型的元数据(1)Descriptivemetadata(描述元数据)每一个条目(item)包含一个规范的DC元数据记录。MIT实验室使用的元素和限定词集合是一个Dspace源代码默认的配置。另外的关于条目(item)的描述元数据存在于一系列的Bitstream中。Communities和Collections也包含一些简单的描述元数据,这些元数据存储于DBMS中。(2)AministrativeMetadata(管理元数据)管理元数据包括保存元数据(preservationmetadata)、起源数据(provenance)以及授权政策数据(authorizationpolicy)。大部分数据于Dspace的关系数据库管理系统模式中。起源元数据(provenancemetadata)存储于DC元数据记录中。此外,其他的管理元数据被复制到DC元数据记录中以便Dspace系统访问者能够轻松实现数据访问。(3)StructuralMetadata(结构元数据结构元数据包含如下信息:条目(item)描述信息、条目内部的字节流(bitstream)描述信息、条目各组成部分之间的关系信息(对最终用户而言)。例如:假定一篇论文由若干TIFF格式的图片构成,每一张图片表示论文的一页;那么,结构元数据将包含如下信息:每一个图片由一个单独的页面构成;每个页面或者图片在论文中的位置。3.Eperson(电子用户)Dspace电子用户的功能:控制资料提交、系统管理权限等。Dspace系统中,每个e-person由如下信息构成:E-mail地址、姓名、是否允许用户通过WebUI登陆系统、用户密码、是否是用户自己注册、networkID等。4.Authorization(授权)Dspace授权系统与EpersonGroup和ResourcePolicy紧密联系。Dspace系统包含两个特殊的组(Groups):“administrator”(能对系统进行任何操作)和“anonymous”(包含所有用户的表列)。Assigningapolicyforanactiononanobjecttoanonymousmeansgivingeveryonepermissiontodothataction.对一个对象的一个操作(action)指派一个“anonymous”意味着允许系统的所有用户执行指定操作。目前,Dspace系统的Collections、Communities以及Items都是可以公开浏览的。仅仅在阅读全文内容时受到阅读权限控制。Community:ADD/REMOVE添加/删除Community中的collections/sub-communitisCollection:ADD/REMOVE添加/删除itemsDEFAULT_ITEM_READinheritedasREADbyallsubmitteditemsDEFAULT_BITSTREAM_READinheritedasREADbybitstreamsofallsubmitteditemsCOLLECTION_ADMIN编辑条目(edititems)、删除条目(withdrawitems)、mapotheritemsintothiscollectionItem:ADD/REMOVE添加/删除条目(items)READ浏览条目内容(viewitem)WRITE修改条目内容(modifyitem)BUNDLE:ADD/REMOVE从Bundle(包)中删除字节流(bitstream)BITSTREAM:READ浏览BitstreamWRITE修改Bitstream5.IngestProcessandWorkflowDSpaceIngestProcessInprogressInformation:该类封装了将要导入dspace数据库系统的Item的所有内容。可以通过三种方式将item导入到Dspace系统中;WebUI接口提交ItemBatchItemImporter批量导入直接对DspaceDBMSTable进行数据写入。该方法安全性不好,如果对Dspace系统架构不熟悉的话,不建议使用。TheItemInstaller:指派一个访问日期(AccessionDate)把字段“date.available”的值添加到Item的DC元数据记录中(DublinCoreMedatadataRecordofItem)添加发行日期(如果元数据记录中没有)(issuedate)添加provenancemessage(含bitstreamchecksums)添加items到指定的collections,同时添加合适的授权信息(authorizationpolicies)创建新增items的浏览和检索索引6.WorkflowSteps(工作流步骤)一个Collection的工作流workflow可以分为三个步骤。每一个Collection都存在一个相关的e-persongroup来执行相应的步骤。如果没有e-persongroup与相应的步骤(step)对应,那么该步骤将被跳过(skipped)。如果一个Collection的任何步骤都没有与一个e-persongroup相关联,那么Collection的提交信息将被直接载入档案。换句话说(Inotherwords),workflow的工作顺序如下:Thecollectionreceivesasubmission.Ifthecollectionhasagroupassignedforworkflowstep1,thatstepisinvoked,andthegroupisnotified.Otherwise,workflowstep1isskipped.Likewise,workflowsteps2and3areperformedifandonlyifthecollectionhasagroupassignedtothosesteps.SubmissionWorkflowinDspace7.HANDLES为存储在Dspace系统中的每一个Community、Collection、Item创建一个永久标识符(persistentidentifier)。Dspace使用CNRIHandleSystem创建标识符(identifiers)。Dspace主要使用Handles来为每一个数字对象指定一个全球唯一的标识符。每一个运行Dspace系统的站点需要从CNRI获取一个HandlePrefix。一旦用户创建CNRI指定的HandlePrefix来创建标识符,所创建的标识符就不会和全球其他的标识符产生冲突。Handles可以用两种方法来书写:hdl:1712.123/4567‘Persistent’IdentifiersEachbitstreamhasasequenceID,uniquewithinanitem.ThissequenceIDisusedtocreateapersistentID,oftheform:dspaceurl/bitstream/handle/sequenceID/filename9.Dspace系统提供两种方法来存储Bitstreams。一种是将Bitstreams存储于服务器端的文件系统中;另一种是使用SRB。两种方法都通过简单而有效的API来实现。SRB是用来代替服务器端文件系统或者同服务器文件系统一同使用的不二选择。无需过多的描述,SRB是一个稳定的(Robust)并久经考研的存储管理器(StorageManager),它从根本上提供了从本地或者远程存储系统复制内容的无存储限制的直截了当的方法。10.SearchandBrowseDspace允许最终用户使用多种方法发现其存储的数字资源:Handle:CNRI服务器访问检索一个或多个关键词:元数据或者全文索引浏览:使用Lucene开源软件包对title、date、author进行索引检索(Search)是Dspace系统中重要的资源发现组件。用户对搜索引擎的要求很挑剔,Dspace搜索组件的目标是为用户提供尽可能多的搜索特性。Dspace系统的索引和搜索模块由一个简单的API构成,该API可以索引新内容、重新生成索引、在全部资源、Community以及Collections上进行搜索。该API的核心组件是一个开源的Java全文搜索引擎包Lucene。资源浏览机制是Dspace系统中又一重要的资源发现组件。浏览子系统也提供了一个有效的API,该API可以指定索引以及索引的部分内容。Dspace系统中,可以通过title、itemissuedate(条目发布时间)以及authors(作者)的索引来浏览相应的内容。此外,浏览的内容还可以限定在特定的Community或者Collection中。11.HTMLSupport在极大程度上(Forthemostpart),在不经任何修改的情况下(as-is),目前Dspace系统仅支持简单的Bitstream上传和下载。这对大多数常规的文件格式(如:PDFs、Microsoftworddocuments、spreadsheets等)来说,是一个很不错的选择。但是,HTML文档却要复杂得多,涉及到数字保存这里还又许多重要的问题需要解决。网页由多个文件组成:一个或者几个相互关联的HTML文件,级连样式表以及图形文件。网页通常链接到其他页面,或者包含其他页面的内容。因此,在短期内,但用户浏览某个网页时,他同时也需要浏览与该网页相关联的其他网页。通常,网页都是由网络服务器动态生成的,并且反映相应数据库内容的变化。解决以上问题是大多数文档研究的议题。目前,Dspace系统处理了这些问题的极小的一部分。Dspace系统能够存储并且在线浏览自保容的非动态