精品文档元数据在电子化学位论文中的应用探讨金毅王绍平(上海交通大学情报科学技术研究所,上海200030)摘要目前,元数据的研究和应用方兴未艾。网络电子资源使用元数据的优点是显而易见的,但只有基本的元素和修饰词比较一致,有了统一的标准,而在某些专业领域的应用上还不成熟,研究也不够深入。本文参考国内外在电子化学位论文和元数据研究和应用的最新成果,探讨了元数据在电子化学位论文中的应用,总结了电子化学位论文中使用元数据的优点并提出一个初步的元数据集。关键词学位论文电子化元数据DCThestudyonapplicationofmetadatainelectronicthesisanddissertationJinYi,WangShaoping(InstituteofInformationScienceandTechnology,ShanghaiJiaoTongUniversity,Shanghai200030)AbstractThestudyandapplicationofmetadataareboomingnow.Theadvantagesofusingmetadatafornetworkelectronicresourcesareobvious.Butonlythebasicmetadataelementsandqualifiershaveunifiedstandard.Researchandapplicationinsomespecialareasarenotdeep.Thisarticlestudiesthelatestresearchonmetadataandelectronicthesis,anddiscussestheusageofmetadatainelectronicthesis,concludestheadvantagesoftheapplication,andproposesaninitialmetadataelementset.Keywordsthesis,dissertation,electronic,metadata,DC1引言随着信息技术的发展和Internet应用的日益普及和深入,网上资源成为获取信息越来越重要的途径。提供数字化、无纸化的电子网络信息服务是图书馆等信息提供者的当务之急。研究生学位论文是研究生申请硕士或博士学位的研究成果,对于相关专业的研究开发有重要的参考价值。现在许多高校都在积极研究和开发学位论文的电子化,作为将来数字化图书馆的重要组成部分,无疑是很有意义的工作。但网络信息资源的存储、获取、使用和传输与传统信息资源又有很大不同,如何在浩如烟海的网络信息空间中高效、迅速地做到信息的共享和交换,如何为电子化的网络资源提供有效的信息组织方式,是当今信息网络发展的一个热点。图书馆界和情报界对信息资源数据规范的研究已经很久了,元数据也不是新生事物,传统的图书馆卡片、图书的版权说明等都是元数据。标准的元数据格式也已经广泛使用,如MARC(机读目录格式)、AACR(英美编目条例)等都精品文档是元数据的格式。目前绝大部分的书目记录均采用上述格式,在数据检索的查准率和数据描述的丰富性上还没有其它的元数据格式可以超过它们。但是MARC和AACR也有局限性:需要在专门的软件系统中使用,不太适合Internet的环境;编制记录要经专业训练,花费较长的时间;不易处理动态的多媒体信息;程序修订复杂、缓慢。由于以上这些局限性,在网络环境中传统的数据描述格式已跟不上形势发展的需求,许多元数据研究项目纷纷出现。众多的元数据研究项目中,在图书馆界和情报界影响最大、应用最为广泛的就是DC(DublinCore)MetadataElementSet,既都柏林核心元数据集。从1995年产生,经6年多的研究和探讨,DC已被翻译成多种文字,用户遍及世界各地。许多国家已经将DC纳入国家标准中描述电子信息的一个部分,其影响正在不断扩大。电子化的学位论文因其特点,非常适合采用以DC为基础的元数据来描述,具有很好的应用前景。2电子化学位论文采用元数据的优点DC元数据集由15个基本元素组成,这15个基本元素称为“简单DC”,分三个部分:内容描述部分、知识产权部分和外形描述部分。根据DC的可选择性原则,可以简化着录项,最低限度只要7个元素(题名、主题、出版者、日期、类型、格式和标识符)就可以了。为了描述需要详细着录的资源,DC又推出了“复杂DC”,引进了修饰词的概念,用于进一步明确元数据的特性。这样可以把MARC、AACR的优点和各种已有的分类法、主题词表等控制语言吸收进来,极大地丰富了DC的描述性,并允许DC的地方版在15个基本元素的基础上增加新的元素和修饰词。DC的整个元素集是可扩展的,每个元素可以重复使用或有选择地使用,而且还可以拥有子类型和子模式来增强功能。这样,DC就具有可选择性、可修饰性、可重复性和可扩展性的优点。在电子化学位论文中使用以DC为基础的元数据能充分发挥DC元数据在描述电子信息资源的优势,具有以下优点:(1)数据结构简单,可读性强。DC只有15个基本着录项,而且可以重复使用或有选择地使用。通过使用修饰词,可以方便地扩展和描述电子资源信息。相对于MARC数据格式,DC的数据结构大大简化了。而MARC元数据正如其名字本身所说明的,是计算机可读及处理的数据,对人而言,可读性很差,对软硬件平台的依赖性很强。DC元数据使用标记语言的格式,兼容性和不依赖于软硬件平台的独立性都很强。在电子化学位论文中考虑采用的元数据(参见表1)大部分能在DC元数据集中直接得到,一些描述学位论文所需要的扩展信息可以通过使用修饰词和扩展元素的办法解决。(2)着录方便,生成记录简单快速。使用者无需经过专业的培训就可以为自己的资源创建元数据,着录格式很容易掌握和理解。上海交通大学从1996年开始要求研究生在论文答辩后提交学位论文的电子版本,在确定学位论文使用的元数据后,就可以让学生在网上提交电子版本论文的同时,填写一张简单的着录表格,经程序检查、处理后直接生成学位论文的元数据。这样就可以让学生自己完成学位论文的数据着录,既大大减少了图书馆数据着录人员的工作,也使学位论文的数据可以在第一时间转入数据库并提供网上检索,数据滞后的时间将从几个月缩短为几天,甚至当天录入当天即可在网上检索到。而目前采用传统的着录方式,精品文档必须使用专用的编目软件,着录人员要经过一段时间的严格培训,并且编目方法也要复杂得多,学位论文的数据无法在短时间内录入、转换入库,网上检索就更滞后了。(3)DC是为电子资源量身定制的。DC本身就是随着信息技术的发展和Internet应用的日益普及和深入应运而生,其可选择性、可修饰性、可重复性和可扩展性的特点可以有效揭示电子资源的特征,为网络电子资源的分类、组织和索引提供更好的途径。DC描述的重点是电子资源的内容、内部结构及应用和管理,而不象传统的着录方法有很多外形特征的描述。使用DC,能很好地反映电子化学位论文的内容和特征,比如学位论文的数据格式、全文指针、学位级别、保密级别等,都可以使用恰当的DC元素来反映。(4)更适合在Internet上使用。电子化学位论文最终是应该在Internet上检索和浏览的。现在网上的搜索引擎,如Yahoo、Sohu、Sina等的工作方式,主要是通过自动搜索软件到站点抓取网页,将网页内容索引后建立数据库提供检索。网页使用的HTML语言有一个META标签可以定义网页的属性,一般常用来定义网页的主题词和摘要,这样搜索引擎可以直接将网页的主题词和摘要收录进数据库。否则就只能对整个网页的内容进行索引,这必然使查准率受到影响,检索效率低下。目前,DC元数据的存储与管理大致有以下几种方法:1)嵌入在信息资源中2)与通信协议捆绑3)存储在数据库中4)独立的元数据文件其中将DC元数据嵌入在信息资源中的方法目前使用得较多,一个最主要的应用领域是基于HTML的应用。根据“DC元数据在HTML中的编码规则”(即RFC2731),DC元数据在HTML中的应用主要与两个HTML标签有关,一个是上面提到的META标签,另一个是LINK标签。通过使用这两个标签,DC元数据就方便地嵌入到HTML文件中。这样搜索引擎可以有效地抓取和索引网页文件中的DC元数据。本文的第3、4部分介绍了具体的使用方法和一个实例。虽然将DC元数据嵌入到HTML文件中使用方便,句法简单,但考虑到HTML本身的结构性不强,扩展能力和描述能力较差,以后的应用方向应该是与XML相关,基于RDF(ResourceDescriptionFramework)的形式。XML在结构化、扩展性、内容描述等方面都要大大优于HTML,是Internet发展的一个重要方向。DC元数据可以很好地嵌入到基于XML的RDF框架中,适应将来技术发展的需要,也为不同元数据体系之间提供更好的互操作性。此外,与通信协议捆绑也是一个很有前途的应用方向。比如与图书情报界使用较多的Z39.50协议相联系,DC元数据可以得到更为有效和广泛的使用。同时,DC元数据也可以象传统的元数据一样,存储在数据库中或作为独立的元数据文件存在。在Internet的网络环境下,DC元数据的存储与管理有多种选择和很大的灵活性,有着乐观的发展前景。精品文档3电子化学位论文使用的元数据集确定电子化学位论文使用的元数据集,综合考虑了以下几个方面的因素:(1)目前国内学位论文使用的数据格式,比较统一的是由国家教育部CALIS支持并资助的高校学位论文数据库项目所采用的数据规范,该项目由进入“211工程”的62所学校合作建设,其数据格式也被参加的学校所共同采用。该数据格式定义完整、详细,遵循国家标准GB/T2901-92(书目信息交换用磁带格式),并使用标准推荐执行的“中国公共交换格式(CCFC)”着录。电子化学位论文使用的元数据主要参考了该数据规范。(2)在国外,电子化学位论文研究比较早,也比较有成果的是美国的ETD(ElectronicThesisandDissertation)项目。该项目目前有120个成员,包括105所大学和15个研究所。上海交通大学是中国大陆唯一一所参加该项目的大学,从1999年开始与ETD项目组开展关于研究和实现学位论文电子化的交流,为自己的学位论文电子化建设提供了许多有益的建议。ETD项目组在最近的会议上提出了ETD互用性元数据标准(ETD-ms:anInteroperabilityMetadataStandardforElectronicThesesandDissertations,Version1.00),该标准定义了用于描述电子化学位论文的元数据标准。为了与ETD项目成员之间的数据规范保持一致,以利于数据共享和交换,我们在电子化学位论文使用的DC元素集中保留了ETD互用性元数据标准的所有元素。(3)OCLC的合作在线资源目录(CooperativeOnlineResourceCatalog,简称CORC),是一个在网络环境下为本地或网络电子资源建立元数据的系统。CORC系统为创建网络电子资源元数据提供了很好的平台,通过专门的自动工具和服务功能,可以让使用者采用自己熟悉的标准(如MARC)来完成元数据的着录和制作,并能以各种格式(如DC、XML等)输出记录。CORC为维护现有记录和通过馆际合作提供网上电子资源起到很好的示范作用,显示了元数据应用的广阔前景。CORC的数据格式和着录规范也是我们在确定电子化学位论文使用的元数据集的重要参考。(4)另外一个给我们提供很多有益参考的站点是关于推广可互用在线DC元数据标准的论坛,地址是,该站点上有许多DC元数据的研究和应用文档,以及国际会议、合作项目等的最新动态。其不断更新的DC图书馆应用纲要(DC-LibraryApplicationProfile,DC-LAP)总结了DC元素及应用的最新研究成果,是关心DC元数据发展应该密切注意的。表1电子化学位论文使用的元数据集元素说明注释dc.title论文题名必选dc.title