《中国国家试验型数字式图书馆》项目组于4月12日至13日在北京召开了技术组会议,根据会议对元数据方案所作出的结论,本数字图书馆项目最小元数据集合采用DublinCore;最小元数据集合DublinCore的实现采用RDF方式;元数据分成两层,第一层为DC,第二层为MARC或TEIHeader,在资源建设中要求按这两层实现。技术组必须据此提出项目所需采用的规范的元数据元素集及其定义、元数据元素的限定规则、以及元数据元素的具体表达方式。会后提出对各成员馆进行一次调研,对各馆计划进行数字化的资源内容、方式、目前的状态、应用目的等进行摸底,在5月底以前上海馆仅收到辽宁馆一份,本《实施意见》据辽宁馆和上海馆本馆的资源情况,设想了一般情况,鉴于具体资源情况对元数据方案的实施无重大影响,本方案据此成文。DC元数据方案是一个非常灵活且及具扩充性的方案,然而对于各馆合作的同一个项目,原则上应该制订一些统一规则,例如元数据元素的增删取舍以及限定方式等,当然也可以由各馆自定,这样会在一定程度上影响到互操作性。制订统一规则的难点是必须经过各馆统一一致的详细讨论,这是一项耗时费力的工作,必须由项目组负责协调组织。首先必须说明的是,根据项目技术组的结论:DC只是提供互交换性的中间层,虽然是必需的,但不一定要物理存在,物理层为第二层即MARC或TEIHeader,通过自动转换动态获得,或重新抽取均可;元数据的表达只有在HTML4.0及XML中才能采用RDF方式实现,鉴于目前HTML3.2普遍采用,本项目完成时前者也不一定能完全取代后者,据此本实施意见仍旧考虑了在HTML3.2中利用“META”方式表达元数据元素的方法;本文涉及许多规则,如DC、RDF等,至今仍然是草案,尚处在不断的变动中,未承诺任何版本兼容性,是否能够得到广泛支持尚不得而知;本文作为本项目工作小组的研究报告,根据以上会议精神,将对项目元数据方案进行进一步的描述和限定,为便于实际实施,特进行实例描述。目录一、DC元素定义及其限定二、RDF框架及其含义三、实施实例及说明DC在HTML2.0/3.2中的应用DC在HTML4.0中的应用DC的扩展应用RDF与DC的应用四、实施建议一、DC元素定义及其限定关于DC的历史影响、结构框架以及为何选用DC作为最小元数据集合的原因本文不再赘述,请参见文末所附的参考资料:下文给出DC十五个元素的中文基本定义,原文定义请参见其主页:。DC元素基本描述以下是对DC元数据元素集的参考定义,关于进一步的描述或任何已经定义的限定,请见下列地址:。在以下的描述中,为便于进行语义上的理解,每个元素都有一个描述性的名称,同时为便于在一定的编码体系中使用,每个元素都有一个正式的标签(Label)。尽管HTML之类的环境并不区分大小写,我们还是建议在实际使用中按照下文所定义的标签大小写来进行书写,以免在转换或移植到其它环境时发生冲突或歧义,如在XML中。(参见)每个元素都是可选及可重复的,并且排列顺序也可以是任意的。为促进最广泛的互操作性,许多元素的描述建议采用控制词表来分别规范各个元素的内容,这也即是说,可专门构造一些控制词表应用于特殊领域,以增强这一领域的互操作性。元数据元素的含义不因其是否嵌入所描述的资源而受到影响。元数据元素依据其所描述内容的类别和范围可分为三组:1.对资源内容的描述;2.对知识产权的描述;3.对外部属性的描述(instantiation)。资源内容描述类知识产权描述类外部属性描述类TitleCreatorDateSubjectPublisherTypeDescriptionContributorFormatSourceRightsIdentifierLanguageRelationCoverage元素描述:1.题名Title标签:Title由资源创建者或出版者给定的资源名称2.作者或创建者AuthororCreator标签:Creator对创造资源知识内容付主要责任的个人或机构.例如:书写文献的作者,视觉作品的艺术家、摄影师、或插图画家等。3.主题及关键词SubjectandKeywords标签:Subject资源的主题。通常是描述资源主题或内容的关键词或词组短语。建议采用受控词表和规范的分类体系。4.描述Description标签:Description资源内容的文本描述,包括文献类对象的文摘或视觉作品的内容描述等。5.出版者Publisher标签Publisher负责使资源成为当前形态的责任者,例如出版社、大学的系科、或者公司实体等。6.其它责任者OtherContributors标签“CONTRIBUTORS”指并没在Creator元素中列出的对资源的知识内容具有重要贡献的个人或组织,其贡献次于创建者(如编辑、誊写员、插图作者)。7.日期Date标签Date指与创建或使资源成为可利用状态相关的日期。注意与Coverage元素中代表资源作为知识内容所覆盖的时间属性相区别。推荐最好采用ISO8601(参见W3C技术规范“日期及时间格式”)所规定的YYYY和YYYY-MM-DD表达方式,例如日期1994-11-05即表示1994年11月5日。8.类型ResourceType标签Type资源的类别,例如主页、小说、诗歌、手稿、技术报告、论文、词典等。资源类型通常由类型列表中选取。为了提高互操作性,资源类型值应从资源类型列表中选取,目前这一列表正在发展完善中。9.格式Format标签Format资源的数据格式,用于注明需要什么软件或硬件来显示和执行这一资源。为了提高互操作性,格式值应从格式列表中选取,目前这一列表正在发展完善中。10.标识ResourceIdentifier标签Identifier用来唯一标识资源的字串或数字。例如网络资源标识中的URL和URN(经过解释后),其它通用唯一性标识如国际标准书号ISBN或其它规范名称皆可作为标识值。11.来源Source标签Source二次资源的出处信息。一般的元素只包含当前资源的信息,如果对于揭示当前资源是必要的话,该元素可包含二次资源的日期、创建者、形式、标识、或其它元数据。推荐最好使用关联Relation元素。例如,可以用来源元素的dateof1603描述方法表示1996年改编电影来源于莎士比亚戏剧原作,但最好采用关联元素的改编自“IsBasedOn”参见至另一个资源,而在这一被参见的资源描述中包括dateof1603的描述。如果当前资源为其原始形式,来源元素不可用。12.语种Language标签Language资源知识内容的语种。如有可能,该字段内容应遵从RFC1766的规定[语种描述的标记规范];例如en,de,es,fi,fr,ja,th,andzh(ISO639)等13.关联Relation标签Relation二次资源及其与当前资源关系的标识。该元素允许在相关资源和资源描述间建立关联。例如再编自(IsVersionOf)、翻译自(IsBasedOn)、节选自(IsPartOf)、格式转换自(IsFormatOf)等。为了保证互操作性,关联值应从关联列表中选取,目前这一列表正在发展完善中。14.覆盖范围Coverage标签Coverage资源知识内容的时空特征。空间范围指物理区域,如天穹;坐标,如经度纬度;来自于规范词表的地名或全称。时间范围指资源内容,而非资源产生的时间(由日期Date元素表示)。时间描述(通常是一个时间范围)采用与日期Date相同的格式(基于ISO8601的W3C技术规范“日期及时间格式”),或者采用规范列表中的时间范围描述或全称。15.权限管理RightsManagement标签Rights一个权限管理的陈述,或者是指向一个权限管理陈述的标识,或者是指向提供资源权限管理信息内容的服务器的标识。DC的限定和子元素定义以上是对DC元素的基本定义,在实际实用中,仅仅依靠这十五个基本元素是不够的,我们必须加以限定和进行若干子元素的规范描述。为了保证互操作性,在进行限定或子元素规范的时候,不能改变元素本身的定义,不能重新对基本元素作出解释,而只能根据自己团体和行业的需要对DC元素进行限定和规范。有关DC的限定及子元素的定义,目前还正在发展之中,各种各样的建议文稿也很多,在此我们综合了许多参考文献,尽量选取大家都采用的限定及子元素描述,同时考察了目前各馆项目的实际需要,提出如下的建议稿。DC的限定(Qualify)及子元素的规范描述:首先DC的限定分为三类:模式体系(SCHEME),语种描述(LANG),属性类型(TYPE)。模式体系(SCHEME):指明元素值的选取遵从已有的或正在讨论中的一个体系结构中的合法值,比如分类表,主题词表或各类代码表。语种描述(LANG):指明元素值描述所使用的语种,推荐使用IETFRFC1766所规定的语种规范描述。属性类型(TYPE):指明目前元素的值是元素何种类型的值,一般已子元素限定的方式来描述。例如Creator元素的个人名字,团体名字等等属性。以下是关于DC限定的详细描述:语种描述(LANG)是关于每个元素值和文本内容所使用的基本语言的描述,建议采用RFC1766规定的语种标记代码。语种描述是各个元素共用的限定,在以下的十五个元素限定的描述中将不再赘述。1.题名TitleSCHEME:中国图书著录标准中国机读目录格式(CNMARC)自由文本(资源原题名)TYPE:无限定属性2.作者或创建者AuthororCreatorSCHEME:自由文本中国机读目录格式(CNMARC)TYPE:DC.Creator.PersonalName指个人作者名字DC.Creator.CorporateName指团体作者名字(包括会议名等)DC.Creator.PersonalName.Address指个人作者地址(包括任何形式的地址描述,比如电子邮件地址等)DC.Creator.PersonalName.Date指与个人作者相关的日期描述(如作者的生卒年月等,描述方式可采用中国图书著录标准的相关规定)DC.Creator.CorporateName.Address指团体作者地址DC.Creator.CorporateName.Date指与团体作者相关的日期描述3.主题及关键词SubjectandKeywordsSCHEME:中国图书馆分类法科图法汉语主题词表自由词TYPE:无限定属性4.描述DescriptionSCHEME:自由文本(一般为文摘)URL(统一资源标识符,这里的URL是指对本资源进行描述的文献地址)URN(统一网络资源标识符,意义同上)TYPE:无限定属性5.出版者PublisherSCHEME:自由文本中国机读目录格式(CNMARC)TYPE:DC.Publisher.PersonalNameDC.Publisher.CorporateNameDC.Publisher.PersonalName.AddressDC.Publisher.PersonalName.DateDC.Publisher.CorporateName.AddressDC.Publisher.CorporateName.Date对于以上子元素的解释参见Creator元素子元素限定6.其它责任者OtherContributorsSCHEME:自由文本中国机读目录格式(CNMARC)TYPE:DC.Contributor.PersonalNameDC.Contributor.CorporateNameDC.Contributor.PersonalName.AddressD