本节学习目标信息资源组织的语言工具SGMLHTMLXML信息资源组织的元数据DCMARC信息资源组织的数据库方法一、信息资源组织的语言工具信息组织的基本目标是对信息外在特征和内容特征加以描述,实现信息有序化。需要从内容、结构和显示三方面着手。针对上述三个要求,提出标记语言的方法。其基本思想是给文献需要加注部分置于不同类型和名称的标签,这些标签不仅能够标注文献的内容和结构也能标注其表现形式。本节介绍三种标记语言:SGML、HTML、XML。1.1SGMLSGML(standardgeneralizedmarkuplanguage)标准通用标记语言,是所有电子文档标记语言的起源。SGML认为一个典型的文档由结构、内容和样式三部分组成。文献类型定义DTD为组织文档的元素提供一个框架。SGML的缺点:SGML庞大复杂的选项虽然使其有较高的灵活性,但是导致应用程序开发困难;SGML文件不易在Web上传播,全面实现浏览器非常困难;厂商不支持。1.2HTMLHTML(hypertextmarkuplanguage)超文本标记语言,简单易用,提供一种文本结构和格式,使其在浏览器上呈现给访问的用户,它是Web上的通用语言。HTML的主要功能为:发布信息:出版联网文档,向全世界发布信息;获取信息:通过超链接检索和获取信息;交流信息:设计交易单(form),实现交互,方便及时交流信息。HTML的基本结构html//文件开始标记head//文件的头部开始标记titleHTML/title//头部/head//头部结束标记body//文件的主体开始标记Hello,HTML!/body//主体结束标记/html//文件结束标记实例1.3XMLXML(ExtensibleMarkupLanguage)即可扩展标记语言,XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,极其简单易于掌握和使用。XML与HTML的设计区别是:XML是用来存储数据的,重在数据本身。而HTML是用来定义数据的,重在数据的显示模式。XML的特点:灵活性与简洁性;开放性与可扩展性、实用性和高效性。XML主要应用:多媒体信息处理、科学研究、电子商务、数字图书馆等。XML和HTML的不同可以归纳为3点:XML扩展性比HTML强XML可以创建个性化的标记语言,可以提供更多的数据操作,HTML只能局限于按一定的格式在终端显示出来。XML的语法比HTML严格由于XML的扩展性强,它需要稳定的基础规则来支持扩展。它的严格规则为:1、起始和结束的标签相匹配2、嵌套标签不能相互嵌套3、区分大小写XML与HTML互补在现阶段,XML可以转化成相应的HTML,来适应当前浏览器的需求。XML文档结构?xmlversion=1.0encoding=UTF-8standalone=yes?mytagHi,XML!/mytagversionXML文档所使用的版本encoding指明XML文档编码使用的字符集standalone指明XML文档有没有使用外部标记声明,yes表明是一个独立文档,no表明在其内部使用了其他文档或资源。实例二、信息资源描述2.1信息资源描述信息资源描述(Informationdescription)是根据信息资源组织和检索的需要,依据一定的规则和标准,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。信息资源描述的结果是一条有关该信息资源的书目数据记录,由若干信息描述项组成。信息记录也称为元数据(Metadata)。信息资源描述实质上是一个按照一定规则分析和选择数据的过程。2.2元数据元数据(Metadata)是描述数据的数据(datathatdescribesdata)或关于数据的数据(dataaboutdata)。它是促进数据处理和标引数据的数据,也是人们组织和发现信息资源的数据。图书馆书目卡片搜索引擎图书题名著者出版者分类号主题词ISBN号流水号馆藏号等资源类型Web页面标题作者主题关键词内容摘要等元数据(Metadata)的主要功能如下:描述Internet数据内容和本质特征,存储相应的检索路径使Internet数据便于发现,提高信息资源的查全率和查准率提供数据之间的关系,指出相关数据的地址和存取方法对Internet资源进行分类,有效选择用户所感兴趣的信息。对某些缺少文本的数据(声音、图像等)进行文字说明,以便对描述对象有一个完整的描述。示例:HTMLHEADTITLENationalDigitalLibrary/TITLEMETAname=“detscription”content=“Youcanretrieveanythingyouwanttoknow”METAname=“keywords”content=“digitalbook,database,pictures,file,films”METAhttp-equiv=content-typecontent=text/html;charset=GB2312/METAname=“robots”content=“all”/HEAD/HTML实例2.3信息资源描述的规范信息资源的描述需要根据检索系统的要求,确定描述的成分和特征,按一定的次序和形式加以记录。为了一致、有效地对信息资源进行描述,便于不同机构和信息系统之间信息交换,信息描述需依据一定的描述规范进行操作。传统文献信息资源网络信息资源国际标准书目著录(ISBD)《文献著录总则》(GB3792.1-83)《文后参考文献著录规则》(GB7714-2005)《都柏林核心集》(DublinCore,DC)《政府信息定位服务》(governmentinformationlocatorservice,GILS)参考文献[1]林豪慧,孙丽芳.信息资源检索与利用[M].电子工业出版社.2008:9[2]王晨.应用型本科、高职院校信息检索课现状调查及教学模式改革[J].教育与职业.2008(5):118-1202.4信息描述项目及符号由于揭示对象不同,因而信息描述记录单元—元数据的格式、项目和符号等也有所不同。产品/商品产品/商品名称、型号、规格、用途、性能、包装、价格、生产厂家、联系地址等企业法人代表姓名、企业名称、成立日期、职工总数、固定资产额、厂址、通信联络途径、主要产品或经营范围、企业所获荣誉及业绩、近期经营状况等科研成果科研成果名称、主持或完成者、立项时间、项目来源、完成时间、成果形式、所达到的水平、社会反响等三、信息资源描述的元数据3.1都柏林核心元数据(DC)DublinCore(DC)是国际组织DublinCoreMetadataInitiative拟定的用于标识电子资源的一种简要目录模式。DC是由15个Metadata系统,其主要目的是为了揭示和组织网络上的信息资源(包括文本及图像等)。DC元数据编辑器元数据元素集参考描述如下表所示:元素名字标识定义Title资源名Title赋予资源名称Creator创建者Creator创建资源内容的主要责任者Subject主题和关键词Subject资源内容的主题描述Description说明Description对资源内容的说明Publisher出版者Publisher使资源成为可以取得和利用状态的责任者Contributor其它责任者Contributor对资源内容创建做出贡献的其他责任者Data日期Data与资源本身生命周期中的一个事件相关的日期元素名字标识定义Type类型Type资源内容的特征和类型Format形式Format资源的物理或数字化的表现形式Identifier资源标识符Identifier给定的文本环境中对资源的参照引用Source来源Source对一个资源的参照,而当前资源是源自这一参照资源Language语种Language描述资源知识内容的语种Relation关联Relation对相关资源的参照Coverage覆盖范围Coverage资源内容所涉及的外延与覆盖范围Rights权限管理Rights有关资源本身所有的或被赋予的权限信息从DC的15项元数据可以看出:15个元素大致分为三类:对资源内容的描述:题名、主题、描述、来源、语种、关联和覆盖范围;对外部属性的描述:日期、类型、格式和标识;对知识产权的描述:创建者、出版者、责任者和权限管理。比较全面地概括了电子资源的主要特征涵盖了资源的重要检索点(1、2、3)、辅助检索点或关联检索点(5、6、10、11、13)、有价值的说明性信息(4、7、8、9、12、14、15)。简介、规范,不仅使用于电子文献目录,也适用于各类电子化的公务文档目录及产品、商品、藏品目录等,有很好的使用性。DC用RDF/XML对图片的描述3.2资源描述框架(RDF)RDF是资源描述框架(thesourcedescriptionframework)的缩写。资源是所有Web上被命名的、具有URI(unifiedresourceidentifier,统一资源描述符)的对象(网页、XML文档中的元素等)。描述是对资源属性的陈述,表明资源的特性。框架是与被描述资源无关的通用模型。RDF以XML(extensiblemarkuplanguage)语言作为其宿主语法,来推动Internet数据的开发。RDF定义了一种通用的框架,即资源—属性—值的三元组,来描述Web上的各种资源。示例:rdf:RDFxmlns:rdf=“”xmlns:dc=:dced=第一行:指定rdf命名空间的具体地址第二行:定义DC命名空间的来源的网址第三行:指定都柏林核心教育元数据的命名空间地址为了方便管理交换信息资源,用元数据描述Web上的数据,由于不同元数据之间具有不同的结构,为了实现元数据之间的可互操作,采用RDF来处理不同类型的元数据集合,并使计算机可以理解。RDF的建立基于XML,两者结合解决了信息建立与信息描述的开放机制,有利于资源共享,尤其为语义网提供技术支持。3.3MARCMARC(machinereadablecatalogue)是机器可读目录的简称,是一种经过人们编辑、组织的数字化书目记录的集合。MARC将传统的卡片目录的内容以标准数据形式记录在光磁载体上供用户利用计算机等设备查阅,它主要记载文献的书目信息和存储地址,记录格式统一。具有存储载体空间小、容量大、复制速度快、易于收藏和携带,并可产生出多类型的卡片式或书本式目录,便于实现对资源的有效管理,在图书文献机构中具有相当重要的地位。MARC书目记录的总体结构定义为记录头标区、目次区、数据区和记录分隔符四部分。CNMARC格式CNMARC是中国机读目录的缩写,用于中国国家书目机构同其他国家书目机构及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息。0XX标识块7XX知识责任块1XX编码信息块8XX国际使用块2XX著录信息块9XX国内使用块3XX附注块4XX款目连接块5XX相关题名块6XX主题分析块如图示DC与MARC的比较著录目的不同DC提供给搜索引擎,MARC为用户检索馆藏所用著录对象不同DC数字化信息资源,MARC描述实体的书目数据著录格式不同DC由15个基本元素组成,有可选择性,只要确保最低限度的7个元素,就符合著录标准;MARC遵守标准记录结构,包括头标区、地址目次区、数据字段区著录主体