数字图书馆与元数据上海图书馆系统网络中心赵亮概念与要点数字图书馆的定义从不同的概念演变而来电子图书馆、网络图书馆、虚拟图书馆、没有围墙的图书馆、图书馆数字化等等尚无一个全球范围公认的定义数字图书馆的定义定义一:利用数字技术获取、存储、存取、发布信息的图书馆定义二:数字图书馆为国家信息基础设施提供关键性信息管理技术,同时提供其主要的信息库和资源库。换句话说,数字图书馆是国家信息基础设施的核心。数字图书馆的定义美国研究图书馆协会的定义1、数字图书馆并不是一个单一的实体;2、数字图书馆需要技术支持;链接许多信息资源;3、多个数字图书馆及信息机构之间的链接对终端用户透明;4、全球范围的对数字图书馆与信息服务的获取是一个目标;5、数字图书馆的收藏不仅限于文献的替身,她还把不能以印刷形式代替和传播的人工印刷品数字化,加以收藏。DefinitionThedigitallibraryisnotasingleentityThedigitallibraryrequirestechnologytolinktheresourcesofmanyThelinkagesbetweenthemanydigitallibrariesandinformationservicesaretransparenttotheendusersUniversalaccesstodigitallibrariesandinformationservicesisagoalDigitallibrarycollectionsarenotlimitedtodocumentsurrogates:theyextendtodigitalartifactsthatcannotberepresentedordistributedinprintedformats(ARL,1995)数字图书馆的定义中国数图工程规划的定义:是采用现代高新技术所支持的数字信息资源系统,将成为下一代互联网网上信息资源的管理模式,可从根本上改变目前网上信息分散、不便使用的现状。可以说,数字图书馆是运行在互联网上超大规模的、便于使用的、没有时空限制的知识中心。数字图书馆的要点数字化资源(多媒体)网络化分布化的体系结构统一的透明的用户接口全球化(非单一实体)元数据与对象管理新的服务体系与模式数字图书馆的结构KW结构数字对象(DigitalObject)键元数据、数字资料、调度码数字对象仓库(Repositories)元对象(MetaObject)图书馆自动化系统管理/服务模式书刊资料库(物理馆藏)书目索引等二次文献图书馆管员读者图书馆自动化系统人工获取索引与对象间无完整性保证数字图书馆的结构-IBM检索数据(SearchData)LibraryServer查询(SEARCH)访问入口客户端(ACCESSClient)存储(STORE)对象内容(ContentObjects)IBMDigitalLibrary读者光盘库或磁带库数字图书馆的结构体系国家图书馆数字图书馆的实践国际数字图书馆先导计划(DLI1、2)美国回忆和美国国家数字图书馆计划(NDLP)国内中国试验型数字图书馆项目中国数字图书馆工程美国DLI计划由美国科学基金会NSF、国防部高等技术开发署DARPA、美国航空航天总署NASA等单位联合资助DLI-1($24M,1994.9~1998.9)DLI-2($40M~$50M,1999~2003)环境规划与多媒体信息系统(加州大学伯克利分校)图象和空间参考信息综合服务的分布式数字图书馆(加州大学圣巴巴拉分校)集成声音、图象和语言理解技术,创建和搜索数字视频图书馆--Informedia(卡内基·梅隆大学)综合性科学文献数字图书馆(伊利诺大学厄尔巴那分校)智能信息搜索引擎(密歇根大学)各类数字图书馆网络综合集成机制--InfoBus(斯坦福大学)DLI1研究项目DLI-2在规模、范围、内容和方向上的显著变化受资助单位大幅度增加在过去纯研究的风格外,增加了面向实际问题的研究和开发除保留了传统的体系结构、信息检索、互操作主题之外,一些新的研究主题受到关注,如:信息保藏、添加声音、建立和维护数字图书馆的实际问题、与医疗有关的电子病历、医学图象等与情报学的联系密切地理信息核医学情报是众多项目的交汇点美国回忆与NDLP计划美国回忆(AmericanMemory)由美国国会图书馆实施,主要内容为特色历史资源数字化。(1989-1995)美国国家数字图书馆项目(NDLP)是美国回忆的后续项目,目标是2000年数字化美国国会图书馆的500万件藏品。(1994-)计划总投资6000万美元。数字图书馆的实践(国内)中国试验型数字图书馆项目1996年倡导,1997年立项,2001年结题国家图书馆、上海图书馆、南京图书馆、深圳图书馆、辽宁省图书馆、中山图书馆、桂林图书馆数字图书馆的实践(国内)中国数字图书馆工程一期规划(2000-2005)指导思想:统筹规划,需求牵引,科技创新,滚动发展。建设原则:公益性为主、资源建设为核心、统一标准规范、开放建设与利益共享、开发与引进相结合数字图书馆的实践(国内)中国数字图书馆工程建设目标:在互联网上形成超大规模的、高质量的中文数字资源库群,并通过国家骨干通信网向全国及全球提供高效服务;总体技术与国际主流技术接轨。建设一批中文多媒体资源库,总容量不低于20TB;联合引进若干国内需要的国外专题资源库;实现全国大部分地区图书馆文献资源的联合采编及馆际互借;完成开发具有中国特色的数字图书馆智能应用系统;培养一批高水平的专业人才队伍,持续发展中国数字图书馆工程。实施步骤:准备和实验阶段(2000年)初步实用阶段(2001-2002年)规模型成长阶段(2003-2005年)数字图书馆五大功能(IBM)内容发布内容查询&访问内容创建&提取存储&管理?RightManagment权限管理数字图书馆主要技术内容馆藏资源数字化海量数据的建库与维护数字对象的存取和获得图书馆服务的网络提供版权管理数字资源标识体系文件系统URLPURLURNDOI其他…...DOI的实例DIR.REG/DSS10.156/catalog-96PublisherIDassignedbyDOIAgencyItemIDassignedbyPublisher10.1048/87210.1532/PII10.18698/SICI用户HandleSystem出版者或其他资源提供者DOIDOI和URN等的操作模型基于内容的检索文本-最成熟,实用化图象-通过色彩,底纹,形状视频-自动侦测析出关键帧音频-语音识别QueryByImageContentSearchimagesashumanseesthemcolormixtureshapepositionaveragecolortextureOruseanimageasanexample--”showmemorelikethis”组合检索ultisearch“CardinorDior”QueryType=suitPrice$450TextContentSearchCatalogSearchPatternColorImageContentSearchImageFullTextCatalogThisbeautifulsuitbyCardinisavailableinournewwintercollection.Item#:12345Type:suitPrice:$450Size:L,M,S多媒体信息检索—Informedia自动分析视频、音频、隐含的标题、场景变换和其它信息其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果向Informedia数字图书馆馆藏中增加新的素材将视频素材分割到各主题部分中通过音轨语音的识别、视频流隐含标题的识别来标识每个部分相关的文本各种自然语言处理工具产生合适的索引纪录用户可以用多模式中的任何一种形式提出查询要求多模式信息检索体现优异的效果电视节目的智能浏览ExcerptedfromDr,ZhnagHongjiang’s新一代多媒体检索自动分类文本总结电视台发出的或经语音识别得到的文本关键帧检测人脸检测和识别数字图书馆建设所涉及的标准数字对象及存储标准(字符集、编码标准、媒体格式等)信息结构表达与交换标准(元数据标准)信息查询与显示标准(Z39.50、虚拟联合目录及馆际互借协议)信息安全与应用服务标准元数据简介:什么是元数据数据的数据(Dataaboutdata)结构化数据(Structureddata)资源的信息(Informationaboutaresource)编目信息(Cataloguinginformation)管理、控制信息(Administrativeinformation)元数据的种类管理型元数据结构型元数据描述型元数据描述性元数据的层级第一级第二级第三级记录特性简单格式非标准化的全文索引结构化的格式逐渐成为标准字段结构复杂格式国际标准详细的标记元数据格式举例LycosAltavistaYahooetcDublinCoreIAFAtemplatesRFC1807SOIFFGDCEADTEIGILSMARC描述能力低高常用的描述型元数据标准(或规范)MARCDCTEIEADFGDCCIMIGILS编码与著录SGMLHTMLXMLRDF其他方式标记语言SGML(结构化、规范、复杂、描述能力强、需要DTD)HTML(半结构化、不断变化发展、描述能力差、单一DTD)XML(结构化、规范、简洁、描述能力强、DTD可选)标记语言实例HTML实例:htmlhead/headbodypb张三/bbr系统网络中心br上海图书馆/p/body/html结果显示:张三系统网络中心上海图书馆XML实例:?XMLversion=“1.0”encoding=“GB2312”?职工名字张三/名字部门系统网络中心/部门单位上海图书馆/单位/职工标记语言实例更复杂的XML实例:?xmlversion=1.0encoding=GB2312?将帅姓名陈伯钧/姓名曾用名陈国懋/曾用名照片filename523173918.jpg/filename/照片出世年月1910年11月26日/出世年月逝世时间1974年2月6日/逝世时间籍贯四川省达县河市乡/籍贯职别北京高等军事学院院长/职别军衔上将/军衔授予时间1955年/授予时间荣获奖励1955年一级解放勋章/荣获奖励生平介绍陈伯钧(1910-1974)陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。....../生平介绍/将帅标记语言实例SGML—MARCExampleLeaderdataomitted/LeaderVarfieldsMainEntyFld100Nametype=“Single”aFosdick,Howard./a/Fld100/MainEntyTitlesFld245AddEnty=“yes”aComputerbasicsforlibrariesandinformationscientists//acHowardFosdick;withaforwardbyF.WilfridLancaster/c/Fld245/Titles/Varfields(Adaptedfrom“SGMLandtheUSMARCStandard,”TechnicalServicesQuarterly(15(3),21ff))SGML—TEIExampleModifiedfromTEIheadercreatedbytheUniversityofVirgin