您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第五章数字图书馆的构建.
幻灯片幻灯片第一节数字图书馆的计算机技术第二节数字图书馆的体系结构第三节数字对象唯一标识符系统第四节数字图书馆开发平台幻灯片第一节数字图书馆的计算机技术一、Web技术及应用什么是Web?WorldWideWeb,万维网Web是建立在客户机/服务器结构之上,以HTML语言和HTTP协议为基础,能够提供面向各种Internet服务的、一致用户界面的信息系统。一、Web技术及应用Web起源1991年,创始人,欧洲核物理实验室(CERN)的贝纳斯-李(TimBerners-Lee)完成了世界上第一个Web的开发1993年2月,美国国家超级计算应用中心(NCSA)推出了Mosaic软件,解决了文字显示、连接和图像显示问题,使技术得到了空前的发展和应用网景公司,IE一、Web技术及应用Web服务的特点:超文本、多媒体与平台无关性直观、易于使用的用户界面Web是分布式的Web是动态的、交互的p.76一、Web技术及应用Web的体系结构客户机/服务器结构统一资源定位符—URLHTTP协议Web与数据库技术CGIASPPHPJSPODBCJDBCADOp.79一、Web技术及应用统一资源定位器(UniformResourceLocator)是全球万维网系统服务器资源的标准寻址定位编码,用于确定资源相应的位置及所需要检索的文档(件)URL的结构所使用的因特网文档传送协议(如:http、ftp、telnet、file等)标识要检索的主机代号(域名或IP地址)检索文档在主机中的路径及文件名一、Web技术及应用常见的URL网页,网页,FTP,发送电子邮件,mailto:lzhao@libnet.sh.cn本地文件,file:///c:/lyyu/thesis.doc远程登录,telnet://202.120.88.70一、Web技术及应用•IP地址:166.111.4.100•域名:一、Web技术及应用http工作原理:断开连接服务器应答客户请求客户连接(多次)、建立WebBrowserWebServer提出各种Internet请求,并解释HTML文档以HTML格式存放的多媒体资源HTTP协议•假设用户点击一个指向的超链接,浏览器与服务器之间的通信过程大致是:•(1)浏览器确定页面的URL;•(2)浏览器向DNS查询地址;•(3)DNS返回202.194.15.22;•(4)浏览器向202.194.15.22的默认端口80请求建立TCP连接;•(5)浏览器发出GET/index.html;•(6);•(7)TCP连接被释放;•(8)浏览器显示index.html的全部HTML内容。•注意:index.html文档中也可能包含一些图象、视频、声音等文件一、Web技术及应用Web数据库访问技术访问结果数据库访问HTML页请求信息HTML页HTTP请求BrowserWebServerCGIProgram数据库Web应用程序ODBC开放数据库连接DBMSJavaAppletJDBC驱动程序WebServer一、Web技术及应用Web开发技术——客户端脚本script–JavaScript、VBScript组件JavaBeans、ActiveXDHTML(CSS\脚本\HTML4.0)JavaAppletWeb开发技术——服务器端CGI(公共网关接口)服务器端脚本ASP、PHP、JSPServlet技术一、Web技术及应用ASP工作模型将查询结果返回WebServer向WebServer提出数据库查询请求WebServer传递结果(HTML)WebServer通过ODBC访问数据库WebServer(IIS)DataBaseServerASP客户端BrowserJSP运行模式通过ODBC或JDBC访问数据库客户机BrowserJSP和Serverlet执行引擎JavaBeanDataBaseServerWebServer二、软件计算模式网络计算经历四个发展阶段:终端/主机模式、网络/文件服务器模式、客户(浏览器)/服务器模式、peer-to-peer模式。二、软件计算模式两层客户/服务器结构B/S结构多层客户/服务器结构几个要点表示层、业务逻辑层与数据层开放与标准通用客户端与专用客户端客户端管理与维护二、软件计算模式展现层数据(资源)层应用逻辑层应用分层体系架构二、软件计算模式客户机展现层应用逻辑层数据(资源)层服务器两层客户机/服务器架构二、软件计算模式中间件基本概念:IDC:中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源,中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。二、软件计算模式中间件分类:1.数据库中间件(DM,DatabaseMiddleware)2.远程过程调用中间件(RPC,RemoteProcedureCall)3.面向消息的中间件(MOM,MessageOrientedMiddleware)4.基于对象请求代理(ORB,ObjectRequestBroker)的中间件5.事务处理中间件(TPM,TransactionProcessingMonitor)二、软件计算模式应用服务器:特殊的中间件从概念上讲,应用服务器可以归于对象中间件的范畴,实际上,可以把应用服务器软件看成是中间件的21世纪版本,或者称做n层计算。之所以说它是一种特殊的中间件,是因为应用服务器的作用除了管理客户端请求与数据库之间的通信之外,同时具有跨系统平台(数据库、操作系统)的能力。二、软件计算模式客户机中间件服务器三层客户机/服务器架构二、软件计算模式多层客户机/服务器架构二、软件计算模式多层……客户机/服务器架构三、数据仓库与数据挖掘技术数据仓库概念(Inmon)支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。特征主题与面向主题数据的集成性数据是随时间不断变化的数据的相对稳定性关键技术数据抽取存储和管理数据表现三、数据仓库与数据挖掘技术数据仓库——数据方块DateCountrysumsumTVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosumOverallsalesofTV’sintheUSin3rdquarter数据仓库三、数据仓库与数据挖掘技术数据挖掘的概念从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对于预测趋势及决策行为是十分有用的数据挖掘的模式(P97)分类模式回归模式时间序列模式聚类模式关联模式序列模式三、数据仓库与数据挖掘技术三、数据仓库与数据挖掘技术数据仓库与数据挖掘之间的关系数据仓库是数据挖掘的基础数据挖掘促进并指导数据仓库的建设三、数据仓库与数据挖掘技术数据仓库、数据挖掘技术对数字图书馆提供以下方面的支持:数据收集、存储和组织数据分析和知识挖掘决策支持系统管理员数据仓库搜索引擎Internet元信息库浏览检索推送WEB服务器数据以及业务演示平台用户源数据库1特色源数据库资源整理分类编目挖掘用户信息库源数据库2内容索引库数据挖掘数据提取和过滤数据概括和聚类文档库主题元数据目录系统管理资料播发插件交互系统虚拟小组基于数字图书馆的领导决策信息咨询服务系统构成幻灯片第二节数字图书馆的体系结构幻灯片•数字图书馆的体系结构是数字图书馆建设过程中应首先考虑和解决的问题,是数字图书馆建设的基础和难点之一。体系结构主要解决的问题是数字对象的信息组织结构和分布式信息仓储的组织结构。数字对象决定着信息组织、处理和利用方式。资源库组织结构的核心在于建立一个统一的、互操作的、可伸缩的组织框架,将分布互联的信息仓储集成为一个整体幻灯片•数字图书馆的建设到目前为止,并不存在一个通用的数字图书馆体系结构,原因在于数字图书馆收藏内容、规模大小、服务对象、知识产权等技术和非技术因素使数字图书馆体系结构设计多样化,此外数字图书馆所采用的现代信息技术和相关标准也在不断发展。一、数字图书馆体系结构设计原则•1、开放性。基本体系结构简单化,功能模块化,选取成熟的通用的标准和协议。•2、互操作性。DL要向用户屏蔽分布的、异构的各个DL间的差别,提供一致化的检索和服务。•3、扩展性。DL的体系结构应该是灵活的和可扩展的,能随时接纳新的仓储和服务,而不需要大的改动。•4、可伸缩性。一个好的数字图书馆体系结构的设计必须能够适应不同规模的系统,使不同规模的系统都能够获取最佳的效率。幻灯片K-W体系结构(kahn-Wilensky结构)该数字图书馆的体系结构是由罗伯特.卡恩(RobertE.Kahn)和罗伯特.威兰斯基(RobertWilensky)在1995年发表的《分布式数字对象的框架》(AFrameworkforDistributedDigitalObjectServices)一文中提出的。幻灯片用户界面用户句柄系统资源调度系统唯一标识符系统名录服务系统数据仓储元数据库仓储存取协议资源加工系统元数据检索系统解析句柄数据仓储提取元数据查询数字对象数字对象幻灯片•数字图书馆体系结构中的内容是以数字对象形式存储的,数字对象是用全局唯一的持久名字—句柄标识的,句柄用命名服务器注册,用名录服务器解析出句柄标识的数字对象的位置。数字对象的存储和访问是由仓储服务系统来实现。检索服务提供发现数字对象的机制,使用户易于从馆藏中寻找和发现所需的对象。用户接口网关提供以人为中心的数字图书馆的功能入口。幻灯片二、数字对象(DigitalObject)数字对象是数字图书馆体系结构中存储信息的基本逻辑单位和实体,是以一定结构的数字形式来表达信息内容的一种方法,是网络环境下的数字资料。可以说数字图书馆是由数字对象构筑而成的,数字图书馆中的信息以数字对象形式存储、访问、传播和管理,数字对象存放于仓储中。数字对象由数字资料、元数据和唯一标识符组成。•数字资料•元数据:或称属性、关键元数据。•唯一标识符:是数字对象和其它因特网资源在全局范围内的永久的唯一标志符。在K-W体系结构中唯一标识符被称为Handle(抓柄,句柄),但实际上存在多种唯一标识符体系,例如DOI、PURL等。幻灯片三、句柄和句柄系统数字图书馆是由各种各样的成分组成的。这些成分包括人、计算机、网络、仓储、数据库、搜索系统、Web服务器、数字对象、数字对象的元素、书目记录等。记录这些组成成分需要一种进行识别的系统化的方法。CNRI(CorporationforNationalResearchInitiatives,美国国家研究推进机构)开发了一组通用的标识符,叫做句柄,以及一个用于管理Internet上句柄的计算机系统,叫做句柄系统。幻灯片(一)句柄句柄(handle)也称为调度码:是数字对象和其他因特网资源在全局范围内的永久的惟一标志符,是URN(统一资源名称)的一种形式,该名称独立于具体的存储位置。幻灯片句柄的定义如下:〈Handle〉::=〈HandleNamingAuthority〉″/″〈HandleLocalName〉hdl:cnri.dblib/magazine指出该字符串是hdl:类型前缀,命名授权(NA),命名权威代码,命名机构后缀,项目标识符幻灯片句柄由命名授权创建,其管理设备被授权创建和编辑句柄。命名授权的名称由一个或多个用句点分隔的字符串组成。例如:cnri.dblibloc.ndlp.amrlp10.12345创建命名授
本文标题:第五章数字图书馆的构建.
链接地址:https://www.777doc.com/doc-2084295 .html