1第一章:概述数字图书馆这个概念从开始流行到现在不过十年左右的时间,而在国内成为图书馆界,IT业乃至整个社会的热点甚至焦点则只是近几年的事情。美国人在90年代初提出这个概念是出于为高速宽带互联网进行应用准备的考虑。因此,数字化图书馆是作为驱动多媒体海量数字信息组织与互联网应用问题各方面研究的技术领域而被纳入美国的信息高速公路计划NII的。同样,在国内的数字化图书馆研究界,IT技术出身的研究者也往往倾向于把数字化图书馆看作一个IT技术的应用子集,认为它其实与图书馆的关系远不像名词使用上显示的那样紧密。然而把digitallibrary一词翻译成数字化图书馆而不是数字化资料库这个可能有些偶然的事实,给了图书馆界一个不可多得的机会,使图书馆的未来发展与数字化图书馆技术的发展紧密地联系起来,把图书馆界多年来在自动化,电子化方面的努力纳入数字化图书馆技术发展的运行轨道。达到这一点,不仅确立了图书馆界在数字化图书馆技术和理论研究上的主导地位,也为数字化图书馆技术的发展提供了厚实的应用和需求基础。传统图书馆最主要的职能是收藏,并在对所收藏的图书资料进行保存和组织的基础上为读者提供各种服务。媒介是信息传播的载体。传统媒介包括图书、报纸、杂志、单据、票据、文件、广播和电视等。传统的纸张作为信息媒介存在着巨大的浪费。以图书为例,成千上万册的书经过印刷、存储、运输、批发、销售等环节后才能送到读者面前,这样不仅成本巨大,浪费资源,而且环节众多,流通不便,造成的后果是,大量堆积的纸张难以管理和保存,信息无法检索和查找,更谈不上信息的增值。Internet使得信息传播方式发生了变革。海量的信息可以通过低廉的传输成本在网络上传送,用户可以有选择地获取和使用需要的内容。电子化的信息数据不仅节约了传播的成本,同时加快了信息的增值,因此信息资料的数字化成为未来信息社会的基本需要。数字化媒介是媒介信息的电子化表现形式,一方面可以代替传统媒介表现出相同的文字、声音和图像等信息,另一方面可以方便地管理、查询和阅读,并且通过现代网络技术进行传播和安全保护。数字图书馆是一个电子化信息的仓储,能够存储大量各种形式的信息,用户可以通过网络方便地访问它,以获得包括多媒体在内的各种信息,并且其信息存储和用户访问不受地域限制。随着信息技术的发展,需要存储和传播的信息量越来越大,信息的种类和形式越来越丰富。数字图书馆是一种运行在高速园区宽带网络上的、可跨库检索的海量数字化信息资源库群,对有价值的图像、文本、语音、影像、影视、软件和科学数据等多媒体信息进行收集,进行数字化加工、存储和管理,实施知识增值,并提供基于网络的电子存取服务。这样的应用无疑对存储系统的要求很高,既要求高可用性、高可靠度和大容量,还需要低成本和易安装管理。2第二章用户现状与需求分析2.1用户现状数字图书馆经过前几年的建设,已经建成了一个能在网上提供数据检索、资料查询、网络服务等多种应用功能的大容量数据中心。但随着读者数量突破百万,资料数据也越来越多,大容量、安全高效的存储设施就显得尤为重要。图书馆传统的存储设施显然不能满足这些需要。为适应未来数字化图书馆的需要,图书馆开始大幅度提高存储设备的容量,考虑到图书馆目前的存储容量和未来5年数字资源增长趋势和应用需求,本次扩容的总存储容量定位在5TB级,这些容量主要包括馆藏资源数字化全文存储、多媒体资源存储、WEB服务、邮件服务、视频点播和其他数字化资源和服务。数字图书馆的预约管理系统、预约数据库系统以及WEB数据库系统作为联机事务处理系统,要求一天运行24小时、每周7天不间断地运行。像借阅系统,假如中断,其后果不堪设想,而且绝对不允许数据丢失。在系统的日常运行中,经常有纠正错误数据、更新数据等工作,需要维护人员的干预。如果系统的可维护性不好,必然导致维护人员忙于日常应付,包袱越背越重。2.2需求分析应用系统分析所谓数字图书馆,就是在网络上建立网站,让网络用户能进入图书馆的WebServer,再通过馆内TRS(全文检索系统)链接到各个文件服务器上,从而能够网上检索、阅读图书文献等资料,实现图书馆式的服务功能。但随着图书馆图书收藏量的大幅度增加,现有文件管理器的存储量就显得有限。图书馆需要一种既经济又高效的资料存储方案,这正是目前数字化图书馆建设的当务之急。目前大多数数字图书馆的软件是由三个部分组成的:Web服务器、数字图书资料、图书检索系统,而其中存储需求最大的当属数字图书资料部分。如果以传统的存储方式,如磁盘阵列来存储数字图书资料,势必会造成存储成本过高,存储不能集中,不便于进行合理的管理。而作为目前增长速度最快的存储方式之一的SAN,以其特有的管理方便、安全性高以及扩充方便等特点,成了图书馆数字图书资源存储的最佳方案之一。对于预约系统、数据库等系统来说,应用、数据、系统的高可用建设也是必不可少的,应用高可用系统中我们可以采用双机热备或多机集群的方式来实现;数据的高可用我们可以通过对应用数据定期的数据备份来解决。数字图书馆内容分析数字图书馆显然不会只有图书,它会集成音频、视频、多媒体等各种其它形式的媒体资源,创造出一个前所未有的阅读新空间。例如,读者在数字图书馆查找红楼梦,不但可以看到纸本图书的借还书状态,还可以阅读到数字图书、红楼梦音乐以及《红楼梦》电视连续剧等。如此丰富的媒体资源存放在光纤磁盘阵列上是最合适的,因为光纤磁盘阵列已经被广泛用于多媒体应用环境中,例如,电视台的非线性编辑、小区电影点播等系统。光纤磁盘阵列能够提供很高的持续带宽,在大用户量访问的情况下,依然能够提供较高的数据传输带宽。技术分析我们建议客户分阶段建设数字图书馆,这是根据数字图书馆建设模式和充分保护客户的投资角度来考虑的。从IT行业的发展趋势来看,SATA技术作为最新的技术,逐步正成为市场中的主流,而且由于SATA存储介质具有可靠性高、速度快和价格低廉等特点,从而能够很好的保护用户投资。因此我们建议客户采用FC-SATA磁盘阵列为主的SAN网络。3第三章总体方案描述3.1方案设计原则和目的3.1.1方案设计原则总体解决方案本着充分理解客户需求的基础上,首先着重满足应用需求,进而考虑节约投资为出发点进行系统设计。在进行系统规划时,方案尽可能全面了解具体的应用,在满足用户基本需要的基础上重点考虑了系统的安全性、可扩展性、通用性、或维护性和系统的高性能。同时,本方案在推荐产品上,一方面尽量采用较先进的技术和产品,另一方面,又保证产品的稳定性,采用较成熟并仍在继续发展的的产品和技术,以保证将来系统维护的可行性。基本上,本方案推荐的产品,均有类似的应用范例,以尽可能避免出现未知的产品问题,降低实施难度。具体表现为以下方面:维护性:系统维护和管理的设计应遵循高效、安全、简单、便捷的原则;可靠性:在设计上要充分考虑提供安全可靠的技术和管理方式,系统必须要保证其工作的高可靠性和高稳定性,保证常年的不间断运行;易用性:系统的设计应遵循简单性原则,即系统管理简单易懂、明晰,方便用户的使用;高效性:系统应在合理的性价比下,至少满足系统性能的需求;安全性:系统应当在技术和管理上确保系统的各个环节的安全;可扩展性:方案应具有良好的扩展及投资保护的能力。3.1.2方案设计目的*实现高达6TB数据的集中存储,并有足够的扩展性;*实现关键数据与系统分离;*实现关键应用或数据库服务器的24小时系统高可用;3.2总体设计方案3.2.1系统结构示意图如图所示,除WEB服务器以外所有服务器通过两台BrocadeSilkWorm3200光纤交换机连接1台NetStorDA7520F磁盘阵列,操作系统及应用系统安装在服务器本地硬盘上,而关键数据存放在磁盘阵列上,并通过RoseHA针对预约、预约数据库和WEB数据库构建双机单工或双机双工高可用系统,实现应用的持续性。当某一台服务器宕机后,由另外一台服务器接管其应用和数据,切换时间在40秒左右。另外可安装VeritasBackupExec(BEWS)备份软件,通过网络将所有服务器中的数据定时备份到磁盘阵列中或磁带库中。当某台服务器数据丢失后,可以通过VeritasBEWS软件从磁盘阵列或磁带库中将数据恢复,最大限度的减少损失。本设计方案实现数据的集中可靠存储、关键系统的高可用和数据的统一集中备份。3.2.2系统采用的产品美国ROSE数据公司ROSEHAFORWindowsNT/2000/2003容错软件NetStorDA7520F光纤磁盘阵列系统NetStorDA7500F光纤阵列扩展柜SATA硬盘BrocadeSilkWorm3200光纤交换机Qlogic2310F光纤卡4光纤线缆SFP3.2.3系统说明如图所示,每台服务器上配置两块光纤卡,通过Brocade3200光纤交换机连接一台NetStorDA7520F磁盘阵列。NetStorDA7520F光纤阵列提供六个光纤通道,可以同时连接4台服务器,采用300GB硬盘,单个阵列最大容量为4800GB,通过连接DA7500F光纤扩展柜,最大连接124块SATA硬盘,提供高达37TB的裸容量。系统以WIN2000为平台,NetStorDA磁盘阵列及ROSEHA软件为核心,常用数据库及网络数据存放在DA磁盘阵列中,两台服务器只安装本地系统文件及ROSEHA软件,并作双机双工的热备方式。当系统启动后:RoseHA首先启动HAmanager管理程序,然后启动必要的服务和代理程序来监控和管理系统服务。HA代理程序通过RS232或专用网络适配器来监控、监测、诊断和管理硬件、软件服务。当ROSEHA代理程序监测到某个服务或硬件发生故障并作相应处理后(可由用户设定)仍不能成功时,则开始切换服务:将IP飘移到相同用户名的另一台Standby服务器上,DA磁盘阵列中的数据库由主服务器切换到从服务器,并恢复所有的服务功能。完成整个切换过程,平均时间为40秒,此时系统又进入初始状态。本设计方案实现数据的集中可靠存储、关键系统的高可用。3.2.4ROSEHA高可用系统方案的特点◆支持Solaris、Linux、SCO和WindowsNT/2000/2003等主流平台。◆现有支持Oracle,Sybase,Informix,SQL,Lotus,IIS等数据库代理程序。◆将两台主机构建为相互备援、负载均衡(DualActive)的高可用性主机集群,也支持主服务器和备援服务器(Active/Standby)工作方式。◆当任意一台活动服务器宕机时,其IP地址、服务器名称及运行的作业会自动的转移至另一台服务器,客户端软件不须重新设定,只要连接至原先的IP地址及服务器名称即可继续作业。◆采用高可靠的错误检测和故障恢复机制减少系统宕机时间并防范错误,提供故障警告。◆可设定故障排除后自动或手动回复(SwitchBack)。◆安装时不需要修改操作系统的核心、更改应用软件,也无需特殊的硬件。◆对硬件配置要求不高,服务器可采用不同或相差较大的配置。◆提供基于GUI的监控中心,管理员能查看ROSEHA的状态,检查错误信息和警告、修改系统参数及从远程工作站管理RoseHA系统。◆系统切换时间短,平均切换时间为40秒,为目前同类软件中最短。◆切换过程对应用程序无影响(如柜台系统),无需重新启动或登录。◆系统效率高。因为整个系统中数据读写、管理及容错由DA来完成。而系统从服务器故障纠错处理由HA软件来完成,而这两个都是相对独立的子系统。双机容错监控路径为LVDSCSI线路(80M/S)和RS232线路或10/100M自适应网卡线路,既不占用主机CPU资源也不占用基础网络带宽,因此系统效率高,这一点在实际的应用中得到用户的一致好评。3.3集中备份系统解决方案描述3.3.1数据集中备份方案的实现由于用户环境中基本都为Windows系统,经过对开放式备份软件生产厂商Veritas、Leagato和CA等的考察,我们建议选择选择VeritasBackupExec对网络中的数据进行集中备份。选择VERITAS的备份管理软件的原因主要有:5*VERITAS是目前世界上最大的生产开放式备份管理软件