数字图书馆基本技术及应用查贵庭南京农业大学图书馆、图书与信息中心2011年7月23日主要内容一、数字图书馆基本技术二、数字图书馆技术应用2一、数字图书馆基本技术数字图书馆基本技术主要包括服务器、计算机网络和数据存储等技术。1、服务器技术服务器是20世纪90年代的迅速发展的主流计算产品,它是在网络环境下提供网上客户机共享资源的设备,具有高可靠性、高性能、高吞吐能力、大内存容量等特点,并且具备强大的网络功能和友好的人机界面。服务器首先是计算机,只不过是能提供各种共享服务(网络、Web应用、数据库、文件、打印等)的高性能计算机,它的高性能主要体现在高速度的运算能力、长时间的可靠运行、强大的外部数据吞吐能力等方面。31.1服务器主要类型按CPU分类(RISC、CISC、VLIW)RISC架构服务器使用RISC芯片(reducedinstructionsetcomputer,精简指令集计算机,是一种执行较少类型计算机指令的微处理器,能够以更快的速度执行操作)并且主要采用UNIX操作系统的服务器,如Sun公司的SPARC、HP公司的PA-RISC、IBM公司的POWER芯片、DEC的Alpha芯片(后归入HP)、SGI公司的MIPS等;CISC(或IA)架构服务器(IntelArchitectureServer)即通常所讲的PC服务器,采用x86(CISC,ComplexInstructionSetComputer复杂指令集计算机)芯片并且主要采用WindowsNT/Windows2000/Linux等操作系统的服务器,如IntelPentiumIII(Xeon)/IntelPentiumII(Xeon)等。4VLIW架构服务器VLIW是英文“VeryLongInstructionWord”的缩写,中文意思是“超长指令集架构”,VLIW架构采用了先进的EPIC(清晰并行指令)设计,我们也把这种构架叫做“IA-64架构”。目前基于这种指令架构的微处理器主要有Intel的IA-64和AMD的x86-64两种。但基于VLIW指令集字的CPU芯片使得程序变得很大,需要更多的内存。更重要的是编译器必须更聪明,一个低劣的VLIW编译器对性能造成的负面影响远比一个低劣的RISC或CISC编译器造成的影响要大。按规模分按规模划分为大型服务器(计算中心级或企业级)、中型服务器(部门级)、小型服务器(基层工作组级)、入门级服务器等。5按用途分网络(Web)服务器、数据库(Database)服务器、文件(File)服务器、电子邮件(Mail)服务器、打印(Print)服务器等。按服务器的外形与结构分塔式服务器(直接放在地面)、机柜式服务器(专用机柜)、机架式服务器(放在机柜)、刀片服务器(放在机柜)。61.2服务器与小型机在英文里这两都叫Server(服务器),目前图书馆运用的服务器,国内业界常常有小型机、PC服务器之分。PC服务器则主要指基于Intel处理器的架构,是一个通用开放的系统(通用操作系统);而小型机则是业界对RISC架构服务器的习惯称呼,是个较专用的系统(专用操作系统)。不同品牌的小型机架构大不相同,使用RISC、MIPS处理器,像美国Sun、日本Fujitsu等公司的小型机是基于SPARC处理器架构,而美国HP公司的则是基于PA-RISC架构;I/O总线也不相同,Fujitsu是PCI,Sun是SBUS等等。这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用的;操作系统一般是基于Unix的,像Sun、Fujitsu是用SunSolaris,HP是用HP-Unix,IBM是AIX等等,所以小型机是封闭专用的计算机系统。71.2.1选择PC服务器还是小型机近年来,图书馆系统建设中常常出现小型机和PC服务之争。到底如何选择,以下看法,仅供参考:就大型软件应用而言,如整个学校的信息资源管理系统及其后台数据库平台,或者大型的数字图书馆系统平台等等,此类软件系统应用必须架设在高性能的小型机上,PC服务器的性能很难满足此类应用。现在的小型机,以SUNFireE25K为例,其技术可支持多达72个CPU,而且支持硬件划分域,域之间的应用互不影响,可以作为完全分离的系统进行使用(包括软硬件系统上的完全分离)。但是,小型机也存在:价格昂贵、专用性等弱点。因此,应根据需要选择适合的产品,把次要的、服务能力要求不高的应用架设在PC服务器上,既可不与重要的大型应用争抢小型机资源,又能较好地满足各种不同的应用环境,达到更好的服务效果,维护也更容易。81.3服务器的主要技术SMP技术SMP:SymmetricMultiProcessing,即对称多处理。指在一个计算机上汇集了一组处理器(多CPU)。SCSI技术SCSI:SmallComputerSystemInterface,即小型计算机系统接口。相对于IDE接口,SCSI接口具备如下的性能优势:1)独立于硬件设备的智能化接口,减轻了CPU的负担;2)多个I/O并行操作,SCSI设备传输速度快;3)可联接的外设数量多,可扩展多个外设(如硬盘、磁带机、CD-ROM等);4)当同时访问到服务器的网络用户数量较多时,使用SCSI硬盘的系统I/0性能明显强于使用IDE硬盘的系统。9RAID技术RAID是英文RedundantArrayofIndependentDisks的缩写,翻译成中文即为独立磁盘冗余阵列,或简称磁盘阵列。简单的说,RAID是一种把多块独立的硬盘(物理硬盘)按不同方式组合起来形成一个硬盘组(逻辑硬盘),从而提供比单个硬盘更高的存储性能和提供数据备份技术。在用户看起来,组成的磁盘组就像是一个硬盘,用户可以对它进行分区,格式化等等。总之,对磁盘阵列的操作与单个硬盘一模一样。不同的是,磁盘阵列的存储速度要比单个硬盘高很多,而且可以提供自动数据备份。AID技术的两大特点:一是速度、二是安全。RAID技术经过不断的发展,现在已拥有了从RAID0到7等多种基本的RAID级别。另外,还有一些基本RAID级别的组合形式,如RAID10(RAID0与RAID1的组合),RAID50(RAID0与RAID5的组合)。不同RAID级别代表着不同的存储性能、数据安全性和存储成本。10RAID0即DataStripping数据分条技术。整个逻辑盘的数据是被分条(stripped)分布在多个物理磁盘上,可以并行读/写,提供最快的速度,但没有冗余能力。RAID0的缺点是不提供数据冗余,因此一旦用户数据损坏,损坏的数据将无法得到恢复。RAID0具有的特点,使其特别适用于对性能要求较高,而对数据安全不太在乎的领域,如图形工作站等。对于个人用户,RAID0也是提高硬盘存储性能的绝佳选择。11RAID1把一个磁盘的数据镜像到另一个磁盘上,只能在两个磁盘上实施,具有最高的数据冗余能力,RAID1又称镜像(Mirror)盘,采用镜像容错来提高可靠性。由于raid1对存储的数据进行百分之百的备份,在所有RAID级别中,RAID1提供最高的数据安全保障。同样,由于数据的百分之百备份,备份数据占了总存储空间的一半,因而,Mirror的磁盘空间利用率低,存储成本高。12RAID0+1把RAID0和RAID1技术结合起来,数据除分布在多个盘上外,每个盘都有其物理镜像盘,提供全冗余能力,允许一个以下磁盘故障,而不影响数据可用性,并具有快速读/写能力。要求至少4个硬盘才能作成RAID0+1。13RAID5RAID5是一种循环偶校验独立存取的阵列。校验数据不是存储在一个专职的校验盘上,而是分布在多个盘上。当一个磁盘故障时,控制器可以从其他尚存的磁盘上重新恢复/生成丢失的数据而不影响数据的可用性。RAID5要求至少3个磁盘,容量是(N-1)/N。14集群(Cluster)技术集群技术是近几年新兴起的一项高性能计算技术。它是将一组相互独立的计算机通过高速的通信网络而组成的一个单一的计算机系统,并以单一系统的模式加以管理。其出发点是提供高可靠性、可扩充性和抗灾难性。一个服务器集群包含多台拥有共享数据存储空间的服务器,当其中一台服务器发生故障时,它所运行的应用程序将由其他的服务器自动接管。高可用性集群,英文原文为HighAvailabilityCluster,简称HACluster,是指以减少服务中断(宕机)时间为目的的服务器集群技术。高性能计算集群,英文原文为HighPerformanceComputingCluster,简称HPCCluster,是指以提高科学计算能力为目的计算机集群技术。高可扩展性集群技术,是带均衡策略(算法)的服务器群集,实现负载均衡群集为目的。152、网络技术数字图书馆是校园信息化的重要组成部分,网络是数字图书馆服务的重要途径。当前校园计算机网络按照组网及认证可以分为4种主要方式。1)以交换为主的层次架构模式,入网认证采用出口网关方式。用户插入网口,就可以自动获取校园内IP地址,用户电脑自然也就可以无缝访问校园网,图书馆资源可以容易被读者所访问;图书馆工作用计算机、读者电脑等也可以通过网关认证(可以是web认证,也可以是客户端认证)较容易访问校外资源。该方式是最灵活、最简单的管理模式,用户自主性强。2)以交换为主的层次架构模式,入网认证采用802.1X方式。用户插入网口,只代表物理联通,但要获得校园网合法IP地址,必须进行认证(客户端认证),认证通过才可以访问校园网。读者访问图书馆资源必须认证,图书馆计算机访问校外资源也必须认证。16该方式认证较严格,由于该方式依赖的为接入端交换机的802.1x协议,因此,故障率和破解率较高,目前已被放弃。3)以路由为核心的二层架构模式,入网认证采用PPPOE方式。用户插入网口,可以自动获取校园的认证地址,但逻辑上只能与认证服务器进行通信,用户还需要使用PPPOE的客户端模拟拨号进行认证,一旦认证通过,计算机才可以允许与外部进行通信。因此,任何图书馆资源的访问都必须进行严格认证,控制能力较强、管理相对简单,但是灵活性较弱、功能限制较多。该方式采用的是核心路由强制性认证模式,属于运营管理模式。4)图书馆自主建网与管网模式,图书馆网络自成体系方式。图书馆自主建设自己的网络及出口,资源调配和自主性强,但是,因网络是个较复杂的系统,图书馆自主建设和管理网络是一种不得已而为之的模式,不仅人力与资金成本较高,而且难以与学校其他信息系统实现资源共享,故该方式不能适应数字化校园整体发展的需要。173、存储技术3.1存储介质磁介质,磁盘、磁带等;光介质,光盘等;电介质,闪存;生物介质,生物芯片(仍处于研制阶段)。3.1.1磁存储介质主要有磁带、软盘、硬盘等1)磁带存储器主要用于大型计算机系统——数据备份。主要优点:存储容量大,存储成本低。微型计算机用的规格为1/4英寸盒式磁带可以存储多达20GB的数据。使用2~3英寸带盒的DAT(数字音频磁带)存储容量为2~24GB。主要缺点:顺序存取,存取不便且速度不高。182)硬盘存储器传统硬盘属于磁介质的一种,但现在也出现了固态硬盘(有些不属于磁介质)。根据硬盘的接口可以分为:IDE硬盘、SCSI硬盘、SATA硬盘、FC硬盘、SAS硬盘等;根据转速可以分:5400转、7200转、10000转、15000转甚至更高转速硬盘,转速愉快,存取数据的速度也越快;根据尺寸硬盘可以分为:3.5英寸、2.5英寸。另外,也有通过容量来划分的,但是,随着技术的发展,容量也越来越大。193.1.2光介质光存储介质,采用的存储方式都与软盘硬盘相近,也是以二进制数据的形式来存储信息。光存储工作原理是改变存储单元的某种性质(如是否反射,反射率、反射光极化方向等),利用这种性质的改变来存储二进制数据。CD-ROM的最大存储容量是650M,而DVD单面单层型:4.7GB;双面单层型:8.5GB;双面双层型:17GB(532分钟的高清晰度电影)。光盘是可靠、大容量的可换介质,这是其最大的优点和特征。203.1.3电存储技术电存储技术主要包括半导体存储器SCM(SemiconductorM