云服务框架下资源整合的发展2010.12.16上海复旦清华大学图书馆姜爱蓉大纲云计算&云服务图书馆的“云”环境任重道远的资源整合资源整合的发展趋势看清形势、审视环境、探索实践、着眼未来云计算&云服务面对“云计算”众说纷纭:褒:云计算将是继大型计算机、个人计算机和互联网之后的第四次IT产业革命,将引领未来3~5年新技术发展,将给生产和生活方式带来深刻的变革。据美国国际数据公司(IDG)预测,到2012年,全球“云计算”服务市场规模将达到420亿美元。贬:IT业界对“云计算”趋之若鹜,却鲜有人能给出“云计算”的正确含义。甲骨文CEO拉里·埃里森曾表示:“我完全搞不懂那帮人在说些什么,简直就是一派胡扯。这(云计算)到底是指什么?省省这种愚蠢的概念吧。”历史学家伯契纳克认为:云计算会跟“网络空间(Cyberspace)”、“Web2.0”等曾经炙手可热的词汇一样,流行一阵,然后被遗忘。他表示:“云计算这个术语本身没有问题,问题在于它总是想包罗万象、涵盖一切。”新名词、新概念层出丌穷SaaS软件即服务UtilityComputing效用计算??Virtualization虚拟化GridComputing网格计算ClusterComputing集群计算CloudComputing云计算Web2.0云计算的前世不今生•并行计算处理大型问题•VirtualServer网格计算效用计算软件即服务云计算•以使用量计费的计算资源•VirtualInfrastructure•以网络为基础的软件订购服务•VirtualApplication•通过网络以按需、易扩展的方式获得所需的服务•VirtualService云计算的技术背景云计算是并行计算(ParallelComputing)、分布式计算(DistributedComputing)和网格计算(GridComputing)的发展,或者说是这些计算科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(UtilityComputing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。对云计算概念的理解云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算能力、存储空间和各种软件服务。图书馆员的视角:与其说云计算是一项新技术,倒不如说它是一种新的理念,一种按需获取的服务模式。云计算的应用模型将网络中的各种资源调动起来,为用户服务→云服务Web2.0仍具上风,但趋势减缓!2007年以来,云计算处在上升期!云计算正在上升期大纲云计算&云服务图书馆的“云”环境任重道远的资源整合资源整合的发展趋势图书馆的“云”环境经过十几年的发展—电子资源种类和数量正在超越纸本资源信息设施成为图书馆的标准网络已成熟(不仅快,且无处不在)计算和存储的硬件设备越来越便宜图书馆的服务正在发生历史性变革从基于载体的服务转变为基于内容的服务从孤立分离的服务过渡到集成整合的服务2009年纸本资源与电子资源的比较:馆藏书刊总量375万册(件)纸本图书年购买约4.6万种(其中外文5777种)纸本期刊年订购3334种(其中外文116种)纸本学位论文约5.5万种------------------------------------------------------------------------------------电子资源/数据库450个电子图书247.5万种(其中外文约47.5万)全文电子期刊4.8万种(其中外文+OA约3.4万)电子学位论文134.5万篇(其中外文约25万)电子资源经费占文献总经费比例:2007:40%→2008:55%→2009:59%→2010:62%↗清华图书馆的资源变迁个人电脑成为读者利用图书馆、馆员开展业务的“必备工具”—全馆500台++。服务器成为图书馆运行的基础保障,机房120台服务器提供7×24×365的不间断服务。清华图书馆的环境变迁局域网和广域网成为图书馆资源和服务的“标准配置”—逾1500个网络端口,支持IPv6&IPv4双栈无线覆盖全馆、102个AP,网络无所不在。清华图书馆的环境变迁服务成几倍的增长→2009年到馆读者人次逾134.2万主页登录人次逾707.2万—后者是前者的5.2倍2009年咨询台接待读者人次1.85万虚拟参考咨询访问人次7.5万—后者是前者的4倍清华图书馆的服务变迁远程利用资源大幅提升→2009年图书外借87.9万册次馆际互借完成2.4万份二次文献检索373万次电子全文浏览/下载1017万篇次电子图书浏览/下载231.7万册次清华图书馆的服务变迁面对全球范围的数字资源激增,图书馆陷入被动局面。人们对数字资源揭示和整合的能力远远落后于数字资源的增长速度。图书馆的资源质量高,但查找不方便。数字图书馆需要借助于强大的检索能力、存储能力和计算能力来管理海量资源,为读者提供准确、流畅的信息发现和获取。云计算&云服务的出现为图书馆提供了资源管理和整合的新契机。图书馆面对的严峻挑战“信息探索行为”调查结果2010年4月在伦敦举行的JISC年会上,发布了OCLC、RIN和JISC联手调查的“信息探索行为”系列报告—旨在感知用户的信息寻求行为。1)图书馆系统必须在无缝接入资源方面做得更好;2)图书馆员必须考虑更多种类的信息形式和内容;3)图书馆系统和内容必须适应用户信息行为的改变;4)图书馆系统的界面和功能需要向Google、Yahoo等搜索引擎以及Amazon.com等网络服务靠近,以使用户感觉熟悉、舒适并自信;5)高品质元数据在发现合适资源方面日益重要;6)图书馆须更好地在社区内宣传其品牌、价值和资源。大纲云计算&云服务图书馆的“云”环境任重道远的资源整合资源整合的发展趋势传统图书馆主要管理几十万或几百万件的纸本馆藏。经过几十年的发展,图书馆自动化系统担起馆藏揭示和服务的重任。数字图书馆需要管理数以百计的数据库,数以万计的电子期刊、数以百万计的电子图书、数以千万乃至几个亿的学术论文。揭示和管理这些分布、海量的数字资源对图书馆是一个严峻挑战,迫切需要得心应手的理想工具。任重道远的资源整合图书馆需要一个当家的、统一管理所有类型资源并提供服务的系统。清华馆资源整合的轨迹:2000年→建立数据库/电子期刊导航,是读者利用电子资源主要入口2005年→引进MetaLib+SFX建立“学术信息资源门户”,提供文献内容层面的整合和一步到位的获取服务2008年→测试引进学术推荐服务bX,提供基于用户经验的知识链接服务任重道远的资源整合2009年→基于MetaLib+SFX的知识库(CKB)重用,升级数据库/电子期刊导航,提供多数据源汇聚的导航服务2010年→重用SFX的CKB数据,实现电子期刊书目信息批量导入OPAC重用MetaLib的功能,实现图书馆主页的快速检索框功能启动资源发现系统的调研测试形成了汇集了几十万篇文章的目次摘要信息的数据池多数据源汇聚的导航服务图书馆中英文主页改版升级嵌入快速检索框功能2004年读者调查:利用电子资源主要入口:通过数据库/电子期刊导航占86.15%几个层面的资源整合平台使用统计:2006-09年整合链接统计:250万2008-09年bX使用统计:月均点击5500篇次2009年新版数据库/电子期刊导航使用统计:月均访问30万页次,呈上升趋势,今年以来月均37万页次。数据库导航电子期刊导航OPAC编目揭示/检索到数据库层面、期刊名称层面;无法满足读者定位到目标信息(文章题名、作者及内容)需求。整合系统发现系统揭示/检索到文章的题名、作者、文摘、主题/关键词乃至全文。丌同层面的整合对电子资源揭示的深度丌同大纲云计算&云服务图书馆的“云”环境任重道远的资源整合资源整合的发展趋势目前整合系统的优势和不足:被整合的电子资源覆盖面宽,达90%以上,绝大多数中外文电子资源可以被整合;依靠技术手段,通过多种方式实现整合,可控;检索结果的速度受网络传输和数据源平台的制约,影响了用户体验;检索结果的选择性呈现影响查准率、查全率。资源整合的发展趋势不断提升的应用需求促进着行业的发展。2008年以来发现系统崭露头角,成为数图发展的热点之一。初级阶段:分布环境下电子资源的逐一检索实时查询和响应SpringerLinkILSProQuest中国知网读秀实时查询和响应本地索引元搜索引擎中级阶段:电子资源的联邦检索发现系统—预先收割数据并建索引“高级阶段”:基于数据仓储的整合检索发现系统(DiscoverySystem)的突出特点是——快速、简洁、易用。有人称之图书馆的Google。尽管发现系统才出现2-3年,大多数图书馆还在观望,尽管发现系统还存在不尽如意的地方,…但据2009年统计,全球范围“发现系统”用户总数600家,年增40%。反映了图书馆面对电子资源不断增长,迫切希望为读者提供“得心应手”的资源发现工具的压力!用户界面本地资源预索引仓储第三方系统Discover平台集中索引2集中索引1集中索引3有的发现系统在云计算环境中(如亚马逊)部署平台发现系统的云服务架构发现系统的技术优势是预先对元数据及全文建立的高品质仓储和索引,由此产生的明显效果包括:扩大检索范围;提升检索效率;保障查全率和查准率;结果呈现的灵活多样;学科化、知识化的拓展应用;纸本和电子资源的强融合、强整合。扩大检索范围由于联邦检索依赖计算机的处理能力实时发送检索并获取结果,检索性能受到被检索资源平台的数量和性能影响,往往一次检索限制在20-30种资源内。目前商家的预索引仓储数据量为2-5亿(包括10余万种期刊的上亿篇文章,上千万的电子书,上百万的学位论文等),用户的检索不再受资源平台和数量的限制。技术优势的效果提升检索效率联邦检索的结果呈现受电子资源平台和网络传输的制约,跨20-30个资源库检索,首页结果呈现3秒,但全部结果呈现有时需要几十秒。发现系统在预建元数据和全文索引的支持下,大部分(80%以上)检索结果呈现1秒。技术优势的效果保障查全率和查准率发现系统在预收割并建立元数据和全文索引的过程中,进行规范化、丰富化处理,提高了检索结果的查全率和查准率。预索引仓储技术优势的效果结果呈现的灵活多样检索结果可实现:去重、排序、分面、FRBR、可视化全文链接、个人文献管理、外部数据聚合用户行为的挖掘、学术经验的推荐与分享技术优势的效果结果呈现的灵活多样技术优势的效果学科化、知识化的拓展应用通过对主题、署名关系、收录期刊和会议等进行数据挖掘、发现共同兴趣,揭示机构之间、研究者之间的隐性关系,建立新的合作。海量的结构化、高品质的预索引数据是知识发现和关联的基础,在知识组织和学科化服务方面大有作为。(“人”,“机构”,“著作”,“活动”,“大事记”,等)技术优势的效果纸本和电子资源的强融合、强整合发现系统基于对图书馆ILS数据的全面收割和重新索引,将书目数据与电子资源数据无缝融合在一起,在发现系统界面上重新呈现,包括馆藏的实时流通状态。纸本和电子资源的真正融合整合在一起提供检索和服务。技术优势产生的效果可索引数据的覆盖率成为竞争的第一焦点目前在国内推介的几家国外发现系统尚未完全解决中文学术文献/文章的元数据和全文索引的稳定来源及可持续获取。而国内着手研发的发现系统目前也很难全局性地解决外文资源的元数据和全文索引数据的稳定来源及可持续获取。关注和评估的方面量!可索引数据仓储与本校订购电子资源的匹配程度根据目前与几家发现系统商家的沟通,外文电子资源与各家数据仓储的匹配度都达85-90%以上。但各家用作匹配基数的算法有所不同。图书馆需通过更多途径对资源的匹配度进行评估。避免单追求数据量而忽视质量。关注和评估的方面质!技术明显优势的诱惑……仓储尚待完整的遗憾……在资源发现系统还在发展成熟的过程中,读者的迫切需求又促使图书馆尽快作出选择。读者期待的是一个全球化全局性的检索!寻求预索引中文学术文