“CALIS高校学位论文数据库”总体进展介绍姜爱蓉jiangar@lib.tsinghua.edu.cn清华大学图书馆学位论文项目组2007.09.27南京提纲第一部分项目概况第二部分任务完成情况第三部分项目效益与成果第四部分经验体会与存在问题第五部分下一步的考虑第一部分项目概况建设目标主要任务建设目标在“九五”期间建设的CALIS学位论文数据库基础上,建设一个提供“集中式元数据检索、分布式全文获取”的CALIS高校博硕士学位论文数据库服务平台。为高校范围内的读者通过网络共享学位论文信息提供途径和保障,促进高校教学、科研水平的交流与提高。主要任务建设CALIS高校学位论文数据库;20万条元数据,其中可提供全文服务的比例不低于50%。建设CALIS高校学位论文门户;建立本地学位论文网上提交与发布系统;形成一套学位论文标准规范;建立一个支持项目可持续发展的机制(项目管理和运作模式、系统运作模式)第二部分任务完成情况建设内容与具体指标参建单位情况建设内容与具体指标CALIS高校学位论文数据库建设采用“OAI+METS”技术收集参建单位的元数据和前16页全文。2006年6月,从13家参建单位收集元数据115,679条,前16页全文58,230篇。2003年项目提前启动后,约30家参建单位延续一期的FTP方式提交4万多条文摘索引数据。“九五”完成的10万条数据经迁移与“十五”新增的15万条数据归并在同一平台上提供服务,建成具有25万条学位论文记录的CALIS学位论文数据库。CALIS高校学位论文门户建设集中检索高校学位论文元数据并浏览前16页;基于OpenURL技术实现元数据与本地系统的链接,实现可在线浏览已授权的论文全文;建立按学科分类的导航体系(可逐层展开至三级学科),提供按题名、点击率等排序浏览;支持IP、IP+用户名/密码认证(注册用户);为注册用户提供个性化定题通告服务;CALIS高校学位论文门户建设(续)CALIS高校学位论文门户建设(续)CALIS高校学位论文门户建设(续)全文服务通过两种途径:1)通过OpenURL技术链接到本地系统浏览获得作者授权CALIS范围内使用的论文全文;2)通过CALIS馆际互借系统,由各参建馆提供全文获取的保障。通过以上途径,提供全文服务的比例达50%。CALIS高校学位论文门户建设(续)三级学科导航浏览CALIS学位论文数据库的服务层面:元数据级公开免费提供检索论文前16页公开免费提供浏览论文全文通过认证(结算)管理提供在线浏览或通过馆际互借/文献传递提供传递获取提供用户访问统计及学位论文库使用统计。CALIS高校学位论文门户建设(续)系统整体框架本地“学位论文网上提交与发布系统”建立自项目启动以来,已有80余所高校建立:新型的学位论文网上提交、管理机制本地学位论文全文网上提交与发布系统实现了学位论文提交与发布一体化。每年在毕业生完成论文提交的同时就可以发布提供服务,经逐年累积,形成具有本校学科优势的学术资源库。项目组从系统售后支持和可持续发展考虑,推荐四套由国内软件商开发的系统平台供参建单位选择使用,并以组团购买的方式争取优惠价,减少重复开发、成本低见效快。审核和编目学生审核员编目员发布服务不合格合格论文编目检索提交模块文档标准化(全文&16页)原有论文数据迁移论文审核论文发布统计与评估结算模块OAI&METS接口本地学位论文网上提交与发布系统主要功能提交表单形成一套学位论文标准规范本项目采用与国际接轨、开放、先进的主流技术和通行的标准规范。主要标准规范与《我国数字图书馆标准规范》以及CALIS相关标准规范保持一致。项目承建单位清华大学图书馆参与了《我国数字图书馆标准规范》课题的子项目--专门元数据组的标准规范制定工作,负责制定“学位论文描述元数据规范”。该规范收入《中国高等教育数字图书馆技术标准与规范》,并作为本项目参照的元数据标准在参建馆普遍使用。形成一套学位论文标准规范(续)项目实施中制定并应用了一套相关标准规范,包括:《学位论文元数据描述元数据规范》《学位论文版权使用授权书》《学位论文提交系统核心表单》《学位论文提交和发布系统软件本地需求》《学位论文数字对象唯一标识符》《学位论文本地系统功能认证规范》《学位论文中心系统技术方案》《学位论文全文格式标准》等。项目可持续发展机制的建立项目管理采用承担单位与参建单位联合建设的模式。通过签定“CALIS高校学位论文数据库建设协议书”的形式确定参建单位的义务、责任和权利。由8所学校代表组成的“项目管理组”(北京大学、中国农业大学、吉林大学、上海交通大学、武汉大学、中山大学、西安交通大学、清华大学),讨论决策项目进展重要问题,反映参建单位的意向,协调项目的进展;清华图书馆组成项目实施小组并设立专岗负责项目的建设实施工作。项目可持续发展机制的建立(续)项目运作资源共建共享机制。在高校范围内实现学位论文资源共建共享。参建单位不仅可以共享学位论文的元数据和论文前16页信息,而且在获得授权许可的情况下,通过开放链接可以远程浏览其他单位的学位论文全文;补贴为主机制。根据各参建单位提交/收集的数据量分批划拨数据补贴费用;激励为辅机制。根据各数据的质量和数量给予表扬和奖励(增拨数据补贴费用)。项目可持续发展机制的建立(续)系统运作学位论文系统采用元数据集中检索、全文分布获取保障的运作模式。参建单位本地系统负责:①建立起本校的“学位论文网上提交和发布系统,收集数据、提供服务;②遵循项目制定的标准及技术规范,生成统一格式的元数据和OAI-DP接口;③支持采用OpenURL技术建立元数据与本地全文库的链接;④自主控制学位论文全文的访问权限。子项目中心系统负责:①通过“OAI+METS”技术自动收集分布在参建馆本地的元数据;②提供学位论文元数据的集中检索和前16页的链接浏览;③学位论文信息的个性化定制推送服务;④后台的用户管理和各层面统计。子项目参建单位情况“十五”项目启动以来,2003年-2006年组织3次培训活动,参加学校100多所,培训人员220多人次。2007年9月南京会议,报名参会的学校90多所,参会人数150多人。截止到2006年5月,已有80所学校正式签定了参加本项目建设的协议,有20多所学校参加了培训未签协议。培训、签约情况建立本地系统情况:分别选择TPI、TRS、方正、麦达等四个公司的学位论文软件建立本地系统的学校有70余家,采用图书馆自己开发软件的学校有4-5家。据2005年统计,通过本地系统每年收集学位论文超出1000篇的学校有33家,不足200篇的有6-7家。截止到2006年5月,10余所学校的本地系统累计的学位论文数量超出1万条,2-3所学校累计超过3万条。系统、数据情况第三部分项目效益与成果“十五”与“九五”相比,学位论文项目的主要成效有:学位论文网上提交利用机制的建立数字图书馆新技术的规模化应用高校学位论文库数据量大幅度增加学位论文系统平台的标准化建设学位论文网上提交利用机制的建立以本地网上提交发布系统的建设,牵动各学校建立起新型的学位论文收集和利用机制:网上提交与管理、电子版保存与服务、授权使用与共享。本地系统每年在毕业生完成论文提交的同时就可以即时发布提供检索服务。新机制的建立,打破了高校多年以来学位论文以收藏纸本为主,只能提供到馆浏览或复印的有限服务,资源未能充分利用的局面。促进了各学校自有特色资源的数字化收藏和网络化利用。数字图书馆新技术的规模化应用本项目技术方案采用[OAI+METS]机制自动收集参建单位的学位论文元数据和前16页全文;采用开放链接技术实现集中元数据检索与本地系统全文的链接浏览。以上数字图书馆新技术从理论上和试验上在国内外已获得广泛认同,但面对几十家单位采用的不同平台,实施数据在线收集,国内尚未有先例。尤其是采用METS格式,通过收割机制实时前16页全文的在线收集,本项目所用方案和实施过程在国内外属领先尝试。数字图书馆新技术的规模化应用(续)“十五”学位论文项目建设遵循国际标准,采用数字图书馆新技术解决数据收集和互操作等问题是一个明显进步。本地系统的建立,使得参建单位提交数据简单方便。“九五”数据由馆员著录并用FTP工具上载提交;“十五”数据由学生填写,馆员审查发布,子项目平台利用OAI及METS技术在线/离线收集。新技术的采用,减少了各学校学位论文数据加工的投入,提升了数据收集的质量和效率,相关技术标准的培训和应用也提升了参建馆数字图书馆建设的技术水平。高校学位论文库数据量大幅度增加在参建单位的大力支持下,本项目“十五”新增学位论文数据量15万条,与“九五”完成的10万条数据归并在同一平台上提供服务,数据总量达到25万条。新增数据大部分包括学位论文前16页,并可通过OpenURL技术链接到本地系统浏览原文。“十五”新增数据来源于各学校的学位论文提交系统,在数据质量上与“九五”相比有明显提升。学位论文系统平台的标准化建设本项目采用和参照国内外已有、通行的标准规范,并根据项目发展的需要,自主制订了相关规范。在项目实施中,这些标准规范已在参建单位中广泛使用,推动了我国高校学位论文系统平台的标准化和规范化建设,也为不同单位、不同层次的学位论文系统之间进行数据交换,CALIS学位论文系统与其它数字图书馆系统之间的互操作奠定了良好的基础。第四部分经验、问题以及下一步考虑经验和体会问题与措施下一步的考虑经验和体会1)顺应信息化发展,在高校普遍建立电子版学位论文网上提交和管理机制,改革了我国学位论文传统的收藏保存服务方式。教育部高等教育司于2004年10月18日下发—关于加强中国高等教育文献保障系统二期工程(CALIS)子项目建设的意见,其中有关学位论文建设的意见对各校学位论文本地系统的建立是一个及时推进。经验和体会经验和体会(续)2)“元数据集中检索、全文分散保障”的建设方案符合分布环境下数字图书馆的发展趋势。学位论文项目以两级系统(网上提交发布系统,集中检索服务系统)的建设牵动,在高校范围内建立了一个学位论文信息共享利用和分布服务的保障体系。这种建设模式适合对“原生”数字资源的收集,不仅抓住了研究生毕业前提交论文的机遇,而且也充分调动了大学图书馆的积极性,在各馆建好本地系统的基础上,中心系统的数据收集就有保障。经验和体会(续)3)学位论文项目促进校园机构库的建设近几年来,国际上正在蓬勃开展IR(InstitutionalRepository)建设,欧美一些领先图书馆在中长期发展规划中普遍将IR建设作为一项重要任务。目前国际范围内已有1000多所大学开始建设校园机构库。国内中科院等单位也在开展这方面的研究和实践。国际上认为机构库收集资源主要包括:预印本(Pre-prints)、后印本(Post-prints)、会议论文、教学材料、学生课程报告、学位论文、项目数据资料、计算机软件、图像、非静态的资源(如影像、声音文件)等。学位论文项目建设经验可推广应用到IR建设。经验和体会(续)4)在项目建设中,承担单位在确定方案和实施过程中要从调动参加单位的积极性和保护参建单位的利益出发。各参建单位在参与项目的过程中不仅仅只是提交论文数据,而且也推进了本馆数字化的发展,锻炼培养了队伍。5)在项目建设中,尽量采用公认的标准规范和成熟技术(软件),减少开发投入,提高建设效率。参建单位的网络性能对大批量数据在线收集有一定影响。因学位论文项目涉及到的参建单位较多,有些学校所在地区的网络带宽窄,网速慢,网络状况不稳定等因素都将给大批量的数据收集带来影响。这种情况下,一些参建单位仍需要采用FTP方式提交数据(离线收割)。改进措施:项目组将FTP方式提交作为数据收集的第二套方案,子平台开发中实现了这项需求并在验收前采用FTP方式收集了一部分数据。问题与措施作者在学位论文的授权使用上存在较大差距,影响到学位论文全文共建共享的程度。绝大部分参建馆在收集学位