TsinghuaUniversityLibrary“CALIS高校学位论文全文数据库”建设方案清华大学图书馆2003.9.25TsinghuaUniversityLibrary国际范围内学位论文的网上利用已成趋势,可以归纳为两种模式:美国UMI公司的商业性数据库PQDD集中建库、分级服务的模式;由于UMI较为公平地处理学位论文的知识产权。该数据库在全球范围内的到公认和广泛应用;国内由同方光盘公司出版发行的《中国优秀博硕士学位论文全文数据库》基本采用了类同PQDD的作法。一、立项背景和需求TsinghuaUniversityLibraryNDLTD(博硕士论文网络数字图书馆)由美国弗吉尼亚理工大学计算机学教授EdwardFox在1997年发起建立,目前100多家参加;采用元数据集中建库,学位论文全文由各学校在本地建库的模式,采用OAI协议收集元数据;用户检索元数据库,通过OPENURL技术访问分布在各个学校的论文全文。这种方式符合数字资源开放建设和分布服务的发展趋势。近几年台湾地区建立起来的eThesys系统也是采用的类同架构。CALIS二期“高校学位论文全文数据库”的建设参考了NDLTD模式。TsinghuaUniversityLibrary高校的需求学位论文集中反映了学校的教学、科研成果,是广大师生十分重视的一种学术文献。近几年来,绝大部分学位论文都采用了计算机录入、排版和打印,由此产生了大量的“原生”的电子文本。在没有建立起电子版学位论文收藏机制之前,每年大量的电子文本随毕业生的离校而流失,这对学位论文的电子化利用是非常遗憾的事情。清华大学自2000年6月开始进行学位论文电子版全文的收集工作,目前已经积累四年(7批)电子版的博硕士学位论文一万余篇。TsinghuaUniversityLibrary最近2-3年,清华大学、北京大学、西安交通大学、武汉大学、吉林大学、厦门大学、西安交通大学、东南大学等图书馆也陆续建立了本校的学位论文提交系统和论文全文的服务系统。各学校利用的基础平台不同,做法也各有千秋。不同程度地在学位论文电子版的收集管理和服务上探索和积累了宝贵的经验。在数字图书馆建设浪潮下,国内图书馆都在寻找自己的切入点,想做一些数字化资源建设方面的事情。从某种程度上说,学位论文是各学校“自生”的资源,是最具备条件建立的数字资源之一。TsinghuaUniversityLibrary商业机构的关注最近1-2年,国内商业机构对源自大学和研究机构的学位论文给予了越来越多地关注,例如:清华同方“中国优秀博/硕士论文全文数据库”目前收录了2000年以来的4.5万篇博/硕士论文全文,采用与各学校签约并支付一定费用的方法收集论文全文;万方“中国学位论文数据库”*目前收录了80年代以来的学位论文记录36万条,最近3年的部分论文可以浏览全文;清华大学相当数量的论文全文可网上浏览,但万方从未与学校、作者、导师签约并支付费用;这种作法违反了知识产权保护的规则,应予以抵制。TsinghuaUniversityLibrary二、“CALIS高校学位论文文摘数据库”现状经过一期以来4年多的发展,数据累计量已超出10万条,参建单位已发展到了100余所。清华图书馆先后组织了三次全国性的建库人员培训和研讨会,培训人员有150人次。与参加项目的单位建立了良好的合作关系。一期四年多来文摘数据库的建设为目前“高校学位论文全文数据库”建设奠定了良好的基础。TsinghuaUniversityLibrary三、二期“高校学位论文全文数据库”建设模式二期采用“元数据集中建库、论文全文分散建库”的模式。项目牵头单位:清华大学图书馆负责收集元数据建库并提供集中式检索和服务。各参建单位:1)建立起本校的“学位论文网上提交系统”和“学位论文全文检索系统”;2)遵循本项目制定的学位论文元数据标准及其技术规范,通过OAI接口,提交统一格式的元数据;3)通过OPENURL技术实现集中的元数据库与本地全文库的链接。TsinghuaUniversityLibrary三、二期“高校学位论文全文数据库”建设模式TsinghuaUniversityLibrary三、二期“高校学位论文全文数据库”建设模式对二期学位论文库建设模式的分析:1)避免了“原生”电子版学位论文的流失;2)大幅度减少了论文收集、管理和利用的流程*;3)各校自己把握对论文知识产权处理的权利;4)各学校自己的论文全文可以即时、优先地向本校师生提供服务;5)一些已做或打算做论文回溯扫描的学校,可以建立起完整的学位论文系统;6)集中的元数据库可在更广泛的范围内提供服务;7)符合正在形成的分布式数字信息环境大趋势。TsinghuaUniversityLibrary四、建库平台和软件各学校本地“提交系统”和“检索服务系统”建设硬件:PC服务器(DELL、联想等)系统软件:Windows2000,LNIX等应用软件:四家产品(TRS、TPI、方正、麦达)四家我们都提供了相同的系统需求,目前满足的程度不完全相同,各有特点,也都有还需要进一步完善的地方。参加项目的学校根据本项目的总体需求和各学校的特殊需求选择使用。建议大家,尽可能地将学位论文系统的建设与本馆采用的数字资源建设平台统筹考虑。TsinghuaUniversityLibrary四、建库平台和软件有技术开发能力的学校也可以自行开发这些软件,但须具备本项目核心表单的所有数据项,提供通过OAI机制收割元数据的接口,提供通过OPENURL链接本地库记录的机制。---------------------------------------在二期方案的规划中,贯穿着的一个指导思想是,尽可能地减少图书馆员投入的工作量:1)通过建立学位论文网上提交系统,避免了馆员对元数据的输入;2)通过OAI协议收集元数据,省却了馆员对数据格式的转换和上传。TsinghuaUniversityLibrary五、预期效果项目启动一年内,在50所学校建立起本地的学位论文提交和检索系统,数据总量累计到3万条。项目启动两年内,在80所学校建立起本地的学位论文提交和检索系统,数据总量累计到7万条。到2005年,在100所学校建立起本地的学位论文提交和检索系统,数据总量累计到10万条。TsinghuaUniversityLibrary六、经费预算CALIS二期规划中预期的“学位论文全文库”的数据量为10万条(每条包括元数据和论文全文),预算的经费支持为100万。根据一期的经验,从今年开始到2005年,数据量增长10万条是十分艰巨的。估计不仅要包括每年新增的电子版论文,还要回溯加工部分前几年的纸本论文。TsinghuaUniversityLibrary六、经费预算经费预算的原则如下:用于数据补贴的经费占总项目经费的80%,主要用于:1)对各学校提交的论文元数据(包括文摘)给予补贴,补贴力度与一期文摘库的经费补贴基本持平,该部分经费约占数据补贴经费的50%;2)对各学校本地建立的全文库中的原生电子版全文基本不给补贴或者少量补贴,该部分经费约占数据补贴经费的20%;3)对回溯建库的元数据和全文给予适当补贴,该部分经费约占数据补贴经费的30%。TsinghuaUniversityLibrary六、经费预算项目管理费约占10%(包括项目运行协调、组织安排培训研讨交流等);系统维护和支持约占10%(包括文献索引数据库的维护与管理、检索服务平台用户需求的确定、全文数据的存档与备份等)。TsinghuaUniversityLibrary七、进度安排第一阶段准备阶段第二阶段启动阶段(2003年9月-2004年2月)9月:组织第一批培训;10月:各单位安装、试用论文提交和检索系统;11月:签定应用软件购买协议(商家、用户);12月:在校园网上开通本地的提交和检索系统。(通过寒假前小批量毕业的研究生提交论文验证系统的稳定性和工作流程)----------------------------------------------------------------------------------------------------------------------------------------------------同时,根据需要启动第二批培训。第三阶段实施和滚动发展阶段TsinghuaUniversityLibrary谢谢大家!THANKYOU