收稿日期:2011-03-04基金项目:吉林大学基本科研业务费哲学社会科学研究项目(2009JC047)作者简介:马捷(1973-),女,辽宁锦州人,博士,副教授,主要从事知识组织研究.中国知网知识组织模式研究马捷1,2,刘小乐1,郑若星1(1.吉林大学管理学院,吉林长春130022;2.吉林大学信息资源研究中心,吉林长春130022)摘要:中国知网是世界上全文信息量规模最大数字图书馆。分析了中国知网当前的知识组织模式:数据库、主题树、知识库和分类主题一体化模式。结合知识组织技术的发展,提出中国知网可以进一步采用基于本体的知识组织模式、主题图和超维知识组织模式,提高知识服务水平。关键词:知识组织;中国知网;主题图中图分类号:G350文献标识码:A文章编号:1007-7634(2011)06-0843-04ReseachonKnowledgeOrganizationModeofCNKIMAJie1,2,LIUXiao-le1,ZHENGRuo-xing1(1.ManagementSchoolofJilinUniversity,Changchun130022,China;2.InformationResourceReseachCenterofJilinUniversity,Changchun130022,China)Abstract:CNKIisaDigitalLibrarywhichownsthemostfulltextinformationquantityintheworld.ThearticleanalyzetheknowledgeorganizationmodelofCNKI,theyareDatabasemodel、Topic-SpecificTreemodel、KnowledgeBasemodelandClassificationandSubjectIntegrationmodel.Withthedevelopmentofknowledgeorganizationtechnology,theauthorputforwardthreenewknowledgeorganizationmodelsthatcanbeusedonCNKI,theyareKnowledgeOrganizationModelBasedonOntology、TopicMapModelandSuperDimensionOrganizationModel.CNKIcanimproveitsknowledgeservicelevelthroughusingthesenewmodels.Keywords:knowledgeorganization;CNKI;thememap数字图书馆是以知识概念为支撑的一种信息服务和知识服务环境【1】,其知识组织方式是在传统的信息组织方式基础上发展起来的。数字图书馆的知识组织不仅仅是文献分类标引或各种事实数据的有序排列【2】,还需要为用户提供知识检索,为用户提供智能化的知识服务,即知识组织已经成为数字图书馆研究的核心问题。中国知网作为世界上全文信息量规模最大的“CNKI数字图书馆”,一直致力于整合知识信息资源,为海内外各行各业提供知识与情报服务。对中国知网的知识组织模式进行分析和研究,借鉴其有益经验,探索深化发展途径,对于提升数字图书馆的知识组织程度,深化服务水平,具有重要价值。1中国知网概述中国知网,即中国国家知识基础设施(ChinaNa⁃tionalKnowledgeInfrastructure,CNKI),以实现全社会知识资源传播共享与增值利用为目标,是全球领先的数字出版平台。中国知网通过产业化运作,为全社会知识资源高效共享提供丰富的知识信息资源和有效的知识传播,是一个资源丰富的数字化学习平台。中国知网目标,一是能够将数字图书馆的信息资源大规模的整合起来从而提高知识资源的利用价值;二是建设数字化的知识服和知识资源深度开发情报科学Vol.29,No.6June,2011第29卷第6期2011年6月的平台,为全社会提供资源共享、数字化学习、知识检索、社会学习建设知识创新信息化条件;三是为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制,大力促进文化出版事业、产业的现代化建设与跨越式发展【3】。中国知网提供的服务内容丰富,主要有中国知识资源总库的各种数据库检索,提供CNKI源数据库、外文类、工业类、农业类、医药卫生类、经济类和教育类多种数据库。数字出版平台提供学科专业数字图书馆和行业图书馆的订购和检索服务。同时中国知网还提供文献数据评价以及包括文献检索、数字检索、工具书检索、翻译助手、专业主题、学术资源、学术统计分析等各种知识检索,极大地丰富了学术资源。多种知识组织模式对于中国知网服务目标的实现起着非常重要的作用。2中国知网的知识组织模式分析知识组织是在图书馆学、情报学的分类系统和叙词表研究的基础上发展起来的,是文献信息组织的延续和升华。知识组织以知识单元为加工单位,它不仅揭示文献的学科、主题内容,而且更注重揭示文献所载的知识单元。知识组织将文献和信息中所包含的知识内容用语词和概念表达,采用知识工程中的知识表达方法进行知识标引和组织,能更有效的对网络信息进行组织与检索【4】。通过知识挖掘、知识发现、推送技术、智能搜索等多种智能技术和软件技术对信息进行精简,可以发现隐含在信息中的有用知识单元并组织成知识库,进而借助一定的知识组织工具,形成有序化的知识组织体系,为用户提供知识服务。2.1数据库模式数据库是在计算机存储设备上合理存放的相互关联的数据集合。中国知网采用组织数据库或者各种表及文件的方法来组织知识库,如顺序文件、索引文件、多重链接表文件、倒排文件及散列文件等。知识库系统将从组织结构上支持中国知网的数据库管理。中国知网将学术研究、工具书检索、各种专业行业知识仓库等资源融入到不同类型的数据库中组织起来,采用标准的记录格式存储,提供统一的检索入口。数据库中的文献资源以主题词、关键词、作者、全文、参考文献等多种途径进行文献标引,组织文献信息资源。数据库模式可以对中国知网中的知识进行优化处理,提高知网数据操作灵活性。同时可以高速处理大量结构化和非结构化数据,并且以信息项作为数据的最小存取单位,组织规范化的数据。图1显示了知网知识组织的数据库模式:图1中国知网知识组织数据库模式图2.2主题树模式主题树是一种可供检索和查询的等级式主题目录,以超文本链接的方式将不同学科、专业、行业和区域的信息按照分类或主题目录组织起来。主题树提供一种界面机制,用户利用这个界面,通过主题目录间接地连接并使用多个实际的数据资源。中国知网数据库检索界面左侧以学科领域进行分类,形成学科分类导航系统,利用导航系统可以逐步选择学科领域缩小检索范围从而提高检索的准确性。另外期刊导航、专业性的知识库、行业知识仓库也是按照不同行业区域信息进行的分类。主题树模式将知识资源按照某种事先确定的概念体系结构进行分类,用户可根据需要逐层选择自己需要的知识内容,直至最后将信息资源搜索完全,并且这种方式简单易用,屏蔽了用户的复杂性,树形的浏览界面对用户来讲目的性强,检索方便快捷。中国知网将这种树形的主题目录与数据库相联系,在数据库中,利用主题树缩小检索范围,检索到需要的网络信息资源。2.3知识库模式知识库系统能够从组织结构上支持数字图书馆的知识组织。目前多是由数据库系统从组织结构上组织数字信息,但数据库技术不能提供数据信息之间的知识关联【5】。中国知网的科普知识总库、文艺作品总库、医院知识仓库等都是专业性质的知识库,提供各种知识之间的关联从而帮助用户提高检索的效率。知识库可以采用顺序文件、索引文件、倒排文844情报科学29卷件等形式组织数字文件,用户通过索引检索到知识信息及全文信息。2.4分类主题一体化模式分类法和主题法是传统的知识组织方法,是图书馆学研究的宝贵财富。中国知网的知识组织借鉴了分类主题法的思想。中国知网的学科分类、以及数据库检索中的关键词、主题检索、作者检索等均是在分类、主题标引的基础上组织信息资源,形成有序化的知识库,从而提供信息检索服务的。通过智能化的控制词表,可以实现作者语言与用户语言的控制和转换。自动标引系统可将采自信息源的作者语言转换为标引语言;查询系统则可以把用户语言转换为标引语言,使用户语言与作者语言通过标引语言达到最佳的匹配。知网通过计算机技术建立知识分类体系与控制词表的系统联系,将标引语言与用户语言匹配统一,实现语词检索,并可以把大量无用信息过滤掉,结果更接近用户的需求,大大提高检索效率。中国知网的知识组织运用了多种方法,以分类法、主题法为基本工具,将知识资源进行标引,形成基于数据库、主题树、知识库、分类主题一体化等多种有序化的知识体系,为用户提供多种检索方式。3中国知网新的知识组织模式再探尽管知识知网的知识组织模式在实践当中具有较强的应用性,但仍然存在信息格式的异构、各种内容交叉重复、知识关联程度低【6】以及知识非统一性和知识服务的价值性等问题。随着知识服务的范围、深度的不断拓展,可以将本体论的理念和技术、主题图方法等知识组织理论和技术引入到中国知网的知识组织模式构建中,努力实现语义化的知识检索,提升这一典型数字图书馆的知识服务水平。3.1基于本体的知识组织模式本体为特定领域的学者提供概念化术语,是概念化和结构化的明确表示与描述【7】。本体能够更全面、深入地揭示领域概念及概念间的关系,作为具有全球规范性和共享性的概念空间,通过映射、整合等手段为语义分类提供有效的途径【8】,成为知识组织的有力工具,是语义网的重要组成部分。本体可以作为知网的知识组织方式,为知网的语义检索奠定基础。建立基于本体的中国知网知识组织模式的一般思路为:针对知网中的不同学科领域构建领域本体,将领域本体中的概念术语及知识关联进行语义分类,建立索引存储到语义空间。而检索方式是基于本体的概念检索,将构建好的领域本体作为检索系统的语义概念层,用户以本体库中的语词关系为基础进行检索。中国知网可以运用本体理念和技术,针对不同的学科领域,将领域内的概念、概念间的关系加以表示和描述,形成领域本体,基于领域本体揭示领域知识结构,构成基于本体的知识库。通过计算机语言程序,借助语义相关和扩展标记语(xm1),编制数字图书馆本体知识集成系统。这种知识组织模式能够有效解决信息检索中的查全率和查准率问题及知识的共享和复用等问题。这种知识组织模式已经成为一种提取、理解和处理领域知识的工具【2】,在知识组织中具有重要的学术意义和广泛的应用价值。中国知网借助本体库组织学术资源,主要利用学科领域的概念及概念之间的层次关系,实现完全的领域本体导航。对知网中运用本体组织起来的知识库进行检索可以按照概念之间的上下层导航关系进行定位,也可以按照与所要检索的本体有某种关联的其他本体定位。基于本体的中国知网的知识组织模式如图2所示:图2基于本体的中国知网知识组织模式3.2基于主题图的知识组织模式主题图是一种基于主题的元数据组织和描述方式,提供了语义级的数据导航,是一种表达和交换结构化信息的元数据模型,是用于描述信息资源的知识结构的数据格式。主题图可以定位某一知识概念所在的资源位置,也可以表示知识概念之间的相互关系。主题图通常由信息资源和主题知识结构组成,是一种新型的语义知识组织模式。知网主题图模式的设计分为基础设施层设计,知网信息资源层设计,主题知识结构层设计,用户层设计四大部分。①基础设施层主要为知网的主题图知识组织提供技术支持。6期中国知网知识组织模式研究845②知网信息资源层为知网主题图的生成准备可供利用的数据,如知网学术文献、知网各种类型的数据库文件、电子文档、电子书籍、知网需求的知识网页等。③主题知识结构层以主题为中心,建立在信息资源层之上,包括所需主题及主题之间的关系,是系统与用户进行交互、实现服务扩展和进行知识管理的一个重要模块,它实际上是在信息之上构建的一个结构化语义网,独立于具体信息资源技术平台,通过个性化的知识导航界面,提供信息资源直观导航,以便用户迅速准确地定位信息资源【9】。