中国新闻技术工作者联合会2008年学术年会论文集30Lotusnotes助力信息技术知识管理——文档数据库技术在知识管理中的应用研究康洁张枫(新华社技术局计算机系统部)摘要:知识管理技术是建立在数据管理技术及信息管理技术基础之上,针对知识特性而开发的、能够协助信息工作者进行知识生产、分享、应用以及创新的技术,是现代信息技术在知识经济时代的新发展。本文首先构建了技术知识管理模型。通过对知识管理主流技术之一——文档数据库技术的应用研究,在借鉴知识管理系统七层架构的基础上,提出了以文档型数据库与关系数据库共同搭建的数据平台为基础的知识管理系统理论模型,并在新华社技术项目中实现了部分应用,为进一步实现企业信息化和技术知识的获取、传播、共享、利用和创新打下基础。关键词:知识管理文档数据库关系数据库1引言信息系统的应用已深入到企业的基本活动中,信息技术对企业的生存和繁荣影响越来越大,管理者对信息系统的重视程度和对其投资也呈逐年上升的趋势。但事与愿违,此类项目实施的成功率并不高。虽然这些系统可能也在运行,但它们大多处于不良状态。这些信息系统开发的失败大部分是因为开发过程中的文档不规范,不完整,开发人员与业务部门的沟通不够,对业务需求了解的不清楚。如何有效的对信息系统开发过程进行管理,如何提前预期开发过程中可能遭遇的瓶颈,如何及时将项目实施的相关信息共享,已经成为了一个急需解决的问题。这时,知识管理技术进入人们的视野。2知识管理相关介绍2.1基本概念所谓知识是一种有价值的智能结晶,可以通过分类信息、经验心得、抽象概念、标准流程、系统文件、具体技术等方式呈现。知识呈现的形式虽然多元化,但在本质上都必须具备创造附加价值的效果。从社会信息化发展的角度看知识管理(KnowledgeManagement),知识管理是研究人类获取、传播、共享、利用和创新知识的活动规律,管理有关知识的各种连续过程,以促进经济和社会发展的理论与实践。一般而言,知识内涵由于本质上的差异,可分为两类,一类是显性知识(explicitknowledge),另一类是隐性知识(tacitknowledge)。显性知识指内容清晰明确,易于通过图文表述,便于整理、储存、编码以及传播的知识资源,例如过滤、总结后所获得的资讯情报、方法技能、原则原理、规律规则等。中国新闻技术工作者联合会2008年学术年会论文集31隐性知识指在个人头脑或机构文化中隐含的,内容较为个性化、主观化和经验化,难以用书面形式表述的知识资源,例如经验、构思、洞察力、判断力、机构文化下的行为模式等。显性知识和隐性知识存在以下几方面的差异(见表1)。2.2技术知识的管理模型和方法根据Gundry提出的技术知识管理模型(六阶段循环模型)、技术知识的特性、技术知识的发展阶段以及企业的知识管理实践,技术知识管理过程可用图1来描述。企业可以从制定和实施技术知识战略、建立技术知识网络、加强技术创新管理、进行组织学习等方面来促进技术知识管理,以有效地获取、创造、运用和保护技术知识,从技术知识中获取创新收益。3知识管理技术相关介绍3.1什么是知识管理技术知识管理技术并不是一项技术,而是一个技术体系,包括的技术内容异常繁多,覆盖了知识生产、分享、应用以及创新的各个环节。它同时又是多种信息技术的集成,这些技术结合起来形成了整体的知识管理系统,为企业提供知识管理服务。这其中包括文档管理技术、数据挖掘技术、专家系统技术、搜索引擎技术、群件技术、BBS技术等(见图2)。3.2知识管理技术分类这繁多的知识管理技术给人们出了一道不大不小的难题。为在选择知识管理技术时不至于陷入困境,对这些技术也需要建立分类标准。过程分类法是得到昀普遍使用的一种分类方法,它根据知识创建及其使用来界定在此过程中所需应用的技术。标准性理论性明确性模块化可认识性可传递性显性知识规范的、系统的有科学和实证基础稳定、可复现可用公式、定理、规律等表述运用者能从本质上明确认识易于传播,容易理解隐性知识零星的、个人经验科学道理不明对象与条件的关系不明确未格式化、逻辑化认识不清,只是模仿不容易掌握和分享图2各类知识管理技术表1显性知识和隐性知识特征比较外部搜索获得外部技术知识筛选格式化存储激活与共享应用和纠错技术知识库存储编码捕获收获显性技术知识知识创新产生隐性技术知识知识学习图1技术知识管理模型中国新闻技术工作者联合会2008年学术年会论文集32从创建组织记忆的角度知识过程可分为如下六个基本阶段,每个阶段有相应的技术提供支撑(如图2)。如需求分析阶段需要通过分析业务流程来确定所用的知识,企业建模、BRP技术等就成为该阶段的技术支撑;而组织知识库建立是知识生产的关键阶段,需要将不同来源的知识分类、整理、提炼并加以存储,将分散知识提升为组织记忆,数据处理、语言分析、Agent等技术提供了知识数据建立阶段的技术支撑。3.3数据处理主流技术分析数据处理领域关系型数据库(RDB)技术一度处于统治地位,它以关系数学、简单的关系模型为基础,以SQL为处理工具,得到了广泛的应用,其技术特征决定其更擅长结构化数据处理应用。近年来各厂商在关系型数据库基础上拓展功能,开始具有内容管理、多媒体类型数据处理能力。典型的产品包括Oracle、DB2、SQLServer等。在文档等非结构化数据处理方面,则以文档型数据库为领先,具有海量特性,不受字节数的限制,任何图形、声音信息,无论其大小、长短,都只是数据库中一个组成元素,LotusDomino则是在存储这类非结构化数据方面具有业界公认优势的产品代表。表2是关系型数据库与文档型数据库的简单比较。4构建技术知识管理系统4.1知识管理系统需求要构建一个成功的技术知识管理系统需要充分利用现有的信息技术,所以必须在系统设计的过程中充分考虑,满足以下系统需求:(1)支持多来源、多类型、多格式数据采集知识管理系统中知识的表示方法不是唯一的,为了尽可能生动有效地表述知识,需要采用多媒体形式,所以知识库必须建立在一个或多个通用数据库平台上,以便存储文档、图像、声音、视频、数据、超文本等各种类型的数据。图3知识管理技术的过程分类法表2关系型数据库和文档型数据库比较关系型数据库(Oracle/DB2等)文档型数据库(Domino等)基于事务处理模型基于文档型使用结构化数据使用半结构化数据提供实时访问数据使用复制来增加或减少文档(按修改)使用特别的查询定位数据使用视图定位数据使用SQL来访问使用全文检索来访问中国新闻技术工作者联合会2008年学术年会论文集33(2)支持Web方式交互采用Web技术,使得用户可以直接使用浏览器而不用安装客户端就可以通过网络访问集中在服务器端的应用。同时系统设计可以不受客户端的影响而根据服务器端比较单一的结构进行设计和维护并充分优化。服务器端可以随着系统的扩展成为一个分布式的服务器群集。(3)支持多级安全认证对于一个企业的知识管理系统,其中包含了各种安全级别的知识:有涉及个人隐私的知识、包含企业机密的知识、群组内可以共享的知识、企业内部访问的知识以及公共访问的知识等。这就需要为不同的用户提供不同的权限来进行各自范围内的知识获取和管理维护。知识管理系统需要提供灵活有效的安全机制,以便为Internet和Intranet设置不同层次的权限,并且权限对象可以为个人或群组。(4)支持远程协作和沟通远程会议是知识管理中进行协同工作和远程教学的必备工具。远程会议的形式有多种:BBS、聊天室、讨论组、电话会议、电视会议等。系统构建者和使用者可以根据需要进行灵活定制。4.2混合数据库平台的解决方案Domino具有卓越的文档处理能力,非常适合知识管理系统中对文档型知识的处理。但是面对大量结构化数据处理需求时,计算和统计能力差的Domino则难以应对。关系型数据库则擅长结构化数据处理,具有卓越的计算、统计性能,但面对大量的文档处理时(据统计研究表明,知识管理系统处理的文档型数据约占整个数据处理的70~80%),也会暴露出明显的问题。基于单一文档型数据库或关系型数据库技术都难以满足知识管理系统应用的需求,根据研究与实践,提出混合数据平台处理技术的知识管理系统解决方案,整个知识管理系统方案基于J2EE体系架构,数据存储层由Domino数据库和关系型数据库共同实现,Domino数据库负责文档等非结构化数据处理,关系型数据库负责结构化数据的处理,具体实现方案示意如图5所示。界面层浏览器(IE,Mozilla,Firefox,Netscape等等)访问与身份验证层身份验证,识别,安全,防火墙,访问控制。协同过滤与智能层智能代理工具,内容个性化,查询,标引,以及元标记。应用层技能目录,黄页,协同工具,视频会议,数字白板,电子论坛,原理抓取工具,DSS工具,以及GDSS工具。传输层网络和TCP/IP配置,流式音频。文档交换,视频传输,VPN核心,电子邮件和POP/SMTP文件。资产集中中间件集成层打包工具(如TCL/TK或者用来集成资产数据或跨平台数据的)。资产系统,数据仓库,论坛,文档库,存储器,其他通过Web集成图4知识管理系统七层架构图中国新闻技术工作者联合会2008年学术年会论文集34图5知识管理系统解决方案产品架构图(1)对纯结构化数据(如业务表单),直接通过JAVA访问关系数据库实现数据的处理;(2)对纯文档数据(如知识文档),则直接由Domino数据库负责处理;(3)对混合数据(如其中包括表单和音视频附件),系统则将其分解为结构化数据和非结构化数据两部分,结构化数据由关系数据库处理,非结构化数据由Domino处理。采用混合数据平台技术的知识管理系统解决方案具有以下优势:(1)整个知识管理系统基于J2EE体系架构,充分利用了JAVA开放性等技术优势,易于扩展;(2)合理运用了文档型数据库和关系型数据库各自的优势,圆满的解决了知识管理系统应用需求;(3)避免了纯JAVA技术实现知识管理系统时需要开发“类Domino”平台(如文档处理、搜索、安全控制等)的工作量与风险。当然,采用这种方案也存在弱点,一是需要两套数据库平台,成本较高,二是需要熟悉两种数据库的开发、实施和维护,对人员素质要求较高。4.3混合数据平台在新华社项目中的应用新华社总社编辑系统后方改造项目中应用优化部分主要包括:(1)底层数据处理平台的实现通过结合Domino数据库和关系数据库;中国新闻技术工作者联合会2008年学术年会论文集35(2)将稿件稿签和正文部分均存储在关系数据库中,方便系统管理和数据备份;(3)通过优化实现应用服务器和数据库服务器分离管理。系统通过在WAS应用服务器上建立Webservices来提供Dominohttp服务器到关系数据库DB2的数据转换和存储,这种设计具有如下优点:(1)Webservices是自包含、模块化的应用程序,它可以在网络(通常为web形式)中描述、发布、查找以及调用,有利于系统的扩充,如应用服务器从单机扩充到集群及集群机器的扩充。(2)Webservices是一些基于网络的、分布式的模块化组件,它执行特定的任务,遵守具体的技术规范,这些规范使得WebService能与其他兼容的组件及其他系统进行交互操作。(3)Webservices基于xml格式来传输,支持HTTP,HTTPS,SMTP等通信协议,消除了数据传输对文件系统的依赖。使用Webservices直接提供服务(如图6)后,客户端将和应用服务器直接进行数据交互,系统可靠性仅受客户端到服务器之间的网络连接的影响,减少了中间出错环节。(4)通过将数据处理功能作为服务来发布,除了在本系统中实现数据操作模块和数据展现模块之间解耦外,同时可以作为和其他系统之间数据操作的服务接口。作为在线核心业务系统,需要和其他系统之间频繁进行数据交互,所以要充分考虑对外接口的可扩充性和兼容性。(5)使数据格式满足CMML标准发展。由于CNML数据格式是一个正在逐步完善的标准,在昀终版发布之前需要充分考虑如何以昀小代价实现服务更新,满足对昀新标准的支持及新服务的发布,而这正是webservices的优点所在。5知识管理应用展望随