信息整流与知识增值服务

wikins
0 ℃
2019-10-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

信息整流与知识增值服务【内容提要】本文提出数字图书馆的主要功能目标是信息整流与知识增值服务；信息与知识转换是数字图书馆的关键理论和技术问题。图书馆受到Internet的巨大冲击、不再是文献信息服务的唯一提供者，数字图书馆如何才能挽回失去的老用户，吸引新用户？知识管理工程将使数字图书馆成为21世纪学习的大平台、文化知识的大平台和知识资源中心。【摘要题】信息服务1数字图书馆的信息整流数字图书馆把传统图书馆的功能由信息的查询和图书资料的借阅扩展到知识服务的新阶段。实现这一宏伟目标需要解决许多技术和社会问题，其中有两个最关键的技术是信息的整流和知识的创新。前者涉及数字图书馆的知识链建立问题，后者涉及数字图书馆的信息变换成知识的知识增值服务问题。1.1数字图书馆的知识链数字图书馆是一个庞大的数字资料库，包括所有资料的数字化存储，在线网上资料、多媒体资料、电子出版物等。数字图书馆根据用户对信息的不同需求，将文本、图片等原件制作成不同数字形式。一般有纯图像形式，目录文本形式，正文图像形式，全文本形式和全文索引形式。但关键还是知识链的建立。为实现知识链信息，数字图书馆将资源分成为元数据和对象数据。对象数据指数字化的文本、图像、声言、影像等，元数据则指那些描述和管理对象的数据。对象数据分布式地存放在各地的资源站点内，元数据则集中存放在数字图书馆中心的超大规模服务器上。用户查询时，中心调度系统通过元数据来调度各对象数据库以提供服务。知识的控制单位长期停留在文献这一级上，而人对知识的需求一般不是以文献为单位的。早在20世纪70年代后期就有专家指出，知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“知识元”。一旦实现知识的控制单位由文献深化到“知识元”，大量文献中所包含的“知识元”及相关信息间的链接将产生极大的知识增值，从而大大推进人类对知识的利用，促进新知识的创造，从而也将推动知识资源业的重大发展[1]。一篇文献反映作者的科学研究成果，包含着作者的知识创新的过程。于是文本结构本身就隐含着对某学科问题的知识链。假如我们把每篇文献的知识看成是人类知识结构中的一个知识单元，知识单元与知识结构就组成了个性知识与共性知识的知识系统。个性知识体现在知识的创新上，共性知识结构则表现在知识的完整性上。于是我们就建立了个性知识与共性知识的知识链。事实上，专利文献就明显地表现了个性知识单元与人类知识结构的知识创新链关系[2]。数字图书馆对文本的知识标引，既体现了标引者应用学科知识结构的背景知识的能力，同时又体现了标引者识别和提炼作者的知识创新点的判断和知识组织能力。因此，是一个知识链建立的知识增值过程。1.2数字图书馆的知识发现知识链的建立过程是知识发现和知识再组织的过程。知识发现的主要目标是采用有效的算法，从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知识，并用简明的方式显示出来。知识发现一般包含如下几个步骤：（1）理解相应的问题领域；（2）准备相关数据子集；（3）发现模式（数据挖掘）；（4）所发现模式的后处理；（5）应用发现结果。（1）文本知识结构分析技术尽管与多媒体信息相比，文本信息显得比较普通，但文本仍然是记载和传播信息的最主要媒体，因此对文本信息知识发现技术的研究具有十分重要的意义和广泛的应用前景。文本结构分析的目的在于发现文本表达主题概念的物理组织结构，由物理结构自动重组主题概念的逻辑结构，实现对文本知识的抽象化和具体化推理检索。文献[3]把文本结构分成物理结构和逻辑结构。物理结构=｛标题，段落，句子，词汇｝，它表示了文本的组成情况。可采用向量空间模型表示文本及文本各个部分，进行文本结构分析，其中主要是文本的层次分析，从而得到文本的逻辑结构。逻辑结构=｛主题，层次，段落，句子，主题词｝，它更着重于表示文本所包含的思想内容和表达的逻辑方式。（2）知识链结构文本的物理结构是文本的外表形式，逻辑结构体现了作者表达目的的逻辑顺序，而文本的知识链结构则是作者的目的和灵魂，知识链结构=｛问题，已有解的优缺点，新解的方案，性能评价，今后方向｝。研究文本的目的是为了获得文本的知识链，以创建新的知识链。链，表现了引用文献与被引用文献之间的多种关系。但它并不完全直接表现知识链关系。文献链是一种庞大的文献引用系统。知识链则是一种巨大的知识引用系统。若能完成这一巨大的系统，人类将可能进行更有效的知识学习。1.3信息整流的实现知识链是文本知识结构的普遍特性，是人类学习、创新的纽带。信息整流与信息滤波不同。信息滤波的目的主要有两点，即过滤掉不相关的文档以及将相关文档列表分为新的文档和已经查阅过的文档，并按相似度大小排序，对已检索的相关文档，通知信息Agent不必返回全文文档，以减少通信费用。信息整流的目的在于建立数字图书馆的知识链库，提供知识链服务。信息整流是建立知识链的过程。从全文提取出知识单元，形成独立的知识基础，构成知识单元库，把各种知识单元库进行链接，构成数字图书馆广泛的知识网络库。知识网络库形成了学科横向交叉和学科纵向延伸的科学知识体系。描述了人类知识学习和知识创新的知识网络结点。把人类知识学习和创新活动之间的距离大大的缩短。在知识网络库中，用户可以跨知识单元库学习所感兴趣的知识，更可以通过知识单元库直接学习到解决问题的知识和办法。知识单元库的实现是知识网络库建立的基础和关键。已有的信息置标语言HTML（HyperTextMarkupLanguage）的超级链接功能使Web技术从计算机世界走向社会、走向千家万户，实现Web与数据库的超级链接。HTML表现出Web显示数据的通用方法，而XML提供了一个直接处理Web数据的通用方法。HTML着重描述Web页面的显示格式，而XML着重描述Web页面的内容。XML是文档的各种数字表示方式，用XML表示的数字文档可以由计算机处理，也可以供人阅读。XML文档是一种纯文本文档，可以包含图片、视频或其他多媒体信息，可以是百科全书，也可以是一封电子邮件，或一则天气预报、一张电子商务交易单等。如对〈商品〉的描述中，若在应用中的名称、质量、价格还不足以描述一个商品的特征时，还可通过其他模式增加新特征，只要加入的元素在它们各自名域的前后关系中是有效的。这就为知识单元的描述提供了工具，通过XML标记将文本标记成知识单元，继而将知识单元链接成知识结构，实现知识链。与引文索引不同，在用XML实现知识单元的描述中，可以将被引文献中的知识单元采用指针的方式加以直接标记，于是实现了知识链接的作用。链接（Linking）是Web实现关键。HTML的链接是单向的有两个端点——源端和目标端，源端通常是Web页的一个片段，如一个词语、一段文本或一幅图像，目标端是一个“资源”。由统一资源标记（URI）地址指定。XML是描述结构化数据的底层文法，用这种简单文法可以支持种类繁多的应用。预计XML将成为数字图书馆信息整流的基础性语言。2数字图书馆的知识增值服务数字图书馆不仅是传统图书馆的数字化，而且是来源极其丰富的网上资源库。通过对信息资源的深加工和合理、有效的组织，使之成为永久、有序的知识源泉。数字图书馆不仅要进行信息整流，而且还要进行知识增值服务。数字图书馆将构筑起信息与知识转换的社会大平台，为实现全民终身学习、自主学习、随时随地学习创造条件。2.1图书馆受到Internet巨大冲击Internet正在成为世界上最大的“图书馆”。网络信息资源的迅猛扩大，越来越加深了人们对网络的依赖程度，影响和改变着人们选择信息、使用信息的行为和方式。目前，Internet上已拥有各种日报、杂志及时事快报、新书报道，世界上大多数主要的检索系统、数据库都已上网，并且向用户提供信息服务。Internet信息服务商以其雄厚的资金投入和先进的技术设备优势，面向企业、面向市场开发信息产品，图书馆不再是信息服务的唯一提供者，图书馆传统的信息产品受到巨大冲击。2.2数字图书馆的知识增值服务数字图书馆如何才能挽回以前的老用户，并吸引更多的新用户？这是图书馆转型的根本所在，是数字图书馆建设的核心。为此，数字图书馆的服务内容和质量要比目前网上的信息服务更加独具一格，数字图书馆要向信息实体虚拟化、信息资源数字化、信息传递网络化、信息利用共享化、信息提供的知识化方向转型发展。数字图书馆发展的优势将在什么地方？知识增值服务是数字图书馆占领知识服务市场的优势所在。数字图书馆应用系统应是可扩展的知识服务网络系统。数字图书馆对于有高价值的图像、文本、语言、音响、影像、影视、软件和科学数据等多媒体信息进行高质量的加工，实现知识增值，并提供在广域网上高速横向跨库的便捷的数字知识存取服务。由此，我们可以说，数字图书馆的兴起是Internet网络技术的巨大冲击；数字图书馆的发展的强大推动力是人类知识需求速度的猛增。人类不仅需求更多的信息，而且需要更高质量的知识。数字图书馆将面向知识增值服务系统的转型发展。2.3数字图书馆的知识创新国家创新体系的主要功能，是知识创新、知识传播、知识交换和知识利用。大力促进和提高知识的生产、传播、交换和利用的水平、规模和效率，是国家创新体系的基本任务。（1）知识创新过程知识创新是数字图书馆发展的最主要的动力源泉。信息经过加工和改造形成知识。知识是人脑创新的成果，是人类智慧的结晶。智慧是人类文明的源泉，是推动历史发展的永恒动力，是生产力诸要素中的核心。知识一般可分为陈述性知识、过程性知识和控制性知识。陈述性知识提供概念和事实，描述系统状态、环境和条件，使人们知道是什么。过程性知识提供有关状态的变化、问题求解过程的操作、演算和动作的知识。个性知识单元由最小的知识元素“知识元”组成，知识元的不同排列构成了不同知识单元之间的差异，知识元也是知识结构的最小元素，在知识结构中可以由知识元直接组成新的知识单元，这就是知识学习与知识创新的过程。（2）知识创新的度量方法在考虑知识创新度量问题时，我们应尽可能从知识单元与知识结构之间所表现的特征寻找描述度量的方法。就某一篇文献而言，它的知识包含有两个层次。一个是局部的，即是围绕该文本主题有关方面的判断、推理、结论等。另一个是全局的、总体的，即是相对该学科主题现状的知识增量。比如，一篇综述性文献，由于采用知识的提炼与合成技术，它本身的（局部的）知识容量增加了，建立了新的知识链关系，就有知识创新产生。从知识度量角度讲，我们所研究的知识是事实性的、静态的知识，是关于事物的分类、属性、事物间关系等的科学事实或客观事实。具体到某一篇文献而言，知识是指关于其所研究对象（主题）的结构、关系、属性和取值等方面所做的概念、判断、推理，即有关该主题对象新有的结论。相对学科主题而言，它的知识则指的是新增加的那一部分，即知识创新的增量。知识是可学习的、可复制的，而智慧是不可复制的。目前对知识创新度量最简单的方法是对产生新的知识增量及其效应的判别和估价。这种估价的结果表现为一种数量现象，实质上估价知识的增量隐含着对智慧的测度，因为实现知识创新的根源是智慧，但对智慧的度量目前则是太困难了。（3）信息与知识的变换科技发展史上的一条规律说明：当把两门表面看来毫不相干的学科结合起来的时候，就可能形成一门新的学科；当把两种似乎没有任何联系的现象联系起来，就可能在科学技术上取得某些进展或突破。不同学科的文献常有内在的联系，包含隐含的知识或信息，可以从中重组出全新的知识或信息，得出全新的推理或结论。·隐含信息的关联隐含信息的重组是知识的外化和外延。一些信息本身没有什么价值，但在它身后却隐藏着另外一种很有价值的信息，这种延伸或潜在的信息单元、知识单元，有一定的隐蔽性，往往不易被人发现，一旦被开发出来，并运用到实践当中去，却可产生不可估量的效益。美国芝加哥大学图书馆研究生院、信息中心的SwansanD.R.等一直在从事认知科学和文献内容相互关系的研究，对信息重组和知识创新过程进行了不少研究。由于他们一直对文献的隐含信息进行研究，并在研究过程中，利用现代的计算机技术，设计了一种新颖的计算机辅助信息检索软件（ARROWSMITH算法），能辨别出生物医学文献中