第7章网络信息组织7.1网络信息类型与特点7.2网络信息的分类组织7.3网络信息的主题组织7.4网络本体语言7.5网络信息组织方式7.6网络信息重组与知识挖掘【学习目标】通过本章的学习,掌握信息主题分析及信息标引的作用;熟悉分类标引及主题标引的过程;了解著录的概念。第7章网络信息组织网络信息及其类型7.1网络信息类型与特点网络信息是指在网络中蕴藏着的各种形式的信息的集合。它包括信息内容本身、记录信息的载体、信息表达的方式、信息组织的结构,以及信息传播的手段等要素。狭义的理解为包含特定内容的网上信息。网络信息按媒体形式分为:文本信息、图形信息、音频信息、视频信息网络信息按传输信息格式和单位分为:帧、数据包、段、元素和数据单元等从信息来源和用途分:学术信息、新闻信息、商务信息和社会信息从利用方式来划分:上的信息、FTP信息、Telnet信息等网络信息及其类型7.1网络信息类型与特点Hem/36.80%nsf0.17%html16.35%xml0.15%shtml5.36%jsp0.11%/3.99%cgi0.08%asp2.93%pl0.03%php1.08%其它32.61%txt0.34%网页的格式分类情况网络信息及其类型7.1网络信息类型与特点jpg49.9%mid1.5%gif13.6%mp31.4%zip11.5%ram1.1%swf9.2%ppt0.8%doc4.9%mpg0.4%pdf3.1%其它1.1%rm1.5%网页的多媒体内容分类情况网络信息的特点和组织难点7.1网络信息类型与特点①网络信息的特点1)任意层次的信息内容元素、信息单元和信息集合体系正在逐步以计算机可识别和理解的方式定义、描述、指向、链接、传递和动态组织2)信息资源、信息组织工具、信息系统日益聚合在同一数字介质层面,它们间的动态链接、转换、互操作和集成正在逐步实现3)信息资源系统、信息服务系统和用户及其信息系统也日益连接在同一网络空间,它们之间的链接、交换、互操作和协作也日益成为可能4)各种基于网络、基于知识、基于协作的信息组织工具和系统机制也日益成熟,并可按照开放的、计算机可识别处理的方式进行描述、交换和互操作网络信息的特点和组织难点7.1网络信息类型与特点①网络信息的特点5)数量庞大、增长迅速;内容丰富、覆盖面广;表现形式多样6)分布的非均衡性;传输速度快;共享程度高7)交互性强;使用成本低;变化频繁、难测;质量良莠不齐网络信息的特点和组织难点7.1网络信息类型与特点②网络信息组织的难点1)海量网络信息以及信息生产、传播速度的加快,对传统信息加工方式提出了挑战。2)信息种类增多,数据库成分复杂化,过去主要适用于文本信息的信息组织方法已不能使用3)不同于传统意义上的信息用户,网民的信息行为对信息组织有专门需求4)网络信息形式上的非线性、交互性和动态性,需要信息组织方法及时、灵活网络信息组织的目标7.1网络信息类型与特点①信息组织可以包容网络上的各类信息,以建立集成的网络信息系统,方便信息检索等信息传播活动②建立对网络信息特征描述和内容揭示有效方法体系,并深入到知识单元、信息单元、便于显示信息之间的语义关联,便于对知识的深层挖掘③网络信息组织过程中,要对信息实施过滤、标记、链接、集成和重组,构建网络信息的质量体系和网络体系④建立开放的,便于网民使用的网络信息传播的环境7.2网络信息的分类组织分类语言应用于网络信息组织的可行性DDC从1876年诞生至今不仅没有消亡,而且应用的非常广泛,在联机检索和网络检索中得到了很好的应用1996年,维泽妮-戈茨对Yahoo!与DDC类目范畴进行了比较,试图证明传统分类法用于网络信息组织的可能性,研究表明,DDC严格的等级体系具有很好的实用性,既可用于网络信息组织,还可利用它的等级结构、概念体系及类目关系进行网络信息的自动标引我国对网络环境下检索语言发展方向和应用也进行了一些研究,对网络环境下所用分类法的类型问题作了探讨,将用于网络资源组织的分类系统分为指南型网络分类系统和依据文献分类法建立的网络分类检索系统7.2网络信息的分类组织分类语言应用于网络信息组织的可行性使用了分类法来组织的站点具有以下优点1)主题分类表可以作为一种导航工具,使得用户尤其是缺乏经验的用户或者对某个主题及其结构、术语不熟悉的用户能够通过浏览查找到所需要的信息2)分类表是等级式的,因而能够用于扩大检索范围以提高查全率,或者用于将检索提问限制到集合中的某个部分,缩小检索范围以提高查全率3)分类表的使用为检索提供了语境,例如,能够部分克服同形异意词的问题4)由于分类系统经常使用独立于特定语言环境的分类号,它可以作为一种语言转换机制,服务于多语种检索5)如果一个网站所使用的是某部比较通用的分类表,那么它能够比较容易对其他使用了相同分类表的网站实现跨数据库浏览和主题检索7.2网络信息的分类组织分类语言应用于网络信息组织的可行性现有的研究和实践应用情况都表明现行的主要分类法都能够适应网络信息组织与检索。但网络信息组织与传统概念上的信息组织又是有很大区别的。因此,传统分类法要实际应用于网络信息组织,必须进行技术改造和不断创新发展,具体包括以下几个方面。1)机读化和网络化2)充分利用新技术、新方法改造原有的分类法,提高分类法描述网上信息主题的能力(一方面充分利用超文本技术,加强交替类目、参见与注释类目之间的横向联系;纵向联系则借助层层链接来实现。另一方面加强分面分析方法的应用)3)易用性4)创制新型网络信息分类法(目前,网络搜素引擎、门户网站使用的分类法大多是新编的分类法,虽然并不成熟和完善,但代表了一种发展方向)7.2网络信息的分类组织网络信息分类法与分类模式目前,因特网主要以两种方式采用分类法进行信息组织:一是以人工标引或自动标引方式采用自编的分类系统,如Yahoo!、搜狐等;二是以人工标引方式采用现有的图书分类法(见表8-3)。这些分类体系与传统的分类体系有较大区别,其分类体系是将信息内容特征、网民信息需求特征及信息载体特征交叉混合构建而成,体系缺乏严密性,但在一定意义上有实用性(见表8-4、8-5、8-6)7.2网络信息的分类组织网络信息分类法与分类模式津恩斯提出的网络信息的8种分类模式,即主题、所表示的现实世界的对象、具体应用、最终用户、关联的地域、信息资源类型、媒体类型、表达文本的语言7.2网络信息的分类组织网络信息分类法与分类模式从津恩斯对9个门户网站的分析看,就是运用分面分析原理对信息的内部外部特征进行区分。由此可见,分面分析原来在网络信息组织中仍然具有很好的应用前景7.2网络信息的分类组织网络信息自动分类7.3网络信息的主题组织基于网络的叙词表的发展按照出版形式和结构可将基于网络的叙词表分为以下几类1)简单静止文本格式的叙词表,如ASFA(AquaticSciencesandFisheriesAbstracts)叙词表2)静态的html格式,没有有效使用超链接的叙词表,如《Inforterm叙词表》3)动态的html格式,具有完全可导航超链接的叙词表,如MeSH)具有高级视觉效果和图形界面的叙词表,如《垂直设计视觉叙词表,PDVT》7.3网络信息的主题组织基于网络的叙词表的发展按照功能和有用性,可分为两种通用类型1)独立叙词表,此类叙词表不附属于某个信息系统,如《ASIS图书馆和信息科学叙词表》、《艺术与建筑叙词表》(AAT)等2)集成在数据库或信息检索系统中的叙词表,如《ERIC叙词表》、《奥维德技术叙词表》、《人文和社会科学电子版叙词表》等7.3网络信息的主题组织基于网络的叙词表的发展目前网络上的叙词表数量还在稳步增长,大量的叙词表的出现使得叙词表的互操作和跨叙词表检索受到重视。针对这些情况,一些机构开始开发跨叙词表检索和浏览系统,或者进行旨在提高基于网络的叙词表的可访问性的项目。7.3网络信息的主题组织叙词表在网络多媒体信息组织中的应用近几年来,随着图像、视频、音频等各种非文本信息的增多、相应的建立起各种多媒体数据库,但是由于访问、描述和管理技术的落后,一些国家已经开始实行一些项目来将叙词表引入对视觉化信息的标引过程,以提高其标引质量和检索效率具有代表性的有《NASA图像集合视觉叙词表》7.5网络信息组织方式文件方式在网络环境下,因特网也提供了诸如“文件传输协议”(FTP)来帮助用户利用那些以文件形式保存和组织的信息资源。FTP的功用在于把各类型的文本式和非文本式文件通过网络传送给用户,它的运作以大容量和高速度为特点。随着因特网的发展,FTP仍然是用于发布、传送程序软件和多媒体信息等长文件的主要方法。以文件形式组织的网络信息资源具有以下优势:1)简单方便2)它是存储非结构化信息的天然单位7.5网络信息组织方式文件方式以文件形式组织的网络信息资源具有以下弱点:1)随着网络信息资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息就会使网络负担越来越大2)对结构化信息的组织与管理显得软弱无力3)随着以文件形式保存和管理的信息资源的迅速增多,文件本身也需要作为对象类进行管理因此,文件方式只能是网络信息资源管理的辅助形式,或者作为信息单位成为其他信息组织方式的管理对象7.5网络信息组织方式数据库方式数据库方式是对大量的规范化数据进行管理的技术。数据库是指大量的长期存储在计算机内、有组织的、可共享的数据集合。由于文件形式的不足,促进了人们对数据库技术的研究,因而加快了数据库技术的发展。利用数据库技术进行网络信息资源的管理有以下优势:1)对大量的结构化数据的处理效率有了很大提高。2)数据的最小存取单位是信息项(字段),可根据用户需求灵活改变查询结果集的大小,从而大大降低了网络数据传输的负载。3)以数据库技术为基础已建立了大量的信息系统,形成了一整套系统分析、设计与实施的方法,为人们建立网络信息系统提供了现成的经验和模式。7.5网络信息组织方式数据库方式利用数据库技术进行网络信息资源的管理的不足:1)对非结构化信息处理困难较大。2)不能提供数据信息之间的知识关联。3)无法有效处理结构日益复杂的信息单元4)缺乏直观性和人机交互性7.5网络信息组织方式数据库方式由于大量非结构数据的出现,数据库中的数据类型也突破了传统意义上的数字和字符,发展到声音、图形、图像等多种类型。数据库也突破了传统意义上的关系数据库而发展成现在的多媒体数据库、空间和地理数据库、分布式数据库等,应用领域已从传统面向商业与事物处理扩展到科技、经济、社会、生活的各个领域。因此,数据库方式是当前普遍使用的网络信息资源组织方式,特别是在大数据量的环境下,其优点更为突出。7.5网络信息组织方式主题树方式主题树方式组织信息资源的方法是将信息资源按照某种事先确定的概念体系分门别类逐层加以组织,用户先通过浏览的方式层层遍历,直到找到所需要的信息线索,再通过信息线索链接到网络信息资源。网络信息资源通过树型主题目录层级组织体系,可以达到实现浏览-导航功能,用以通过引导网络用户的查询概念(而不是确切的词条)来找到所需要的网络资源。网络信息资源的主题树组织方式的表现形式,即大家所熟悉的网络主题指南。7.5网络信息组织方式主题树方式①网络主题目录资源的采集人工采集:专业人员精选部分网络资源,并通过精心评价、组织成高质量的主题目录,如一些专业性的网络主题目录指南;用户递交:网页作者所呈送的网络资源,并有信息组织人员对其作出评价并组织成主题目录,如Yahoo!主要依靠主页编辑者或者出版者以及其他用户提交新的Web网页,欲提交URL的用户自主决定网页适合存放的类目,同时,Yahoo!拥有编辑修改网页类目的权利。7.5网络信息组织方式主题树方式②网络目录的深层组织结构网络主题目录,也称为主题目录树,它是按照一定的主题分类体系,层层细分,就像分类表的类目一样,是一个等级体系结构。目录结构一般按照:总目-专题目录-链接-文本信息链的序列组织7.5网络信息组织方式主题树方式③网络主题目录的分类组织体系网络主