第八章网络信息组织第五节网络信息组织方式本节内容一.文件方式二.数据库方式三.主题树方式四.搜索引擎方式一.文件方式(FTP的方式)在网络环境下,因特网也提供了诸如“文件传输协议”(FTP)来帮助用户利用那些以文件形式保存和组织的信息资源。它允许人们通过该协议连接到因特网的一个远程主机上读取所需的文件并下载到自己的计算机上,所传送的文件可以是文本、多媒体信息、数据库和可执行二进制代码文件。从某种意义上来讲,FTP就相当于在网络上两个主机间拷贝文件。文件方式的优势(1)简单方便。计算机有一整套文件处理的理论与技术,在组织网络信息资源时可以非常容易地利用这些现成的技术和方法。(2)是存贮非结构化信息的天然单位。文件方式的弱点(1)随着网络信息资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息就会使网络负载越来越大。(2)对结构化信息的组织与管理显得软弱无力。文件系统只涉及信息的简单逻辑结构,当信息结构较为复杂时,就难以实现有效的控制和管理。(3)随着以文件形式保存和管理的信息资源的迅速增多,文件本身也需要作为对象来进行管理。二.数据库方式数据库是对大量的规范化数据进行管理的技术。数据库是指大量的长期存储在计算机内、有组织的、可共享的数据集合。数据库在大量信息的有效储存和快速存取方面发挥了重要作用,逐渐成为大型信息系统的核心和基础。数据库方式的优势(1)对大量的结构化数据的处理效率有了很大提高。数据库技术利用严谨的数据模型对信息进行规范化处理,利用成熟的关系代数理论进行信息查询的优化,从而大大提高了信息管理的效率。(2)数据的最小存取单位是信息项(字段),可根据用户需求灵活地改变查询结果集的大小,从而大大降低了网络数据传输的负载。(3)以数据库技术为基础已建立了大量的信息系统,形成了一整套系统分析、设计与实施的方法,为人们建立网络信息系统提供了现成的经验和模式。数据库方式的弱点(1)对非结构化信息的处理困难较大。对网络环境中日益增加的多媒体信息及表格、程序、大文本等非结构化信息的组织,该方式显得很困难。(2)不能提供数据信息之间的知识关联。由于数据库技术囿于其严格的数据模型规范,很难提供这种知识关联。(3)无法有效处理结构日益复杂的信息单元。随着网络信息单元的结构日益复杂化,使得关系数据库捉襟见肘,难以表示出复杂信息对象的语义。(4)缺乏直观性和人机交互性。关系数据库系统的检索结果以记录集合的形式出现,必须由应用程序将之进行适当处理,方能以较直观的方式提供给用户。因而,缺乏灵活易用的界面机制。三.主题树方式网络主题指南(subjectdirectories)是由主题专家精选部分网络信息资源,并将其进行人工评价、分类组织整理所开发出的一类网络检索工具;用以通过引导网络用户的查询概念(而不是确切的词条)来帮助用户找到所需的网络资源。(一)网络目录资源的采集人工采集(eBLAST;LII;Infomine;BUBLLink)BUBLLinkprovidesalargecollectionofcategorizedacademicresourcesfromtheUniversityofStrathclydeLibraryinGlasgow,Scotland.用户递交(呈送、注册)(Yahoo!;DMOZ)DMOZistheOpenDirectoryProjectthatprovidesasignificantresourcecollectioncompiledbythousandsofvolunteereditorsownedbyAmericaOnlineandisfreeofbannersandads.(二)网络主题目录结构网络主题目录,也称为主题目录树(subjecttrees)目录层次结构:总目—专题目录—链接—文本信息链.subjectcategories-topics-subtopics-recordsYahoo!工作原理示意图(三)网络主题目录的优缺点优势高质量的信息资源,网页内容丰富,学术性强;分类浏览方式直观易用,适合多数网络用户和新手;分类浏览方式具有启发、引导作用;有较高的查准率。•缺点–人工主导,导致其在管理、维护方面跟不上网络信息的增长速度,收录范围不够全面,新颖性、即时性相对较差;–目录受标引者分类思想的控制,没有科学的分类规范。四.搜索引擎方式搜索引擎(searchengines)指采用自动化技术对站点资源和其它网络资源进行采集、标引和检索的一类检索系统机制;是提供给用户进行关键词、词组或自然语言检索的工具,是目前网络信息资源的组织和检索的主流工具。Eg.Google;Excite;AlltheWeb;AskJeeves北大天网;百度搜索引擎工作原理示意图…Robot1Robotn分析器索引器索引数据库检索器用户接口Internet用户1用户n搜索引擎工作原理剖析基本工作原理其基本思想:•使用Robot来遍历Web,将Web上分布的信息下载到本地文档库;•然后对文档内容进行自动分析、标引并建立索引;•对于用户提出的检索请求,搜索引擎通过检查索引找出匹配的文档(或连接)并返回给用户。…Robot1Robotn分析器索引器索引数据库检索其用户接口Internet用户1用户n(一)Crawler采集网络资源自动采集(主)+人工采集(辅)大多数搜索引擎的信息采集一般采用一种被称为Robot(或Crawler或Spider或Wanders)的网络自动跟踪索引程序来完成的。Robot实际上是一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件。网页链接结构自动采集器网页采集方法一般地,Robots以一个URL清单为基础,利用标准协议(如HTTP)依次请求相应的资源(即网页)处理过程:一个Robot一个URL清单(网页的地址)重复如下步骤直到URL清单为空:取出一个网页如果该网页未被处理:记录下在该网页上发现的信息词的位置信息,链接信息等将该网页上的每个链接添加到URL队列中为该网页作处理完毕的标记将其交给网页标引模块进行自动标引。遍历的方法给Robot设定一个子URL(URL清单),Robot提取其中的超链,并利用广度优先或深度优先算法完成对的遍历。选定一组不同类别、被访问频率高的URL,Robot从这些URL开始遍历。根据域名或地域代码或IP地址将空间或分为多个子空间,运行多个Robot程序,并行地在不同的子空间中进行遍历。网页访问次序Animatedexamplesofbreadth-firstvsdepth-firstsearchontrees:~cfs/472_html/AI_SEARCH/ExhaustiveSearch.html广度优先遍历深度优先遍历算法AltaVista工作示意图(二)网页分析标引处理标引方法:主要通过自动采集器(Robots),从网页中自动抽取能表达网页主题意义的词作为标引词来构建网页标引记录。抽词的基本依据是词频;利用其它信息进一步帮助选词或计算词的权重,网页Title、标题标签、链点标签、黑体或斜体表示、或网页中开始几段文字中的词作为标引词。目前几乎所有重要的搜索引擎都采用全文索引方式,分析整个网页的所有词汇,并依据词频和超文本结构确认词汇权重。另外,多数搜索引擎只采集部分文档,如利用网页开头的几行内容直接编制文摘(如AltaVista曾利用网页文件中头250个字符、Loycos利用网页前20行文字作为文摘)。(三)搜索引擎检索机制数据检索机制主要包括四个部分:检索界面模块,接受用户检索要求,往往分为一般检索界面和高级检索界面;检索策略模块,将用户输入的检索要求编制成计算机可执行的规范化;检索执行模块,利用检索式检索索引数据库,并保证检索的速度和准确性;(检索执行向量空间算法);检索结果组织模块,对检中记录的整理组织。检索处理过程(四)搜索引擎优缺点优点:充分利用各种计算机自动化技术,省时省力,,信息覆盖面广,更新速度快,简单易用,检索速度快,能及时获取最新信息。缺点:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不是很高,造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望还有相当差距。一次网络信息资源的组织文件形式保存和组织的信息资源(包括文本、程序、图形、图像、图表、音频、视频等);其中文件方式对结构化的信息管理难以控制自由文本方式组织全文数据库;自由文本方式无需标引就为用户使用自然语言检索一次文献提供了可能。超文本方式超文本方式则以节点为基本单位,节点间以链路相连,将信息组织为网状结构。它的特点是非线性编排,符合人们思维联想和跳跃的习惯,用户浏览时可沿着信息单元之间的链接进行浏览。这种方式可组织各类媒体的信息,方便地描述和建立各媒体信息之间的语义联系。二次网络信息资源的组织对于二次信息而言,组织方式包括:目录指南方式指示数据库方式搜索引擎方式结束