信息管理概论(六)第六章网络信息资源管理学习要点:网络信息资源的含义、类型及特点;网页的链接结构及使用、文件的组织方式;网络信息检索的过程;三类网络信息检索工具及其用途;搜索引擎的概念、类型及其作用;网络信息检索的常用技术;网络信息资源的评价。第一节网络信息资源概述网络信息资源(NetworkInformationResources)的含义:是通过计算机网络可以利用的各种信息资源的总和。它是知识、信息的巨大集合,是人类的资源宝库。实际上目前最大的广域网国际互联网上的各种信息资源。第一节网络信息资源概述网络信息资源的分类1、网络信息资源按信息源提供信息的加工深度分,可分为一次信息源、二次信息源、三次信息源等。2、依据信息源的信息内容则可将网络信息资源分为以下类型:一是联机数据库,二是联机馆藏目录,三是电子图书,四是电子期刊,五是电子报纸,六是软件与娱乐游戏类,七是教育培训类,八是动态性信息。第一节网络信息资源概述网络信息资源的特点1、以网络为传播媒体。现代信息技术是其纪录手段,网络信息以数字形式存在,可以借助网络进行远距离传播。2、以多媒体为内容特征。多媒体信息资源是包括文本、图像和声音在内的各种信息表达或传播形式的总称。它提供的信息集图、文、声于一体,可以为用户提供文本、图像、声音信息以及它们的组合。第一节网络信息资源概述3、以超文本形式组织信息。超文本(Hypertext)是把一些信息根据需要连接起来的信息管理技术,人们可以通过一个文本的链指针打开另一个相关的文本。这种组织方式使网络信息资源由传统的顺序、线性排列发展到可以按照信息自身的逻辑关系组成相互联系的、直接的、非线性的网状结构。能充分展示各单元之间的逻辑关系。第一节网络信息资源概述4、传播方式的多样性、交互性。网络综合了各大传媒的各种传播表现形式。实现了信息传播的交互性。5、变化更新快。数据结构的通用性、开放性和标准化使得信息资源易于扩充和更新。第二节网络信息资源的组织网络信息资源组织的含义1、概念:网络信息资源的组织是指对网上的各种概念、数据(包括声音、图像、软件等)、事实、文献等,通过分析、标引(分类的和语词的)、著录(信息特征的描述)、链接(把相关的信息加以联系)、排序、存储等手段,形成一个有序的、便于用户理解和查询的信息系统的过程。第二节网络信息资源的组织2、网络信息资源组织的重要性:网络信息资源的特点决定了人们查找利用它们十分困难,而且也使组织网络信息资源变得十分必要,原因主要表现在以下三个方面:一是在Internet上存在着大量可获得的有价值、可利用的信息。二是为了检索的便易,这些资源需要组织。三是为了方便人们对网络信息资源进行管理与控制。第二节网络信息资源的组织网页的链接结构网页的链接结构通常可以分为两种基本形式:树状结构(层级结构)和网状结构(平级结构)。1、树状结构:也称层级结构,是网页按内部逻辑分为不同层次,一个上级网页指向一个或多个下级网页,层层进入,层层退出。有上下级关系,不形成环路,即循环。是线性的。(P220,图6-2-1)第二节网络信息资源的组织2、网状结构:网页之间没有等级,即没有上下级关系,是指相互有关系的任何两个网页均可建立超链接。一级网页二级网页三级网页第二节网络信息资源的组织3、混合结构:将树状结构和网状结构混合使用来组织网页之间的链接。一级网页二级网页三级网页第二节网络信息资源的组织文件的组织1、在网络信息资源中,文件的组织通常有以下方法:一是将文件分级存放;二是按文件所属的栏目进行存放。2、目前对网络信息资源进行组织使用得较多的方式主要有四种:一是主题树方式;指将所有获得的信息资源按照某种事先确定的体系结构,分门别类地加以组织,用户通过浏览的方式逐层进行选择,层层遍历,直到找到所需信息资源(如搜索引擎的分类目录检索方式)。第二节网络信息资源的组织二是文件组织方式;指以文件系统为单位对信息资源进行组织和检索。一个文件包括数据、程序和字符,是计算机保存处理结果的基本单位。以文件方式组织网络信息资源简单方便,可以降低信息组织的难度和成本;它还能存贮各种图形、图像、图表、音频、视频等非结构化信息。信息结构复杂时,就难以实现有效的控制和管理,只能作为网络信息资源的补充形式及辅助形式。第二节网络信息资源的组织三是数据库组织方式:数据库是在计算机存储设备上合理存放的相互关联的数据集合。数据库组织方式就是将所获得的信息资源按照固定的记录格式存储组织,用户通过关键词及其组配查询就可找到所需要的信息线索,再通过信息线索联接到相应的网络信息资源。优点:能高速处理大量结构化和非结构化数据。第二节网络信息资源的组织四是网络信息指引库:指在所建立的数据库中,从物理上并不存储各种实际的信息资源,但对其访问却可以检索到有关数据的实际资源,即指引用户到特定的网址获取所需要信息.指引库中的资源是评估过的,信息质量有保障,经常是针对特定用户群的。提供的检索点有限,用户界面较差,数据库资源的综合性不强。第二节网络信息资源的组织五是超媒体组织方式:超媒体技术是超文本技术与多媒体技术相结合的产物,它将文字、表格、声音、图形、图像、视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构在各种信息库中自由航行,找到所需要的任何媒体的信息。超媒体组织方式指超链接与多媒体技术相结合以组织利用网上信息资源的方式。超媒体采用非线性的由节点和链组成的网状结构组织块状信息。第二节网络信息资源的组织节点:指的是某一信息的片段,它包含两部分:信息本身、被链接对象的地址。节点分为文字节点、图像节点、声音节点、视频节点。在计算机上举例,用某一文字链接,然后演示。链:用来连接节点。即实现某一信息点到另一信息的直接浏览或使用。链的一般结构可以分为三个部分:链源、链宿和链的属性。根据链的功能,可以分为以下几种:一是顺序链;二是结构链;三是交叉索引链;四是检索链;五是功能链。第三节网络信息资源的检索网络信息检索的过程1、网络信息检索的特点:第一,必须借助网络检索工具。第二,基于超文本结构。第三,检索方法的多样性。第四,多媒体检索。第三节网络信息资源的检索2、网络信息检索的过程:第一,搜索引擎通过巡视软件自动由人工搜集信息;由专门的标引软件或专业人员对信息进行处理,并把结果存入索引数据库。第二,搜索引擎通过服务器软件为用户提供浏览器界面下的信息查询。第三,搜索引擎对用户的检索提问进行适当的处理,然后将提问式与索引数据库进行匹配,并进行必要的逻辑运算。第四,搜索引擎将符合用户需要的信息以超文本链接方式返回,以Web页显示给用户。第三节网络信息资源的检索网络信息检索工具网络检索工具大致可以分为以下三大类:一是字典型查询工具,用于查询网上用户名、E-mail、URL、服务器地址。二是索引型查询工具,为网上信息资源建立索引。三是交互式查询工具。主要有两类:Gopher和。检索工具按其性质可以分为两大类——搜索索引和搜索目录。第三节网络信息资源的检索搜索引擎通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。搜索引擎和互联网其它应用的比较:A.邮件、即时通信(IM)可以作为互联网上人与人之间交流、通信工具。B.论坛、校友录提供一组人公共信息交流服务。C.新闻服务。作为电子媒体,提供时事信息。第三节网络信息资源的检索1、搜索引擎的构成和原理。搜索引擎一般是基于Spider(蜘蛛)的搜索系统。搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。第三节网络信息资源的检索2、搜索引擎的类型:(1)如果按搜索引擎的内容分,搜索引擎可以分为综合类搜索引擎和专业类搜索引擎。综合类搜索引擎:用于搜索各类信息。如:Yahoo。专业性搜索引擎:用来检索某一主题范围或某一类型信息或数据。例如:检索电话号码的555-1212,查询地图的MapBlast,查询图象的WebSEEK,检索FTP文件Archie第三节网络信息资源的检索(2)如果按其信息的组织方式分,搜索引擎则可以分为目录式搜索引擎、索引式搜索引擎和元搜索引擎。①目录式搜索引擎。主要通过人工发现信息,并依靠标引人员的知识进行甄别和分类,由专业人员手工建立关键字索引,建立目录分类体系。②索引式搜索引擎:依靠一种被称为“蜘蛛”等的计算机程序有规律地遍历整个网络空间,根据网络协议和程序自身的有关约定,记录网上的信息,并对其进行加工、整理,将信息加入到索引数据库。第三节网络信息资源的检索③元搜索引擎:又称集合式搜索引擎,是将多个搜索引擎集成在一起,并提供一个统一的检索界面。一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。元搜索引擎可分为并行式元搜索引擎和串行式元搜索引擎。串行:将查询请求发至某个独立搜索引擎,等待该引擎传回结果;然后将查询请求发至另一个独立搜索引擎,再等待结果。并行:同时将查询请求传送给所有要调用的独立搜索引擎。第三节网络信息资源的检索主要搜索引擎介绍:1、Google:40多亿网页、百度:百度搜索引擎拥有目前世界上最大的中文搜索引擎,3亿网页以上、一搜:雅虎中国推出的一个中文搜索网站。设立了网页、图片、MP3和网址四个频道。50亿网页(其中3亿个中文网页)、9000万张图片、100多万个免费音乐、中国搜索第三节网络信息资源的检索5、搜狐搜索:搜狐推出的独立域名专业搜索网站“搜狗”,提供全球网页,新闻,商品,分类网站等搜索服务。、新浪网搜索引擎:提供网站、网页、新闻、软件、游戏等查询服务。有16大类目录,一万多个细目和数十万个网站。其网页搜索结果由中国搜索提供。、网易搜索引擎:提供网页搜索、分类网站、图片搜索、时尚搜索,其网页搜索结果由Google提供。第三节网络信息资源的检索网络信息检索技术信息检索技术是指应用于信息检索过程的原理、方法、策略、设备条件和检索手段等因素的总称。1、网络信息检索的一般步骤第一,明确检索需求。第二,确定检索范围。第三,确定有效的检索词。第四,构造合适的检索表达式。第五,选择合适的检索工具。第六,正式检索。第七,评价检索结果。第三节网络信息资源的检索2、常用的网络信息检索技术1)布尔逻辑检索技术:布尔逻辑检索是通过布尔逻辑算符来实现的,这些算符能把一些具有简单概念的检索词(或检索项)组配成为一个具体有复杂概念的检索式,用以表达用户的检索需求。布尔逻辑算符有三种:逻辑与(AND)、逻辑或(OR)和逻辑非(NOT)。逻辑算符的优先顺序为NOT,OR,也可以根据需要,用括号规定或改变执行顺序。第三节网络信息资源的检索①逻辑与(AND):可用“*”表示,是一种用于交叉概念和限定关系的组配,它可以缩小检索范围,有利于提高查准率。如“AANDB”,即表示被检索的文献记录中必须同时含有A和B才算命中。ABAANDB例:计算机AND文献检索,表示查找文献内容中既含有计算机又含有文献检索词的文献。第三节网络信息资源的检索②逻辑或(OR):可用“+”表示,是一种用于并列关系的组配,它可以扩大检索范围,防止漏检,有利于提高查全率。如“AORB”,则表示在一篇文献记录中只要含有A和B中的任何一个即算命中。ABAORB例:计算机OR文献检索,表示查找文献内容中含有计算机或含有文献检索以及两词都包含的文献。第三节网络信息资源的检索③逻辑非(NOT):可用“—”表示,是一种排斥关系的组配,排斥系组配用来从原来的检索范围中排除不需要的概念或影响检索结果的概念。如“ANOTB”则表示从含有A的文献中去掉其中也含有B的文献记录。ABANOTBABBNOTA例:计算机NOT文献检索