1第四章Internet信息检索与利用信息检索的三个层次:1.知道在哪里能找到信息(了解不同的信息源)2.能从信息源中检索出合适的信息(课题分析和检索技术)3.能对检索结果进行评价和分析(选择和综合利用)第一节Internet的基本知识一、起源与发展起源:美国国防部20世纪60年代末70年代初的ARPANET三个发展阶段:1ARPAnet,即美国国防部的计算机网络,是Internet的先驱。2NSFnet,美国国家科学基金会NSF在1985年资助建立的连接五大超级计算机中心的计算机网络。3现代Internet,向用户提供Internet商业的联网服务。Internet在中国1987.9中国开始使用Internet(北京计算机应用技术研究所第1封电子邮件)1990.10中国正式注册登记了中国的顶级域名CN1993.3中国1个内地Internet网络节点(中科院高能物理所)1994.5中关村地区教育科研示范网NCFNET(中科院计算机网络中心),被正式承认有Internet的国家1995.7中国教育科研计算机网CERNET开通(教育界)1995.12中国科技网CSTNET开通(科技界)1996.1中国公用计算机网CHINANET开通(单位个人.商业运行)1996.9中国金桥信息网CHINAGBN开通(经济信息.商业运行)1996年底,国内Internet互联网络已基本完成,进入商业化试运行阶段。中国第一封电子邮件二、相关概念1.网络信息资源借助于计算机网络可以获取和利用的各种信息资源的总和。也就是在互联网上传输的那部分电子信息资源。2.IP地址和域名系统IP地址标识地址—称作网络协议地址;分配给主机的一个32位地址,由4个字节组成;分为动态IP地址和静态IP地址两种;动态IP地址每次连线所取得的地址不同,而静态IP地址是指每次连线均为同样固定的地址,无线上网就是动态IP地址;静态地址如学校网站的202.207.48.0-202.207.63.255静态地址通常一经设定,变动较少。2域名和网络地址域名也由若干部分组成,各部分之间用小数点分开,即:计算机主机名.机构名.网络名.最高层域名,每个层次为域,各个层次之间用“.”号分隔,从左向右域层逐级上升。例如我校主机的域名是:“”。域名前加上传输协议信息及主机类型信息就构成了网址(URL)。如我校就是:“”。域名一般不会变动。URLURL:UniformResourceLocator的缩写,统一资源定位符。也被称为网页地址,是因特网上标准的资源的地址,是对可以从因特网上得到的资源的位置和访问方法的一种简洁的表示。是每一信息资源在网上的惟一地址,由资源类型、存放资源的主机域名及资源文件名组成。如:的结构基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名。如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志URL的模式/协议(一)最常用的模式是超文本传输协议(HypertextTransferProtocol,缩写为HTTP),这个协议可以用来访问网络。其他协议如下:http——超文本传输协议资源https——超文本传输的安全版,有加密(支付交易)ftp——文件传输协议双向传输。mailto——电子邮件地址ldap——轻型目录访问协议搜索file——当地电脑或网上分享的文件news——Usenet新闻组gopher——Gopher协议,某种索引telnet——Telnet协议,远程登录。URL的模式/协议(二):文件所在的服务器的名称或IP地址,后面是到达这个文件的路径和文件本身的名称。服务器的名称或IP地址后面有时还跟一个冒号和一个端口号。HTMLHTMLfile:超文本文件,HTML是HyperTextMarkupLanguage的缩写,最大的特点是存在链接功能,可以从网页上的某一点直接指到另一个地方。超文本标记语言,是用于描述网页文档的一种标记语言。是标准通用标记语言下的一个应用,也是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容(如:文字如何处理,画面如何安排,图片如何显示等)。对于不同的浏览器,对同一标记符可能有不完全相同的解释,因而可能会有不同的显示效果。第二节网络信息资源的类型与检索3请考虑下面的问题你常用的网络资源有什么?你用过那些检索方法?自然语言关键词网络资源检索的基本方法电子邮件服务(E-Mail)远程登陆服务(Telnet)文件传输服务(FTP)新闻组(Newsgroup)电子公告板(BBS)网上交谈服务网络信息浏览()网络资源的类型思考:除了图书馆资源之外,还有哪些可利用的学术资源呢?怎样找到它们呢?网络免费学术资源网络免费学术资源是指在互联网上可以免费获得的具有学术研究价值的社会科学或自然科学领域的电子资源。网络学术资源可以是数据库,电子图书,电子期刊,电子布告栏,电子论坛,电子预印本系统,网上书店和政府、高校、信息中心、协会或组织的网站、以及专家学者个人主页、BLOGS等。网络学术资源的主要类型搜索引擎网络数据库联机公共目录FTP与Email开放存取资源学科网络资源导航在线事实及数值类资源第三节搜索引擎搜索引擎(searchengine)是提供给用户进行关键词、词组或自然语言检索的工具,也就是一种在因特网上查找信息的工具。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。必须找?4哪里找?如何找?主要内容搜索引擎发展历程搜索引擎的鼻祖:ArchieYahoo关于雅虎雅虎是全球第一家提供因特网导航服务的网站,总部在美国加州圣克拉克市,在欧洲、亚太区、拉丁美洲、加拿大及美国均设有办事处。雅虎是最老的“分类目录”搜索数据库,也是最重要的搜索服务网站之一。第一个现代意义上的搜索引擎:LycosLycosLycos是搜索引擎中的最早提供信息搜索服务的网站之一。Lycos包括搜索数据库、在线服务和其他互联网工具,提供网站评论、图象及包括MP3在内的压缩音频文件下载链接等等。Lycos是目前最大的西班牙语门户网络。具有多语言搜索功能,共有25种语言供选择。常用搜索引擎:国内:百度,搜狐,新浪,天网,中搜,爱问,网易,搜狗,万维搜索等。国外:google,yahoo,MSNSearch,AltaVista,Excite,Infoseek,Lycos,HotBot等。查询方法:各种网络搜索引擎的使用方法大体相同,根据用户需要,可以输入检索词进行主题查询,也可以从分类目录逐级查询。搜索引擎搜索引擎的分类按检索机制划分按检索内容划分按数据来源划分(1)按检索机制划分全文搜索引擎目录式搜索引擎元搜索引擎全文搜索引擎从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词进行搜索,检索直接、5方便,而且可使用布尔逻辑检索、短语检索等高级功能。缺点:繁多而杂乱的感觉。代表性的全文搜索引擎是Google、百度。目录式搜索引擎通过用户浏览层次类型目录来寻找所需信息。分类一般按主题分类,并辅之以年代、地区等分类。网站多以此方式组织。例如:新浪分类目录计算机与互联网硬件行情报价。优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希望了解某一范围内信息,并不严格限于查询关键字的用户。缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。代表性的目录式搜索引擎是Yahoo、搜狐、新浪网站元搜索引擎同时在其他多个引擎上进行搜索,并将结果返回给用户。没有自己的数据库,利用一个统一的界面,查询其他独立的搜索引擎。优点:快捷,信息覆盖面更加广泛缺点:高级检索功能不完善,检索结果没有经过处理著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有北斗、等。元搜索引擎就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。元搜索引擎工作原理示意图第一个元搜索引擎:Metacrawler主要中文元搜索引擎360综合搜索马虎聚搜抓虾网聚搜:北斗搜索(内容来自:Baidu|Google)·佐意综合搜索(chinazss)·比比猫(bbmao):·觅搜(MetaSoo)国外主要搜索引擎6Dogpile://mamma.com/Ixquick://://理想的元搜索引擎应具备的特点和功能含盖较多的搜索资源,具备尽可能多的可选择功能,强大的检索请求处理功能详尽全面的检索结果信息描述;支持多种语言检索。(2)按检索内容划分通用型专题型通用型搜索引擎通用型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为综合型检索工具。如:Google、百度、AltaVista、Excite、Yahoo等也有这种混合功能。右图是Yahoo的检索界面,既有检索窗口,也有分类浏览目录。专题型检索工具专题型检索工具指那些专门用来检索某一类型信息和数据的检索工具,如查询地图的检索工具“MapBlast”、查询图像的检索工具“WebSEEK”等。(3)按数据来源划分独立搜索引擎拥有独立的采集标引机制和独立的数据库元搜索引擎没有自己的数据库,它利用一个统一的界面,查询其他独立的搜索引擎搜索引擎的不同结构特殊问题Web搜索引擎背景与历史搜索引擎的查询方法各种网络搜索引擎的使用方法大体相同,根据用户需要,可以输入检索词进行主题查询,也可以从分类目录逐级查询。百度百度的常用搜索技巧1)选择合适的查询词2)搜索学术论文73)百度快照3)相关搜索(1)选择合适的查询词课题:网络环境人们交往关系的变化与伦理道德的新课题研究检索词:网络、伦理、交往、关系、道德、补充检索词:虚拟、信息时代、群体2)搜索学术论文收集论文的网站按专题搜索搜索特定格式的论文收集论文的网站1、以“论文”为关键词2、选择论文网站3、在论文网站内检索inurl:inurl,拆开来,就是inurl,它的作用是限定在url中搜索。URL,全称UniformResourceLocator,中文译为“统一资源定位器”,就是地址栏里的内容。格式是:“inurl:xxx”、“inurl:xxx关键词”、“关键词inurl:xxx”。例如:1.inurl:xxx作用是命令搜索引擎查找url中包含xxx的网页。