网络信息检索一、Internet的基本概念•TCP/IP协议:TCP/IP是由美国国防部高级计划局资助的Internet技术和方法,也称为传输控制/网间协议,是一个标准协议集合,专门适用于广域网(WAN)。•:的含义是“环球网”,是超文本方式的信息查询工具。协议,用HTML语言将多媒体信息组织成超文本,并通过这种方式将全世界Internet上的不同地点的相关信息有机结合起来。HTTP超文本传输协议•HTTP是基于TCP/IP之上的协议,是用于分布式协作超媒体信息系统的快速实用协议。它不仅需要保证正确传送超文本文档,还必须能够确定传送文档中的某一部分,以及哪部分内容首先显示。HTML(超文本标识语言)•在HTML中,可以嵌入图像、声音等,可通过超链接无缝引用其他网址资源。用HTML组织起来的信息文档称为页面,由浏览器进行解释、执行和显示输出。•HOMEPAGE:又称为主页,是服务的起始信息页。•Browser:又称为浏览器,是用来阅读HTML文件的专用软件系统,可通过FTP、NNTP、Gopher等许多方式来获取信息。URL(统一资源定位器)•URL可以将世界上所有的联机信息资源组织成有序结构。它的格式有三部分组成:•第一部分是协议(或称服务方式),大部分Internet文档用http,其他常用的协议有ftp、news、gopher、telnet等;•第二部分是存有该资源的主机IP地址;•第三部分是主机资源的具体地址。IP地址和域名•Internet上的众多计算机和信息资源必须通过名字和地址来进行识别。接入Internet的计算机或节点被赋予一个惟一的数字作为地址,称为IP地址,用小数点隔开的四组数字组成。IP地址通常由Internet服务机构从Internet网络信息中心注册申请(例如:中央财经大学图书馆的IP地址为202.205.213.101)。IP是网络中的重要资源,有多少个IP地址就意味着有多少台计算机能够连入Internet。由于IP地址由四组数字构成,不易记忆,所以Internet采用域名系统(DNS),作为表示Internet上特定主机的助记名称。Internet中每台计算机的域名结构为:主机名、机构名、网络名、最高层域名。域名是由有规律的英文单词组成的,非常便于记忆,而且还可以根据域名组成的规律,猜测某一个站点的域名。常见的标准域名结构为:主机名、机构名、网络名、最高层域名。在Internet的域名系统中最高层域名有三种:第一类为国别域名,由两个英文字母组成,如:“.CN(中国)”、“.JP(日本)”、“.US(美国)”、“.UK(英国)”、“.CA(加拿大)”。第二类为国际域名,现只有一个“.INT”代表国际组织。第三类为通用域名,目前用到的有13个:——网络服务机构;.edu——教育部门;.web——web服务机构;.arts——文化娱乐部门;——信息部门;.rec——娱乐机构;.org——非赢利机构;.Store——销售部门.Firm——公司企业;.gov——政府部门;.——商业机构.mil——军事部门;.nom——个人。中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心(CNNIC)负责办理。例如:中央财经大学的网址为cufe.edu二、网络信息资源的特点(1)信息量大,传播广泛(2)信息层次多,品种多样(3)自由发布,交流直接(4)信息传播速度快,变化频繁(5)检索方便,价廉实惠1、优点:2、缺点:(1)信息庞杂,分散无序(2)质量不一,缺乏管理(3)重复建设,缺乏宏观调控(4)网络通路不畅三、搜索引擎•网络搜索引擎的历史最早可以追溯到1991年,尽管搜索引擎发展时间并不长,但其观念却是深入人心的。《第22次中国互联网发展状况统计报告》显示,在中国2.53亿网民中,搜索引擎的使用率为69.2%,达1.75亿。目前为中国第五大网络应用技术。从数据中不难看出,网络搜索引擎所发挥的作用是非常大的。搜索引擎概述•全球搜索引擎使用状况网络科技的迅猛发展带来了社会信息量的与日俱增。一方面是人类信息资源前所未有的丰富;另一方面,海量信息也使获取有效信息成为难点。搜索引擎可以从各种网络资源中浏览和检索所需要的信息,随着网络科技和搜索技术的日新月异,搜索引擎已经成为影响人们生活的重要网络应用工具,并呈快速发展趋势。搜索引擎概述•截至2019年6月底,搜索引擎在网民中的使用率为76.3%,用户规模达到3.2亿人,与2009年6月相比,年增长8589万人,年增长率36.6%。——《2019年中国搜索引擎用户行为研究报告》搜索引擎概述•全球搜索引擎用户使用搜索品牌Google全球市场份额为68%,高居榜首。雅虎第二,市场份额为7%,百度第三,市场份额为6.5%,微软第四,市场份额为3%,其它依次为eBay、NHN、Yandex、Facebook、Ask和阿里巴巴。另:中国是全球第二大搜索市场,所占份额达到了10%。很多搜索引擎网站会从国际网站自动跳转成国内网址,如google自动跳转成cn•全球搜索引擎排名:1Google62%google/2雅虎12.8%yahoo/3百度5.2%/4微软2.9%bing/5NHN2.4%(韩国搜索引擎)naver/6eBay2.2%ebay7时代华纳1.6%timewarner/8Ask1.1%ask/9Yandex0.9%(俄罗斯搜索引擎)yandex/10阿里巴巴0.8%alibaba/搜索引擎概述谷歌首选用户使用搜索功能分析搜索引擎概述百度首选用户使用搜索功能分析工作原理•搜索引擎是互联网上的分布式搜索系统,它在传统数据库检索技术基础上,增加了自动收集和更新数据库信息的功能,并采用人工智能方法对检索结果进行区分和排序。主要由信息采集器、查询表和检索接口三大模块组成。搜索引擎系统的分类1.全文搜索引擎通过从互联网上提取各个网站的信息(以网页文字为主)而建立的数据库,检索器与用户查询条件匹配的相关记录,并将查询结果返回给用户。服务方式是面向网页的全文检索服务,是真正意义上的搜索引擎。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。21AltaVistaAltaVista/•是功能全面的搜索引擎,曾经名噪一时,但现在其地位已被Google取代。即便如此,它仍被认为是功能最完善,搜索精度较高的全文搜索引擎之一。截止2019年6月,AltaVista宣称其数据库已存有11亿个Web文件,并且经过升级,其搜索精度已达业界领先水平。•AltaVista提供常规搜索、高级搜索和主题搜索,主题包括图象(Images)、MP3/Audio&Video等。主页显示LookSmart的索引目录并提供LookSmart注册。高级搜索提供用户以日期、语种、布尔逻辑和近似条件搜索。常规及高级搜索均允许针对Title、URL或特定的域名进行检索。用户还可以在定制的搜索条件(包括Title、URL、Host、Links(如anchor、applet、image和text)等)输入框中填入文字,以此为条件进行搜索。22•允许以25种不同的语言进行搜索,并提供英、法、德、意、葡萄牙、西班牙语双向翻译。其他特色服务包括重大新闻(发生于6小时至14天之间),新闻组及购物查询。•搜索规则:进行精确匹配查询时可使用“”号,但多数时候即使不用“”号,AltaVista也默认以精确匹配方式查询;不支持自动断词查询,但允许使用通配符“*”。区分字母大小写。当以大写字母查询时,默认为精确匹配,即查询结果不包括小写的关键词;而以小写字母查询时,则同时查找大写和小写。2.目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确,导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。严格意义上算不上真正的搜索引擎。Dmoz:opendirectoryproject:是世界上最大也是最好的网站分类目录(dmozdir.org/)中文网址主页3.元搜索引擎也称集成搜索引擎。是对搜索引擎进行搜索的搜索引擎。它可以没有自己的资源库和机器人,仅充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈后,进行综合相关度排序,然后把整理后的查询结果发送给用户。baigoogledu/弥补了用单一搜索引擎寻找到的内容不全面的缺憾。Dogpile共收集了26个搜索引擎,包括WEB检索、新闻组检索、FTP检索、新闻检索、股市检索、黄页检索、白页检索、地图检索、天气检索等。Google的简要介绍•Google的创立Google是由2位斯坦福大学的博士生LarryPage和SergeyBrin在2019年创立的。LarryPageSergeyBrinGoogle的简要介绍Google的释义Google是由英文单词“googol”变化而来。Google的特点作为目前世界上最大的搜索引擎,Google支持多达132种语言,包括简体中文和繁体中文;Google提供了最便捷的网上信息查询方法。通过对20多亿网页进行整理,Google可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒,现在每天需要提供1.5亿次查询服务。•Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索.•逻辑与:用空格或and或AND•逻辑或:用大写的“OR”表示•逻辑非:用“-”,减号之前须留一个空格Google(google)•“手气不错”自动将您带到Google推荐的网页。•对大小写不敏感•专用词语上加上双引号•“网页快照”从服务器里直接取出缓存的网页。•检索结果按“重要性”排序Google的语法结构使用Google所提供的特殊的语法结构,能够帮助用户缩小检索范围,更有效地找到所需要的内容。在一般情况下,Google将整个网页进行收录和索引,通过专门的语法结构,可以让用户搜索网页的某些特定部分或者特定信息。Google的语法结构•Filetype:检索特定类型的文件,即搜索后缀或者文件的扩展名。在我们寻找特定格式的内容的时候,这项语法是必不可少的。例如,仅搜索关于经济的pdf文件,结果如下:Google的语法结构•Intitle:将搜索范围限制在网页的标题内。即检索词仅匹配(在网页标题中)字词出现在检索结果的网页的链接内和打开网页后浏览器的标题栏内。Google的语法结构•Inurl:将搜索结果限制在URL或者网站页面上,他可以查询网站的子目录。一般通过这个语法,我们可以查找某些特定的内容页,如帮助页,也可以查找特定的文件,如音乐或者视频文件。Google的语法结构•Intext:只在网页的正文中检索关键词,即忽略超链接文本、URL以及题目等。Google的语法结构•Inanchor:在页面的链接锚点进行搜索,即在一个链接的描述文本内进行检索。Google的语法结构•Link:检索所有链接到某个特定URL的页面列表。例如,搜索所有链向新浪的链接,其结果如下:Google的语法结构•Site:将检索局限在特定网站或者网域内,即将搜索限制在某个特定站点或者顶级域名内。Google的语法结构•Info:检索有关特定网页的信息,获得关于该URL更多信息的页面列表,包括指向该网页的网页快照、类似网页、链接到该URL的所有网页的列表、该URL相关的页面列表以及含有该URL的页面。例如,搜索关于新浪的信息,其结果如下:Google的语法结构•Daterange:查找在一定的日期或者一定的日期范围内,Google索引的网页(该语法只关注被Google收录的时间,而不关注网页创建的时间)•Related:检索与某特定网页类似的网页。这在搜寻相关内容或者具有类似功能的网页的时候,非常有帮助。百度()•“-”减