网络信息检索技术与搜索引擎

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

内容回顾检索技术布尔逻辑检索技术:ANDORNOT截词检索技术限制检索技术:site:inurl:filetype等等模糊检索与精准检索作业1检索“计算机在汽车车身中的应用”方面的信息。(写出检索表达式,利用搜索引擎进行搜索,截取检索结果第一页。)主题概念分析,提取关键词计算机汽车车身计算机辅助设计计算机辅助制造汽车车身计算机辅助设计CAD计算机辅助制造CAM汽车车身基于内容分析方法扩展检索概念隐含概念扩展法是指文献或课题中,未用显而易见的方式表达,因而需要认真进行由表及里、由此及彼的深入分析才能找出的主题。如:“投资管理”的显见主题是“投资管理”,隐含主题还有“投资法规”、“投资法律”。作业1构建检索表达式(计算机辅助设计ORCADOR计算机辅助制造ORCAM)AND汽车车身(计算机辅助设计|CAD|计算机辅助制造|CAM)汽车车身检索:直接输入检索表达式高级搜索作业2.找到宾夕法尼亚大学癌症中心的关于乳腺癌内容的网页。主题概念分析,抽取关键词UniversityofPennsylvaniaCancerCenterBreastCancer构建检索表达式UniversityofPennsylvaniaANDCancerCenterANDBreastCancerUniversityofPennsylvaniaCancerCenterBreastCancer“UniversityofPennsylvania”“CancerCenter”“BreastCancer”作业2检索手气不错直接输入检索式高级搜索作业33.检索“温室效应对气候改变的影响”的论文资料。(利用中国知网(本地镜像)-中国期刊全文数据库检索,检索字段选择“关键词”,写出检索表达式,截取检索结果的第一页)。提取关键词:温室效应气候构建检索表达式:温室效应AND气候作业44.利用搜索引擎检索有关“物联网”的doc\pdf\ppt格式的文件,写出检索表达式,截取检索结果的第一页。物联网(filetype:doc|filetype:pdf|filetype:ppt)物联网(inurl:ppt|inurl:pdf)物联网inurl:doc3.2网络搜索引擎搜索引擎(SearchEngine)以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。特点收录、加工信息的范围广、速度快;检索功能强,一般可称为网络资源的关键词索引;检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便;标引过程缺乏人工干预,准确性较差检索误差(噪音)较大搜索引擎适合于检索特定的信息,及较为专、深、具体或类属不明确的课题。搜索引擎的工作原理搜索器索引器检索器用户界面在因特网中发现和搜集信息理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,建立起自己的物理索引数据库。根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。输入用户查询、显示查询结果,提供用户相关性反馈机制。搜索引擎的分类按索引方式的不同,可分为目录式搜索引擎、机器人搜索引擎、元搜索引擎。目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。有利于族性检索。信息大多面向网站。提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人工智能,所以信息准确、导航质量高。缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。适合主题浏览,检索目的不太明确的用户。这类搜索引擎的代表是:国内:中文Yahoo!、网易、sohu、sina等;国外:Yahoo!、Galaxy、LookSmart、OpenDirertory、GoGuide等机器人搜索引擎由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。自动标引,数据量大。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预。缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。检索功能强大。查全率高,查准率低。适于查找目的明确的用户。这类搜索引擎的代表是:GoogleBaidu、天网、百度、AltaVista、Hotbot、Excite、Infoseek、FAST、Lycos等。元搜索引擎MetaSearchEngine(搜索引擎之上的搜索引擎是一个能调用其他搜索引擎的搜索引擎。)这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量大。查全率大大提高,但查准率更难保障缺点是不能够充分使用原搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是搜乐网、搜魅网、万纬搜索、WebCrawler、InfoMarket,在线搜()等。垂直搜索引擎垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。Sou365:搜房网找工作的深度搜索引擎股票搜索引擎叮玲玲垂直关键词搜索引擎:有代表性的中英文搜索引擎GoogleLycosInfoseekExciteAskJeevesInktomiNorthernLightWisenutAOLAlltheweb百度天网搜索中国搜搜爱问搜狗Google(谷歌)简介世界第一搜索引擎,搜索引擎世界第一!两位斯坦福大学的博士生LarryPage和SergeyBrin在1998年创立了Google。Google是由英文单词“googol”变化而来。“googol”是美国数学家EdwardKasner的侄子MiltonSirotta创造的一个词,表示1后边带有100个零的数字。Google使用这个词代表公司想征服网上无穷无尽资料的雄心。Google在中国google.cn已经不复存在关于谷歌中国的最新声明(2010年3月23日)从今天早上开始,我们已停止了在Google.cn搜索服务上的自我审查,包括GoogleSearch(网页搜索)、GoogleNews(资讯搜索)和GoogleImages(图片搜索)。访问Google.cn的用户从现在开始将被指向Google.com.hk,在这个域名上,我们将提供未经审查的简体中文搜索结果,这些为中国大陆用户设计的服务将通过我们在香港的服务器实现。Google检索技巧单个关键词搜索“信息检索”相关的网页多个关键词:布尔逻辑检索(与、或、非)搜索结果包括两个或两个以上关键字(与):空格(格式:AB)搜索包含信息检索和网络的网页搜索结果要求不包含某些特定信息(非):“-”(格式:A–B)搜索包含信息检索的方法,但不包含网络的网页搜索结果至少包含多个关键字中的任意一个(或):大写“OR”(格式:AORB或AORB)搜索包含信息检索或网络的网页信息检索网络信息检索方法–网络信息检索OR网络Google检索技巧强制搜索或精确搜索例:查询“的历史”相关的网页“的历史”google会忽略常用的词和字符,如“http”、“”、“.com”和“的”等。可用英文双引号引起来。使用书名号进行检索例如:查询电影或电视剧“手机”手气不错:自动进入google查询到的第一个网页快速进入“临沂大学”网站Google检索技巧—限制检索技术限制文本类型例:搜索关于信息检索的pdf文档采用filetype语法。Google已经能检索微软的Office文档。如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。(格式:关键词filetype:文件格式)信息检索filetype:pdf例:搜索关于信息检索的pdf或者word文档信息检索(filetype:pdfORfiletype:doc)Google检索技巧—限制检索技术搜索范围限定在特定网站格式:关键词site:网站或域名例如:在天空网下载迅雷软件注意:site:后面的站点域名,不要带http://迅雷site:skycn.comGoogle检索技巧—限制检索技术限定在网页标题中检索格式:intitle:关键词例如:查找高等数学学习方法intitle:高等数学学习方法Google检索技巧—限制检索技术搜索范围限定在URL链接中格式:关键词inurl:url查找mp3曲,本草纲目本草纲目inurl:mp3Google总结(也可以通过高级搜索完成)与、或、非空格、OR、-强制搜索或精确搜索英文双引号“”限制搜索网站或域名关键词site:网站或域名限制查询的文件类型关键词filetype:文件扩展名关键词包含在url链接中inurl:包含在url的关键词关键词包含在网页标题中intitle:关键词链接到某个网址的网页link:网址与某个网页相似的网页related:网址百度的检索技巧(与google基本类似)与、或、非空格、|、-强制搜索或精确搜索英文双引号“”限制搜索网站或域名关键词site:网站或域名限制查询的文件类型关键词filetype:文件扩展名关键词包含在url链接中inurl:包含在url的关键词关键词包含在网页标题中intitle:关键词链接到某个网址的网页link:网址与某个网页相似的网页related:网址

1 / 36
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功