常用网络学术资源的检索与利用冯花朴hpfeng@buaa.edu.cn联系电话:010-82339119网络免费学术资源–整合的网络信息:聚宝盆–丰富的网络信息:信息海洋–便捷的访问方式:轻松点击提纲常用的综合性搜索引擎常用学术性搜索引擎学科信息门户开放获取资源一、常用的综合性搜索引擎1.搜索引擎概述1.1搜索引擎的特点1.2搜索引擎的类型1.3搜索引擎的策略和技巧2.常用的综合性搜索引擎2.1Google2.2Fast/AllTheWeb2.3AltaVista1.1搜索引擎的特点是互联网上常规、普遍的检索工具2009年1月23次互联网调查显示,,目前搜索引擎的使用率为68.0%,在各互联网应用中位列第四。学历越高,搜索引擎使用率越高;收入越高,搜索引擎使用率越高。可以帮助用户快速搜索所需信息及相关信息提供关键词、词组或自然语言检索具有布尔检索、词组检索、截词检索和字段检索功能省力、方便、速度快检索结果不太理想1.2搜索引擎的类型搜索引擎按其工作方式主要可分为四种,分别是:全文搜索引擎(FullTextSearchEngine)目录式搜索引擎(SearchIndex/Directory)元搜索引擎(MetaSearchEngine)垂直搜索引擎(VerticalSearchEngine)全文搜索引擎(FullTextSearchEngine)全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。目录式搜索引擎(SearchIndex/Directory)目录式搜索引擎虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。元搜索引擎(MetaSearchEngine)Meta搜索引擎也叫做MultipleSearchEngine其特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,同时访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。对于返回的结果系统会进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。元搜索引擎(MetaSearchEngine)著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎()。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。垂直搜索引擎(VerticalSearchEngine)垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。它对网页库中的某类专门的信息进行一次整合,然后定向分字段抽取出需要的数据,进行处理后,再以某种形式返回给用户。其特点是对网页信息进行了结构化信息抽取,最后以分词、索引等搜索方式满足用户的需求。其它搜索引擎除上述三大类引擎外,还有以下几种非主流形式:集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。门户搜索引擎:如AOLSearch、MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。免费链接列表(FreeForAllLinks,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。1.3搜索引擎的策略和技巧检索策略是为实现检索目的而制定的执行计划或方案,它对整个检索过程起运筹和指导作用。检索策略包括课题分析搜索引擎的选择关键词的选取,编写检索式结果优化个性化检索定制服务的使用等2.常用的综合性搜索引擎2.1Google成立于1997年,目前规模最大的搜索引擎,是一种全文搜索引擎。Google成为当今世界搜索引擎之王。以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。2.1.1Google的功能和特点a.提供常规和高级检索功能b.每天处理请求达2.4亿次,排名第一c.允许多语言(30多种语言)进行检索d.检索结果显示网页标题、链接以及网页字节数,匹配的关键词以粗体标示e.提供分类目录查询高级检索界面2.1.2Google的搜索规则对英文字符大小写不敏感仅使用*来替代单个字符关键词可以是单词,也可以是词语,词语须加英文引号在某类文件中查找信息,“filetype:”Google是开发的非常强大实用的一个搜索语法。对搜索的网站进行限制。例利用Goole查找上有关“Projectmanagement”网页高级检索界面检索结果全文在商业网站查找PDF格式的“Projectmanagement”信息检索结果检索式检索结果2.1.3Google的特色服务图片搜索功能新闻组搜索在线的英文活字典页面翻译功能购物搜索在线答疑旅游信息查询地图检索、电话本服务2.2Fast/AllTheWebFast/AllTheWeb是当今成长最快的全文搜索引擎,支持225种文件格式搜索,可用49种语言检索03年4月被Overtune收购,同年7月又被Yahoo收归旗下提供常规搜索、高级搜索和主题搜索功能对中文的支持不是很好Fast/AllTheWeb允许按更新时间查询网页,这是Google所没有的。2.2Fast/AllTheWeb功能(1)支持普通关键词搜索,+、-、和()等逻辑命令符号,分别对应AND、NOT、OR等布尔逻辑指令,使用“”进行精确检索。url.tld:domain。例如,“url.tld:cn”为限定查找顶级域名后缀带“.cn”(中国)的网页资料,“url.tld:com”则是查找域名后缀为“com”的商业网站资料。Link.all:URLtext。查找链接到某一网页的其他网页。例如,“Link.all:”将搜索指向同济大学主页的其他网页。Normal.title:text。搜索网页标题中含有某些特定文字的网页。例如,“Normal.title:同济大学”即为查找所有标题中含有“同济大学”字样的网页。2.2Fast/AllTheWeb功能(2)url.all:text。查询URL中含某些特定文字的网页。Normal.titlehead:text。搜索标题或HTML代码head和/head之间包含某些特定文字的网页。url.domain:text。查找域名中包含某些特定文字的网页。Link.extension:text。例如,“Link.extension:jpg”可以查找包含“.jpg”后缀图象文件的网页。提供限定语言、关键词过滤、域名过滤、IP地址过滤和指定网页大小等高级搜索功能,方便用户进行更精确查询。2.3AltaVistaAltaVista()是功能全面的搜索引擎。曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。允许以25种不同的语言进行搜索,并提高英、法、德、意、葡萄牙、西班牙双向翻译。提供常规搜索、高级搜索和主题搜索,其中主题搜索包括图像、MP3/Audio&Video等。高级搜索提供以日期、语种、布尔逻辑和近似条件检索。常规和高级搜索均允许针对Title、URL或特定的域名进行检索。可以“”进行精确检索。允许使用通配符*,区分字母大小写,以大写字母查询时,默认为精确匹配,即查询结果不含小写的关键词;以小写字母查询时,则同时含大小写。AltaVista检索界面AltaVista高级检索界面二、常用的学术性搜索引擎1.Scirus2.Google学术搜索(GoogleScholar)3.OAlster1.Scirus1.1Scirus检索范围Scirus()是一个免费的专为科学家、研究人员和学生开发的网络检索引擎,可以使得每位想要检索科学信息的人员快捷精准地查找到所需信息——包括专家评审刊物,发明专利信息,作者主页以及大学网站等等。Scirus是目前互联网上最全面、综合性最强的科技文献门户网站之一,由Elsevier科学出版社开发。Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。1.2Scirus覆盖的内容目前Scirus已将90,000,000个网页编入索引中。包括12,800,000条MEDLINE文摘;1,600,000篇ScienceDirect全文;900,000项USPTO的专利;657,000篇Beilstein文摘;248,000篇IDEAL全文;10,310篇NASA技术报告;197,000篇来源于E-PrintArXiv的电子文献;1,410篇来源于CogPrints的电子文献;565种来自MathematicsPreprintServer的预印本;820篇来源于BioMedCentral的全文;565条来源于Neuroscion的新闻;465种来自ChemistryPreprintServer的预印本。1.3Scirus检索指南Scirus的检索界面友好,简洁方便,可分为基本检索和高级检索两种方式。基本检索:Scirus基本检索非常简单,用户仅需输入检索词,敲一下回车键(Enter),或单击“search”按钮即可得到相关资料。高级检索:Scirus高级检索支持逻辑检索符的应用。Scirus可以进行个性化检索设置,包括限制检索结果的信息类型(如网页、文摘、专利等)、信息来源(期刊资源和网络资源)、检索学科与主题范围、检索年限(1973-2002的任意区间)、每屏显示的检索结果数等。用户可以保存检索设置,以便在今后的检索中继续沿用此设置。Scirus基本检索界面Scirus高级检索界面例检索2000年以来交通安全“transportationsafety”方面的文献检索结果Scirus原文获取Scirus用户可以免费浏览所有检索到的Web网页上的信息,来自数据库或机构的期刊资源、学术报告等可以免费查