摘要本文比较详细地介绍了互联网搜索引擎的概念、发展历史、工作原理和未来趋势。先从工作流程的角度解释了搜索引擎实现机制,通俗地概括为预处理和提供查询服务,描绘了整个技术构成易于理解的概览图。接着对各个分支模块,包括爬虫、分布式文件系统、索引和排序规则展开详细论述,然后以实践经验为指导,分析了各个模块的改进设计。本文内容是以搜索引擎理论研究为主,并对未来搜索引擎的智能化、个性化发展趋势做了详细的介绍。本文对于从事网络技术开发、信息检索技术和数据挖掘研究都有一定的参考意义。关键词搜索引擎;体系结构;发展趋势AbstractInthispaper,amoredetailedintroductionoftheInternetsearchengine’sdevelopmenthistory,theoryandtechnologywaspresented.Startwiththeperspectiveofworkflowexplainedthemechanismforimplementingawebsearchengine,whichissummarizedaspretreatmentandwebservices.Itcanbedividedasspider,distributedfilesystem,indexingandrankingrules.Furthermore,Iputforwardmyownopinionofrankingalgorithmimprovement.Meanwhile,Iexplainedthesearchenginearchitecturedesignprinciplesandacomparativeanalysisofotherpossibledesignoptions.Becauseofstrictlogicalratiocinationandabundantexperimentaldata,it’sfitforvarietyofreaders.Andintelligent,personalizedtrendofsearchenginedevelopmentaredescribedindetail.ItisagoodreferenceforInformationRetrievalandDataMiningresearchandwebsearchenginedevelopment.KeywordsSearchengine;architecture;developmenttrend目录摘要............................................................................................................................................1Abstract.....................................................................................................................................2前言............................................................................................................................................5第一章网络搜索引擎的产生..................................................................错误!未定义书签。1.1搜索引擎的概念..........................................................................错误!未定义书签。1.2搜索引擎的组成..........................................................................错误!未定义书签。1.3搜索引擎的发展历史..................................................................错误!未定义书签。1.4搜索引擎的分类..........................................................................错误!未定义书签。1.5几种主要的搜索引擎..................................................................错误!未定义书签。第二章网络搜索引擎的基本原理及技术..............................................错误!未定义书签。2.1基本要求.....................................................................................错误!未定义书签。2.2网页搜集.....................................................................................错误!未定义书签。2.3预处理.........................................................................................错误!未定义书签。2.3.1关键词的提取...................................................................错误!未定义书签。2.3.2重复或转载网页的消除..................................................错误!未定义书签。2.3.3链接分析..........................................................................错误!未定义书签。2.3.4网页重要程度的计算......................................................错误!未定义书签。2.4查询服务.....................................................................................错误!未定义书签。2.4.1查询方式和匹配..............................................................错误!未定义书签。2.4.2结果排序..........................................................................错误!未定义书签。2.4.3文档摘要..........................................................................错误!未定义书签。2.5体系结构.....................................................................................错误!未定义书签。第三章网络搜索引擎的未来发展趋势..........................错误!未定义书签。3.1搜索引擎的智能化......................................................................错误!未定义书签。3.2搜索引擎的个性化......................................................................错误!未定义书签。3.3搜索引擎新技术的使用..............................................................错误!未定义书签。3.3.1三级标题..........................................................................错误!未定义书签。3.3.2三级标题..........................................................................错误!未定义书签。3.3.3三级标题..........................................................................错误!未定义书签。3.4二级标题.....................................................................................错误!未定义书签。3.5二级标题.....................................................................................错误!未定义书签。结论............................................................................................................错误!未定义书签。参考文献....................................................................................................错误!未定义书签。致谢............................................................................................................错误!未定义书签。前言随着网络在人们生活中的普及,丰富多彩的网络资源给人们的生活、工作以及学习带来了极大的便捷.网络间接地将地理上的距离缩短,使我们可以随时随地了解来自世界各地的信息.信息的产生、传播、搜集与查询现代人最基本的活动之一,而网络是我们获取信息的最快捷的手段与工具.自1994年万维网(WorldWideWeb或记)出现,Internet中产生的信息量相当于人类过去100年产生的信息总量.网络信息的数量庞大、垃圾信息以及排列无序的干扰等都阻碍着人们更好的利用网络资源.这就促使人们要研究一种有效的收集信息的工具.使人们可以更快更方便的找到自己所需要的资料.在这种情况下各类搜索引擎应运而生.随着因特网的普及,网络用户的增多,搜索技术的多样化,研究搜索引擎的相关知识对帮助人们检索信息具有重要的现实意义.第一章网络搜索引擎的产生1.1搜索引擎的概念搜索引擎是由英文名SearchEngine直接翻译而来的,搜索引擎指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务.具体的说是通过一个机器人程序在Internet上不断地爬行,搜集网页信息;然后由索引器对信息进行理解、提取、组织和处理,建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,通过扫描每一篇文章中的每一个词,建立以词为单位的排序文件.检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率.对包含这