搜索引擎的技术架构

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

搜索引擎的技术架构By:觉白极客SEO之搜索引擎算法系列因为了解,所以才能做的更好搜索引擎真的这么简单?答案是,NO!我们要透过现象看本质,不要被搜索引擎简单的外表所欺骗。事实上,搜索引擎已经成为互联网应用中最具技术含量的应用之一。优秀的搜索引擎需要复杂的架构和算法,以此来支撑对数以百亿计的海量数据获取、存储,以及对用户查询的快速而准确的响应。那么接下来,我们从两个方面来学习下搜索引擎的技术架构。第一部分搜索引擎如何获取并存储海量的数据首先,应该讲到的是爬虫。因为搜索引擎的信息来源于互联网网页,通过网络爬虫将整个互联网信息获取到本地。其次,“网页去重”。我们把互联网信息获取到本地后,由于互联网上有些信息是完全相同的或者近似重复的,因此就需要网页去重模块对此作出检测,并去除重复内容。在此之后,搜索引擎会对网页进行解析,抽取出网页主体内容,以及页面中包含的其他页面链接。之所以保存链接,是因为这种链接关系在网页相关性排序阶段是可以利用的,通过“链接分析”可以判断出页面的相对重要性。最后,因为网页的数量太多,搜素引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,使用少量的机器明显是不现实的,因此搜索引擎开发了一整套的云存储与云计算平台。回顾刚才所学到的是搜索引擎如何获取并存储海量的网页相关信息,这些功能因为不需要实时计算,所以可以被看成搜索引擎的后台计算系统。而搜索引擎的最重要的目的是为用户提供准确全面的搜索结果,如何响应用户查询并实时的提供准确结果构成了搜索引擎前台计算系统。第二部分搜索引擎的前台计算系统当搜索引擎接收到用户的查询词后,首先应该是对查询词进行分析,希望能够结合查询词和用户信息来正确推到的真正搜索意图。其次,搜索引擎缓存系统。在分析完用户查询词的搜索意图后,那么首先会在缓存中查找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能在缓存系统中找到满足用户需求的信息,可以直接将搜索结果返回给用户。那么如果没有找到,搜索引擎将调用“网页排序”模块功能,根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜素结果。而排序的重要参考因素就是,一个是相关性因素,另外一个是网页重要性因素。反作弊模块除了我们刚才所学到的模块,搜索引擎的“反作弊”模块也是非常重要的。因为搜素引擎作为互联网用户的上网入口,对网络流量的引导至关重要,甚至可以说起到了至关重要的作用。于是,各种“作弊”方式就流行起来了,通过各种手段将网页的搜索排名提高到与其网页质量不相称的位置,这严重的影响了用户的搜索体验。因此,反作弊模块是必不可少的。搜索引擎架构示意图及总结结束语谢谢大家的观看!

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功