第二课笔记:搜索引擎基础知识和工作原理大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜这个网站,并从中总结了很多的经验和知识。今天要分享的是《搜索引擎基础知识和工作原理》,这是最基本的概念吧,第一部分:什么是搜索引擎?1,定义?官方定义:搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。百度和谷歌等是搜索引擎的代表。我的理解是:按照搜索引擎的搜索规则去设置目标网站的内容,等用户搜索的时候,能够更好的展现给用户想要的内容!这样的一个服务过程就是通过一个叫搜索引擎的工具去实现的!2,分类?(1)全文索引:从整个互联网中提取各个网站的信息(以网页文字为主),通过自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序建立起数据库,搜索结果直接从自身的数据库中调用。并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度。SEO应该对这类搜索引擎的研究重点是:关键词的匹配程度、出现的位置、频次、链接质量——因为:当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。(2)目录索引用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。目录索引中最具代表性是Yahoo、新浪分类目录搜索,hao123。(3)元搜索引擎(METASearchEngine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。(4)垂直搜索引擎是2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。精准度比较高!(5)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。(6)门户搜索引擎比如MSNSearch,特点是自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。(7)免费链接列表免费链接列表(FreeForAllLinks简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。总结:做SEO离不开搜索引擎,从某种意义上来说SEO就是在和搜索引擎博弈的过程!我们做SEO,虽然不需要会写代码,也不需要深入的了解搜索引擎的技术细节,但是对搜索引擎的一些基本常识还应该了解一下有利于我们的优化工作!只有了解了搜索引擎的这些基本概念,我们在做起网站优化来才能游刃有余!第二部分:搜索引擎的发展史如今互联网的发展速度,网络上的资源远远的超出了人类的想想和掌控,如果没有搜索引擎我们根本就找不到我们想要的东西!尤其是社交网络的发展,比如facebook,twitter,微博等,移动应用的火爆增长,无论是从使用人数,网站的流量看?还是社会的影响力远远的超过了雅虎,谷歌等曾经的这些互联网巨头!那说这些和SEO有什么关系呢?只要有网络的地方就有搜索,有搜索的地方就从在SEO!那么搜索引擎的发展史是什么样的?对我们做网站优化有什么需求和帮助呢?难道我们不了解搜索引擎的发展史就无法做好SEO吗?其实不是这样的,了解搜索引擎的发展史对我们做好网站优化会有更大的帮助!搜索引擎的发展史我在这里就不会详细的去讲解了,如果感兴趣的同学可以去搜索引擎直通车这个网站()上学习一下!下面就来看一下搜索引擎增长所带来的价值:这些数据能说明一下几个问题:(1),搜索市场还在如日中天的火速发着!对于做SEO的从在很大的机会和金矿(2)通过搜索引擎的增长,搜索引擎公司很大一部分收入都是来自于网络广告,其中SEM占的比例还很高,SEO是自然搜索排名。不需要话费很多钱就可以实现同样的价值;(3)其他的搜索也越来越亲近用户,SEO施展才华的地方多了起来!(4)通过不同平台的竞争,社会的关注,体质不断的健全,对今后做SEO的企业也是一个很好的福音!总结:通过搜索引擎的发展速度我们可以很容易的判断出SEO在未来的重要性!了解搜索引擎的发展历史有助于SEO优化人员能更深刻的理解SEM的发展和变革!这样也有利于我们能够很好的把握住未来的方向!只有与时代同步了,我们才能不断的进步!搜索引擎的发展速度之快。对SEO来说是好事,只要搜索的地方就会有排名,有排名就会用到SEO技术!我们要做的就是不断的去关注这些动态变化,以便能更好的发挥SEO的长处!大家都知道,互联网的发展速度不是一般的快!随着互联网的发展,搜索引擎的价值在不断的飙升着。你们为什么会用到这种搜索技术呢?是如何出现的呢?举个例子来说:我们的图书馆是藏书的宝地,当图书馆里面的书籍和文件随着时间不断增多的时候,就必然会出现一个问题,查找困难,管理也很困难,这时候该怎么办呢?通过目录管理,我们就可以对图书馆的所以文件实现规律性的管理,其实,我们的搜索引擎原理就是起源于这种传统的文件检索技术!那么搜索引擎真正的原理又是怎么一回事儿呢?我们继续往下看:第三部分:搜索引擎的工作原理:搜索引擎的工作原理大体上可以分为三个阶段:(1)爬行和抓取:就是搜索引擎蜘蛛通过跟踪链接地址访问网站页面,把获取到的网站页面html代码放入到自己的数据库当中。爬行和抓取是搜索引擎工作的第一步,主要是完成数据的收集任务;解释几个关键词:1,蜘蛛:(1)定义:我把他它叫做抓取网页数据时的执行者,其实它就是一个计算机程序,因为这个工作过程与现实中的蜘蛛很相像,专业内就称它为搜索引擎蜘蛛!(2)工作过程:蜘蛛程序向网站页面发出访问请求,服务器就会返回HTML代码,蜘蛛程序把收到的代码存入原始页面的数据库当中。蜘蛛访问任何一个网站时,都会最先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或者目录,蜘蛛将会遵守这些禁止协议,不抓取那些被禁止的网址。(3)常见的搜索引擎蜘蛛名称:百度蜘蛛、雅虎中国蜘蛛、Google蜘蛛、微软Bing蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等!2,跟踪链接大家都知道整个互联网是由相连接的网站页面组合成的!页面和页面之间是靠链接来联系的,搜索引擎能为了更快速的收集网站数据,就是通过搜索引擎蜘蛛去跟踪网站页面上的链接,从一个页面抓取到下一个页面!这个过程和蜘蛛在蜘蛛网上爬行一样!就这样蜘蛛可以快速的可以爬完整个互联网上的网站页面!根据网站链接结构的不同我们可以把蜘蛛的爬行路线分为两种:深度爬行和广度爬行A:深度爬行:蜘蛛沿着发现的页面链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另为一个链接再一直向前爬行!B:广度爬行:蜘蛛在一个页面上发现多个链接时,不顺着一个链接一直往前爬行,而是把页面上所有的第一层链接都爬行一遍,然后再继续沿着第二层页面上发现的链接爬向第三层页面!一直这样进行下去……所以,我们在做网站的时候,对网站的结构一定要有这两种布局,优化网站页面的时候也一定要做到两种链接布局!这样的结构是搜索引擎蜘蛛组喜欢的!3,定向优化技术勾引蜘蛛A:过读网站和页面的权重进行优化提高蜘蛛的来访次数。B:做好页面的跟新频率和内容的质量C:增加导入链接D:距离首页的点击距离;距离首页点击距离越近,页面权重越高,蜘蛛爬行的机会越大4,地址库,搜索引擎会建立一个存放页面的地址库,目的就是为了避免搜索引擎蜘蛛重复爬行和抓取网址,这个地址库里面有已经被抓取的页面,也有被发现后还没有被抓取的页面!这个地址库中的URL一定是蜘蛛抓取来的吗?答案是No有人工录入的种子网站地址,也有站长通过搜索引擎网页提交表格提交进去的网址!(百度网址提交地址:)另为需要注意的是:网址提交了,也不一定就能被收录,这看你提交页面的权重如何了!不过搜索引擎蜘蛛还是跟喜欢自己沿着链接去抓去页面!自己得来的更好吃!5,文件存储搜索引擎蜘蛛抓取来的页面就存放在这个原始页面数据库中!其中每个URL都有一个独特的文件编号!6,对复制内容的检测有很多站长曾经碰到过这样的问题:在网站页面中发现了蜘蛛来爬行过,但是页面没有被收录过,不知道什么回事!其实很简单,很有可能是蜘蛛在爬行你网页的时候发现了很多权重比较低的内容,比如:转载或者伪原创的内容是,蜘蛛就会离开!你的网页也就没有被收录!蜘蛛在爬行抓取页面内容的时候也会对其进行一定程度的复制内容检测!(2)预处理这个过程是指:索引程序对数据库里蜘蛛抓取来的网站页面进行处理,主要做文字提取,中文分词,索引等工作;这个过程是起到一个桥梁的作用,由于搜索引擎数据库中的数据实在是太多了,当用户在搜索框中输入关键词后不可能一下就返回排名结果吗,但是往往我们感觉很快,其实起到关键作用的就是预处理这个过程!和爬行抓取过程一样他也是在后台提前完成的!有些人认为预处理就是索引,其实不是这样的,索引只是预处理的一个主要步骤,那么什么是索引呢?索引是对数据库列表中的一列或者多列的值进行排序的一种结构!在索引之前要做五个工作:1,提取文字:我们知道蜘蛛抓取的是含有全部HTML代码的页面,这里面其实包含很多信息:有文字,有CSS属性,有大量的HTML格式标签,javascript程序!但是后面的两个是无法参与到排名内容中来的,也就是说除了文字之外其它的都给去掉了,这个过程就是去除过程,也叫提取文字的过程,即:提取出可以用于排名处理的网站页面文字内容!注意:搜索引擎除了提取出可见的文字外,还可以提出以下不可见的文字内容;比如:METa标签中的文字内容,图片替代文字,FLASH文件的替代文字,链接锚文字等!2,中文分词大家都知道中文句子和英文句子有一个不同的地方,不是字母和汉字的区别,而是,英文单词和单词之间是有空格分开的,中文句子里,字和字没有之间没有分隔符,一个句子中的词都是连在一起的!所以,这时候搜索引擎就必须先分辨一下哪几个字组成一个词,哪几个字本身就是一个词!比如:“波司登羽绒服”就将其分为“波司登”和“羽绒服”两个词;中文分词一般有两种方法:A:词典匹配:又分为正向和逆向匹配!B:根据搜索统计这两者往往混合使用!而且在百度和谷歌中分词的相关性有时候也不太一样,例如:搜索引擎优化,在百度中就是一个完整的词,而在谷歌中将其分成了“搜索”“引擎”“优化”三部分,所以在做优化的时候一定要注意选择的关键词的特点,后面我们会详细的讲解选词技巧。注意:如果我们非要让一个词组合在一起,不让搜索引擎的分词技术把它分开怎么办?我们可以这样做:在页面标题,h1标签,利用黑体表粗出现该关键词!这样就适当的去提醒了搜索引擎,搜索引擎就会知道我们这个词是一个组合就不会将其分开了!3,去停止词什么是停止词?就是在页面中出现次数比较多的,对内容没有实质性影响的那些词;比如:“的”,“得”“地”这些助词,“啊”“哈”“呀”等感叹词,“从而”“以”“却”等副词或者介词,这些词就被