《电子商务应用》实验报告项目名称搜索引擎及SEO实验专业班级软件工程1307班学号3901130721姓名谭淇蔚实验成绩:批阅教师:2015年11月24日实验3《搜索引擎及SEO实验》实验学时:2实验地点:X204实验日期:2015年11月24日星期二一、实验目的研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。二、实验内容和方法1.研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;2.研究至少两种中文分词算法,了解其实现原理;3.研究至少两种网页正文提取算法,了解其实现原理;4.研究至少两种网页去重算法,了解其实现原理;5.研究Google的PageRank和MapReduce算法,了解它们的实现原理;6.使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:(1)网页标题(title)的优化;(2)选取合适的关键词并对关键词进行优化;(3)元标签的优化;(4)网站结构和URL的优化;(5)创建robots.txt文件,禁止蜘蛛抓取网站后台页面;(6)网页内部链接的优化;(7)Heading标签的优化;(8)图片优化;(9)网页减肥技术。7.使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】三、实验要求1.研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;2.研究两种中文分词算法,填写相应的表格,表格必须填写完整;3.研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;4.研究两种网页去重算法,填写相应的表格,表格必须填写完整;5.研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;6.提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;7.严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;8.使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1.通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;2.通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;3.通过使用搜索引擎并查阅相关资料,研究并整理两种网页正文提取算法的基本原理,填写相应的表格;4.通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;5.通过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;6.对实验二所设计的网站静态首页实施SEO;7.使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。五、实验结果1.研究几种常用的网络蜘蛛爬行策略并填写如下表格:策略名称基本原理参考资料深度优先策略广度优先策略网页选择策略重访策略并行策略注:参考资料格式如下:[1]developerWorks中国:Java设计模式.[2]阎宏.Java与模式.北京:电子工业出版社,2004.[3]于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计.计算机应用,2005,25(4).解:策略名称基本原理参考资料深度优先在深度优先搜[1]李耀华,杨海燕.论网络爬虫搜索策略[J].山西广播电视大学学报,2013,02:48-50.策略索中,针对最新发现的网页源顶点P,如果它还有以此为起点而尚未搜索到的路径,则沿此路径继续搜素下去。反之,如果当顶点P的所有路径均已经被搜索过,则回溯到初始点。这一搜索过程将一直持续到已发现的从源顶点P可达到的所有顶点为止。但是如果仍然存在未被发现的等等P‘,则继续选择其中一个作为源顶点并重复以上过程,最终实现所有顶点都被遍历。广度优先策略广度优先遍历策略,可理解为一种基于网络层次分析的遍历策略,是将网络划分成若干层次,其中,种子站点是[1]李志义.网络爬虫的优化策略探略[J].现代情报,2011,10:31-35.处于结构的最顶层。在遍历时,需要处理Web页之间的抓取优先级的问题,一般规定层次结构中层次越高,优先级也就越高;同一层次中,从左到右优先级依次降低。因此,如果只用一个网络爬虫进行遍历操作,那么就按不同层次之间先高后低的次序,以及同层次之间先左后右的次序进行。当然,也可以将多个网络爬虫设计成分布式的结构,它们分别负责其中一层或几层Web站点的遍历,这样不但技术实现的难度不高,而且可以较好地避免重复遍历Web页的现象。网页选择由于很大的搜[1]在线文档。所以,在爬取网页需要要求一个公共标准来区分网页的重要程度。一个页面的重要程度与它自身的质量有关,与按照链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索)有关。重访重访抓[1]在线文档,是最后一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间再来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新,一个月一次。并行策略一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度,同时尽量减少并行的开销和下载重复的页面。为了避免下载一个页面[1]在线文档,爬虫系统需要策略来处理爬虫运行时新发现的URL,因为同一个URL地址,可能被不同的爬虫进程抓到。2.研究两种中文分词算法并填写如下表格:算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于字符串匹配算法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。[1]龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009,10:2605-2607.基于理解的分词方法在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词[1]龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009,10:2605-2607.子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。3.研究两种网页正文提取算法并填写如下表格:算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于权值优化的网页正文内容提取算法提取出描述网页内容的文本块及相关链接的锚文本,简称主题块。通过对大量Web页面进行分析,发现网页通常由主题内容区和噪音(导航区和广告区)组成.这些区域具有各自[1]吴麒,陈兴蜀,谭骏.基于权值优化的网页正文内容提取算法[J].华南理工大学学报(自然科学版),2011,04:32-37.的一些特点:(1)主题内容区域一般含有较多文本文字,且包含逗号、句号等标点符号;(2)噪音区域(导航区域和广告区域)一般都由较多链接和少量文字组成,且不包含逗号、句号等标点符号;(3)这些区域通常依靠table、p、tr、div等标签来进行划分.首先将页面建立为一棵DOM树,然后对树进行预处理,再根据上述特点得出主题块的统计特性,然后再使用粒子群算法根据重要度的不同给各个特征赋予不同的权重,最后完成对网页主题块的识别.通过从训练集中提取网页正文内容具有的统计特征,再利用粒子群算法对特征权值及阈值进行优化,使得算法的性能得到进一步的提升.基于DBSCAN算法的网页正文提取算法首先对网页源文件进行预处理,去掉脚本代码后进行基于分段因子的HTML标签过滤,即以HTML标签符为单位,当纯文本后面出现的HTML标签符数目大于或等于分段因子就进行分段,否则用空格取代,进行文本合并,这种分段方式可以用正则表达式实现。预处理后得到的是净文本段,即每段只含纯文本。以段号作为横坐标,每段字符数作为纵坐标得到二维空间中的一个点,正文内容段的点与非正文[1]欧阳佳,林丕源.基于DBSCAN算法的网页正文提取[J].计算机工程,2011,03:64-66+69.内容段的点往往距离较远,而非正文段之间的距离往往较近。利用DBSCAN聚类算法对这些点进行聚类后得到文本内容。算法的具体步骤如下:第1步对点集(DataSet)进行计算,找出其中的核心点。点与点之间的空间距离用欧氏距离公式进行计算。第2步扫描一点,判断是否已经聚类,如果是,则跳过,否则进行第3步。第3步判断该点是否为核心点,只有核心点才能发起一次聚类,如果是核心点,给它一个新的类号,对它的下一个点进行判断,如果在它的领域内,则设置为相同的类。第4步下一个点还是核心点,则递归进行处理。直到所有点处理完。4.研究两种网页去重算法并填写如下表格:算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于特征串的大规模中文网页快速去重算法(1)网页的文本提取采用两遍扫描来提取网页文本。第一遍扫描,利用HTML语言或XML语言的标记提出文本的标题,过滤掉无关的标记和超链接,并进行一些必要转换。在过滤时保留必要的占位符和[1]吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,02:28-35.文本的结构信息和一些半结构化信息。第二遍扫描,利用文本的结构信息、标点、和一些必要的模板提出网页的文本内容,保留段落信息。至此,已把网页文本提出。(2)特征串的抽取采用“自然语句分隔标志”(简称为分隔标志)将文本切成若干“句子”,从“句子”中抽取若干字符或汉字作特征码,然后按照“句子”在文本中的顺序把特征码连接起来构成特征串。由于把文本看作字符流且不需保留语义信息,所以分隔标志可以是任何符号,但为保持“句子”划分的均匀性,通常采用高频字符,如“。”、“?”和“的”等。这样得到的特征串只保留了文本内容(特征码内容)和结构(“句子”的顺序)信息。在抽取特征码时可依据具体需要设定抽取的字符或汉字个数,本文在“句子”的两端分别抽取相等的字符或汉字作为特征码。(3)重复度评价函数的设计使用精确的特征码匹