黑帽seo搜索引擎优化详细介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《这就是黑帽seo搜索引擎优化:核心技术详解》适合所有对黑帽seo搜索引擎优化技术感兴趣的人们,尤其对于相关领域的学生、对黑帽seo搜索引擎优化核心技术感到好奇的技术人员、从事黑帽seo搜索引擎优化优化的相关人员及中小网站站长等更有参考价值。黑帽seo搜索引擎优化作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。黑帽seo搜索引擎优化领域也是互联网应用中不多见的以核心技术作为其命脉的领域,黑帽seo搜索引擎优化各个子系统是如何设计的?这成为广大技术人员和黑帽seo搜索引擎优化优化人员密切关注的内容。《这就是黑帽seo搜索引擎优化:核心技术详解》的最大特点是内容新颖全面而又通俗易懂。对于实际(黑帽seo)搜索引擎优化所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际黑帽seo搜索引擎优化必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注黑帽seo搜索引擎优化发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境搜索等黑帽seo搜索引擎优化的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来黑帽seo搜索引擎优化的核心技术理解起来比原先想象的要简单得多。目录第1章黑帽seo搜索引擎优化及其技术架构1.1黑帽seo搜索引擎优化为何重要1.1.1互联网的发展1.1.2商业黑帽seo搜索引擎优化公司的发展1.1.3黑帽seo搜索引擎优化的重要地位1.2黑帽seo搜索引擎优化技术发展史1.2.1史前时代:分类目录的一代1.2.2第一代:文本检索的一代1.2.3第二代:链接分析的一代1.2.4第三代:用户中心的一代1.3黑帽seo搜索引擎优化的3个目标1.4黑帽seo搜索引擎优化的3个核心问题1.4.13个核心问题1.4.2与技术发展的关系1.5黑帽seo搜索引擎优化的技术架构第2章网络爬虫2.1通用爬虫框架2.2优秀爬虫的特性2.3爬虫质量的评价标准2.4抓取策略2.4.1宽度优先遍历策略(BreathFirst)2.4.2非完全PageRank策略(PartialPageRank)2.4.3OCIP策略(OnlinePageImportanceComputation)2.4.4黑帽seo视频教程网页更新策略2.5.1历史参考策略2.5.2用户体验策略2.5.3聚类抽样策略2.6暗网抓取(DeepWebCrawling)2.6.1查询组合问题2.6.2文本框填写问题2.7分布式爬虫2.7.1主从式分布爬虫(Master-Slave)2.7.2对等式分布爬虫(PeertoPeer)本章提要本章参考文献第3章黑帽seo搜索引擎优化索引3.1索引基础3.1.1单词-文档矩阵3.1.2倒排索引基本概念3.1.3倒排索引简单实例3.2单词词典3.2.1哈希加链表3.2.2树形结构3.3倒排列表(PostingList)3.4建立索引3.4.1两遍文档遍历法(2-PassIn-MemoryInversion)3.4.2排序法(Sort-basedInversion)3.4.3归并法(Merge-basedInversion)3.5动态索引3.6索引更新策略3.6.1完全重建策略(CompleteRe-Build)3.6.2再合并策略(Re-Merge)3.6.3原地更新策略(In-Place)3.6.4混合策略(Hybrid)3.7查询处理3.7.1一次一文档(DocataTime)3.7.2一次一单词(TermataTime)3.7.3跳跃指针(SkipPointers)3.8多字段索引3.8.1多索引方式3.8.2倒排列表方式3.8.3扩展列表方式(ExtentList)3.9短语查询3.9.1位置信息索引(PositionIndex)3.9.2双词索引(NextwordIndex)3.9.3短语索引(PhraseIndex)3.9.4混合方法3.10分布式索引(ParallelIndexing)3.10.1按文档划分(DocumentPartitioning)3.10.2按单词划分(TermPartitioning)3.10.3两种方案的比较本章提要本章参考文献第4章索引压缩4.1词典压缩4.2倒排列表压缩算法4.2.1评价索引压缩算法的指标4.2.2一元编码与二进制编码4.2.3EliasGamma算法与EliasDelta算法4.2.4Golomb算法与Rice算法4.2.5变长字节算法(VariableByte)4.2.6SimpleX系列算法4.2.7PForDelta算法4.3文档编号重排序(DocIDReordering)4.4静态索引裁剪(StaticIndexPruning)4.4.1以单词为中心的索引裁剪4.4.2以文档为中心的索引裁剪本章提要本章参考文献第5章检索模型与搜索排序5.1布尔模型(BooleanModel)5.2向量空间模型(VectorSpaceModel)5.2.1文档表示5.2.2相似性计算5.2.3特征权重计算5.3概率检索模型5.3.1概率排序原理5.3.2二元独立模型(BinaryIndependentModel)5.3.3BM25模型5.3.4BM25F模型5.4语言模型方法5.5机器学习排序(LearningtoRank)5.5.1机器学习排序的基本思路5.5.2单文档方法(PointWiseApproach)5.5.3文档对方法(PairWiseApproach)5.5.4文档列表方法(ListWiseApproach)5.6检索质量评价标准5.6.1精确率与召回率5.6.2P@10指标5.6.3MAP指标(MeanAveragePrecision)本章提要本章参考文献第6章链接分析6.1Web图6.2两个概念模型及算法之间的关系6.2.1随机游走模型(RandomSurferModel)6.2.2子集传播模型6.2.3链接分析算法之间的关系6.3PageRank算法6.3.1从入链数量到PageRank6.3.2PageRank计算6.3.3链接陷阱(LinkSink)与远程跳转(Teleporting)6.4HITS算法(HypertextInducedTopicSelection)6.4.1Hub页面与Authority页面6.4.2相互增强关系6.4.3HITS算法6.4.4HITS算法存在的问题6.4.5HITS算法与PageRank算法比较6.5SALSA算法6.5.1确定计算对象集合6.5.2链接关系传播6.5.3Authority权值计算6.6主题敏感PageRank(TopicSensitivePageRank)6.6.1主题敏感PageRank与PageRank的差异6.6.2主题敏感PageRank计算流程6.6.3利用主题敏感PageRank构造个性化搜索6.7Hilltop算法6.7.1Hilltop算法的一些基本定义6.7.2Hilltop算法6.8其他改进算法6.8.1智能游走模型(IntelligentSurferModel)6.8.2偏置游走模型(BiasedSurferModel)6.8.3PHITS算法(ProbabilityAnalogyofHITS)6.8.4BFS算法(BackwardForwardStep)本章提要本章参考文献第7章云存储与云计算7.1云存储与云计算概述7.1.1基本假设7.1.2理论基础7.1.3数据模型7.1.4基本问题7.1.5Google的云存储与云计算架构7.2Google文件系统(GFS)7.2.1GFS设计原则7.2.2GFS整体架构7.2.3GFS主控服务器7.2.4系统交互行为7.3Chubby锁服务7.4BigTable7.4.1BigTable的数据模型7.4.2BigTable整体结构7.4.3BigTable的管理数据7.4.4主控服务器(MasterServer)7.4.5子表服务器(TabletServer)7.5Megastore系统7.5.1实体群组切分7.5.2数据模型7.5.3数据读写与备份7.6Map/Reduce云计算模型7.6.1计算模型7.6.2整体逻辑流程7.6.3应用示例7.7咖啡因系统--Percolator7.7.1事务支持7.7.2观察/通知体系结构7.8Pregel图计算模型7.9Dynomo云存储系统7.9.1数据划分算法(PartitioningAlgorithm)7.9.2数据备份(Replication)7.9.3数据读写7.9.4数据版本控制7.10PNUTS云存储系统7.10.1PNUTS整体架构7.10.2存储单元7.10.3子表控制器与数据路由器7.10.4雅虎消息代理7.10.5数据一致性7.11HayStack存储系统7.11.1HayStack整体架构7.11.2目录服务7.11.3HayStack缓存7.11.4HayStack存储系统本章提要本章参考文献第8章网页反作弊8.1内容作弊8.1.1常见内容作弊手段8.1.2内容农场(ContentFarm)8.2链接作弊8.3页面隐藏作弊8.4Web2.0作弊方法8.5反作弊技术的整体思路8.5.1信任传播模型8.5.2不信任传播模型8.5.3异常发现模型8.6通用链接反作弊方法8.6.1TrustRank算法8.6.2BadRank算法8.6.3SpamRank8.7专用链接反作弊技术8.7.1识别链接农场8.7.2识别Google轰炸8.8识别内容作弊8.9反隐藏作弊8.9.1识别页面隐藏8.9.2识别网页重定向8.10黑帽seo搜索引擎优化反作弊综合框架本章提要本章参考文献第9章用户查询意图分析9.1搜索行为及其意图9.1.1用户搜索行为9.1.2用户搜索意图分类9.2搜索日志挖掘9.2.1查询会话(QuerySession)9.2.2点击图(ClickGraph)9.2.3查询图(QueryGraph)9.3相关搜索9.3.1基于查询会话的方法9.3.2基于点击图的方法9.4查询纠错9.4.1编辑距离(EditDistance)9.4.2噪声信道模型(NoiseChannelModel)本章提要本章参考文献第10章网页去重10.1通用去重算法框架10.2Shingling算法10.3I-Match算法10.4SimHash算法10.4.1文档指纹计算10.4.2相似文档查找10.5SpotSig算法10.5.1特征抽取10.5.2相似文档查找本章提要本章参考文献第11章黑帽seo搜索引擎优化缓存机制11.1黑帽seo搜索引擎优化缓存系统架构11.2缓存对象11.3缓存结构11.4缓存淘汰策略(EvictPolicy)11.4.1动态策略11.4.2混合策略11.5缓存更新策略(RefreshPolicy)本章提要本章参考文献第12章黑帽seo搜索引擎优化发展趋势12.1个性化搜索12.2社会化搜索12.3实时搜索12.4移动搜索12.5地理位置感知搜索12.6跨语言搜索12.7多媒体搜索12.8情境搜索互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是以技术见长的互联网产品比例相对小些。黑帽seo搜索引擎优化是目前互联网产品中最具技术含量的产品,如果不是唯一,至少也是其中之一。经过十几年的发展,黑帽seo搜索引擎优化已经成为互联网的重要入口之一,Twitter联合创

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功