深度学习SEO

289536597
1 ℃
2019-12-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1月28号，Nature杂志报道，Google旗下公司DeepMind（以前收购的）开发的一款名为AlphaGo的人工智能，在2015年10月份以5:0战胜欧洲围棋冠军，老职业二段樊麾。一石激起千层浪，人工智能最难战胜人类的最后一个游戏，失守了，人工智能已经达到职业围棋水平了。一时间，深度学习、机器学习、AlphaGo、神经网络等等这些概念铺天盖地。Google不是搜索引擎吗？这些东西和搜索，和SEO有什么关系？说说我的理解。先声明一下，下面涉及的深度学习等概念，很可能我的理解和表述是非常粗浅的，甚至是错误的。虽然我也是理工出身的，所学专业听起来还挺艰深，微波与电磁场，但那是25年前的事啦。现在看技术内容只能稀里糊涂了解个大概了。想了解准确细节的读者，还是网上搜一下比较保险。什么是深度学习？深度学习（deeplearning）是机器学习的（machinelearning）一个分支领域。多层人工神经网络（artificialneuralnetworks）模拟接近了人脑处理信息时从低层到高层不断抽象化的过程。深度学习正是将低层特征分层抽象化为高层特征表达，原来的目的就是模拟多层神经网络。神经网络研究几十年了，沉寂了一段时间，近几年深度学习才又挖掘出其潜力。深度学习的一个重要特点是，它不需要人工输入或标注特征，而是通过海量数据自动学习特征，也就是所谓无监督学习（unsupervisedlearning）。所以大数据和深度学习也搅合在一起。深度学习另一个特点是与具体领域无关（domainindependent），既可以用在围棋，也可以用在搜索或其他方面。所以才会有这篇帖子。Google、Facebook、百度在深度学习领域都有很多进展，尤其是在人脸识别、图像识别、语音识别、翻译等方面。这方面报道挺多的。深度学习用在搜索引擎上是个什么情况？以前经典的搜索排名算法是由工程师选择用哪些页面特征（也就是排名因素）来排名，各个特征占多少权重，这些都是工程师决定并写在程序里的，然后测试效果，再修正。以深度学习为基础的排名算法完全不是这么个过程。深度学习的方法是，用大量数据对程序进行训练，由程序自己学习应该用哪些特征来排名。换句话说，告诉深度学习排名算法，这些已知页面是高质量的，那些已知页面是低质量的，那到底高质量页面应该有什么特征呢？也就是面对新页面时该用哪些特征来排名？各种特征占多大比重？让算法自己琢磨去。这些学习数据哪里来的？两个明显的来源可能是：1）Google现有经典算法做测试时的数据。搜索引擎正式上线新算法前都会做测试的，给部分用户返回新算法结果，然后监测点击率、跳出率、停留时间、页面互动性、转化率、变换查询词率等数据，以判断新算法有效性。2）Google有不少人工质量评估员，而且老早就有，他们会评测特定页面是高质量还是低质量。这些评估数据不直接影响所评估页面的排名，但会显示出算法有效性。这些数据简直就是现成的深度学习训练数据。去年11月Google刚刚公开了最新版本的人工质量评估指南，建议大家下载来看看。现在问题来了，这种方法靠谱吗？如前所述，深度学习算法就是个黑箱啊，完全不用人工告诉它找什么特征，而是它自己学习该找什么特征，会找出什么特征谁也不知道，有些特征可能人类压根儿不会想到。很可能以后搜索引擎工程师也不知道排名因素有哪些了，也不知道一个页面为什么会有好的排名。再想一遍：连搜索引擎工程师也不知道排名因素是什么。这和我们的常识、直觉是不是都有相当冲突了呢？这么整，能行吗？事实恰恰表明，能行。AlphaGo能战胜围棋职业二段，乍看起来，职业二段离人类顶尖高手还有很大差距。可换个角度想，这世界上能达到职业二段的人类有几个？记得前些天看报道，能赢职业二段的人类不超过1千个。这种水平，可以快乐地完虐我们几十亿人。我打了5，6年羽毛球，我前几天刚刚9岁的女儿，在经过4个月每周一次的业余训练后，我要赢她必须很认真费劲了。这只是新加坡，只是一个业余教练，每周两个小时，我无法想象，我们普通爱好者与职业水平的差距那是有多大。站长、SEO们，少说这世界上大概得有个几百万吧？所以我们就是普通人。现在告诉我们，判断我们页面质量的算法，其判断力目前是所有人类的前1千名，年底可能是所有人类前10名。这是什么感觉？这是有点绝望的感觉－－就别想着钻空子啦。也许熊猫更新或企鹅更新就用了深度学习？深度学习真的有这么厉害吗？其实深度学习近两年已经取得不少以前不敢想象的成就。2012年，GoogleBrain项目使用大量图片对神经网络进行训练，系统经过训练后能辨别出：这是一只猫。重要的是，没有输入猫长什么样这类信息，是系统自己“领悟”了猫这个概念。2015年，深度学习算法的人脸识别率达到了99.47%，甚至超过了人眼。AlphaGo将在3月份挑战韩国九段、世界冠军李世石。虽然我基本不懂围棋，但乐观预测一下吧，我觉得AlphaGo会赢。原因是，半年过去了，AlphaGo的训练量又增加了几千万局棋谱，其棋力的增长不是线性的啊。深度学习对SEO意味着什么？就我个人来说，深度学习对SEO的影响目前还不明朗，还需要一段时间观察、思考。以后有想法了再来交流。现在需要做好心理准备，搜索引擎判断页面质量的准确度可能会有质的飞跃，钻空子的难度将大大提高。估计还是有做中文SEO的心里在问，这对百度SEO有卵用啊？多写写百度啊？那么请思考百度为什么花大价钱成立百度深度学习研究院？肯定不是闲的了。百度把深度学习领域最牛的人物之一、GoogleBrain项目创建人吴恩达都给挖来了。这个吴恩达高中还是在新加坡上的呢，莱佛士书院，第一名校。这里有吴恩达讲机器学习的近20小时的线上教程。有互联网真好，不然怎么能轻易看到、听到大师亲自讲课。最后来点阴谋论。就在今天，Google搜索的最高负责人，AmitSinghal，辞职了。几年前，他对排名算法中使用机器学习是有些排斥的。接替他的是谁呢？JohnGiannandrea，原Google人工智能部门的负责人。难道由工程师设计规则的算法已成过去，以深度学习为代表的人工智能算法要全面登上舞台了？