世纪对弈――AlphaGo的胜利？

xiaohei4444
3 ℃
2020-07-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

世纪对弈——AlphaGo围棋胜利的深度透视事件的最初与发展背景研究者让“阿尔法围棋”和其他的围棋人工智能机器人进行了较量，在总计495局中只输了一局，胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人，胜率分别是77%、86%和99%。事件的最初与发展背景据国际顶尖期刊《自然》封面文章报道，谷歌研究者开发的名为“阿尔法围棋”（AlphaGo）的人工智能机器人，在没有任何让子的情况下，以5:0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域，实现了一次史无前例的突破。计算机程序能在不让子的情况下，在完整的围棋游戏中击败专业选手，这是第一次。事件的最初与发展背景2016年李世石VSAlphaGo比赛成绩表AlphaGo李世石3月09日103月10日103月12日103月13日013月15日阿尔法围棋程序的下一个挑战对象是世界围棋冠军李世石。这场人工智能与人类的博弈于2016年3月9日在首尔举行，奖金是由Google提供的100万美金。[2-5]2016年3月12日，“AlphaGo”与韩国14冠高手李世石之间的人机大战第三局中，李世石没能挽回赛点，执黑中盘再次失利，在五番棋的较量中总比分0-3落败，错失百万美元奖金。[7]2016年3月13日，谷歌人工智能“阿尔法围棋”(AlphaGo)与韩国棋手李世石继续进行第四场较量，经过4个多小时的比赛，最终李世石战胜AlphaGo迎来首胜，终结三连败的同时将比分扳成以1:3。[8]3月9第一局李世石认输[9]3月10第二局李世石认输[10]3月12第三局李世石认输[11]3月13第四局李世石胜[12]经过，选手资料，AlphaGo的诞生阿尔法围棋（AlphaGo）是一款围棋人工智能程序，由位于英国伦敦的谷歌（Google）旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发，这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子。2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾；2016年3月对战世界围棋冠军、职业九段选手李世石。[1]经过，选手资料，AlphaGo的诞生【赛前】自信“AI连1%的取胜机会都没有”去年，AI专家预计电脑要打败职业围棋手还需要10年，但去年10月，AlphaGo就以5：0击败了欧洲围棋冠军樊麾，震惊棋界。但即便如此，当众高手知晓AlphaGo要挑战李世石时，仍不以为然。“只能说李世石运气太好了”，有着强烈自信的95后天才少年柯洁，赛前彻底看好人类获胜，“计算机战胜李世石的可能性不到百分之五。”和李世石交战多年的好友古力则表示：“赢李世石1%的可能性都没有”。上述两人代表了棋界的普遍观点，其实连AlphaGo的研发团队，都摸不准AI能表现出什么水平。“如果你问一个伟大棋手如何决定落子位置的，他经常会告诉你‘我觉得那样比较正确’，但这是计算机不擅长的。”研发团队坦言，AI虽然有强大的计算能力，但在大的方面仍处劣势。经过，选手资料，AlphaGo的诞生【赛前】自信“AI连1%的取胜机会都没有”去年，AI专家预计电脑要打败职业围棋手还需要10年，但去年10月，AlphaGo就以5：0击败了欧洲围棋冠军樊麾，震惊棋界。但即便如此，当众高手知晓AlphaGo要挑战李世石时，仍不以为然。“只能说李世石运气太好了”，有着强烈自信的95后天才少年柯洁，赛前彻底看好人类获胜，“计算机战胜李世石的可能性不到百分之五。”和李世石交战多年的好友古力则表示：“赢李世石1%的可能性都没有”。上述两人代表了棋界的普遍观点，其实连AlphaGo的研发团队，都摸不准AI能表现出什么水平。“如果你问一个伟大棋手如何决定落子位置的，他经常会告诉你‘我觉得那样比较正确’，但这是计算机不擅长的。”研发团队坦言，AI虽然有强大的计算能力，但在大的方面仍处劣势。经过，选手资料，AlphaGo的诞生【第一局赛后】震惊“李世石仍有五成胜率”3月9日，首战打响，全球瞩目。在全球一亿人注视下，四个小时后，李世石执黑投子认输，让人措手不及。人们开始震惊：新的时代真的到来了？李世石首局本有取胜机会，开局阶段他占据优势，可惜李世石随后的棋路趋于保守，并在长时间比赛后出现失误。人会疲惫，人会失误，但电脑不会，AlphaGo抓住机会疯狂反击，李世石最终在局面大好时遭到逆转。正是因为自身失误和情绪波动的原因导致落败，这让包括李世石在内的绝大多数棋界人士，对接下来的比赛保持乐观。“后面的棋我胜算还是会很大吧，胜算会是五成吧。”李世石表示。柯洁也跳出来向AlphaGo宣战：“就算阿法狗战胜了李世石，但它赢不了我！”经过，选手资料，AlphaGo的诞生【第二局赛后】怀疑“有不能打劫的保密协议？”第二局，李世石再次落败。但人们发现奇怪的一点：AlphaGo为何从不打劫？除了和李世石的两局，AlphaGo此前5：0零封欧洲围棋冠军樊麾的比赛里，也没有打劫。同样，李世石也没有打劫。网友提出疑问：是否存在秘密协议，规定不能打劫？对于这个质疑，AlphaGo的开发团队表示，根本不存在这个所谓的秘密协议。他们也想知道，AlphaGo在对阵李世石这种高手打劫时的表现。两局下来，人们对AI的力量有了更深刻的认识。如果说第一局AlphaGo的一些落子还有待商榷，那么在第二局中，AlphaGo不但几乎没有破绽，而且有了超出人类棋手理解范围的出招，这让古力都感叹“我们要向它学习了！”柯洁也不像之前那么高调：“虽有信心，但不能保证稳赢。”经过，选手资料，AlphaGo的诞生【第三局赛后】服气“5个九段一起上或许能赢”第二局结束后，李世石与几位好友进行了通宵复盘研究，寻找对付AlphaGo的策略，最终大家得出共同的结论：要想取胜，必须靠打劫等复杂下法才有机会获胜。可是，AlphaGo也在不停进步，这让它在第三局展现出了更强大的棋力。对弈中，李世石左下角“故意”选择了一个可能留下打劫的变化，而AlphaGo在最后的较量中，实现了主动打劫和提劫，这也让此前盛传的阴谋论不攻自破。可怕的是，AlphaGo劫争时表现得几乎无懈可击，让李世石招架得十分辛苦。三局之后，按照古力的估算，人类若要打败AlphaGo需要组团作战。“即使柯洁出场也下不过”，古力认为，如果顶尖棋手组团作战，把失误降到最低，或许有希望获胜：“至少得5个九段！”（来源：重庆晨报）经过，选手资料，AlphaGo的诞生李世石出现“神之一手”第四局战胜AlphaGo13日下午，谷歌人工智能“阿尔法围棋”(AlphaGo)与韩国棋手李世石继续在韩国首尔钟路区四季酒店进行第四场较量，经过4个多小时的比赛，最终李世石战胜AlphaGo迎来首胜，终结三连败的同时将比分扳成以1:3。细节，舆论，名字由来DemisHassabis为DeepMind共同创办人暨执行长，DeepMind作为受神经科学启发的人工智能公司，于2014年1月被Google收购，传闻收购金额达4亿美元，成为迄今最庞大的欧洲收购案。1Demis目前担任GoogleDeepMind的工程部副总，带领Google团队积极投入人工智能的研发。Demis小时候是一个国际象棋神童，仅仅13岁棋艺已达大师等级。当时Demis的棋艺仅次于国际特级大师波尔加•朱迪(PolgárJudit),为世界段位第二高的棋手。在提前两年完成A-Level考试之前，17岁的Demis已编写好了销售超过数百万的“主题公园”(ThemePark)模拟游戏。谈到开发AlphaGO的初衷，DeepMind执行长DemisHassabis提到他小时候很喜欢国际象棋，到了大学时期跟朋友疯狂玩围棋，那时候用的就是IBM开发的深蓝，那时候就觉得要开发一个可以学习下棋的机器。因此这个概念从20年前就有了，但是直到两年前才开始做。目前AlphaGO的开发团队一共有9个人，3个人是Google内部员工、3个人是DeepMind、另外三位则是业界人士，而之所以会从中国的围棋出发，DemisHassabis表示，是因为中国的规则让电脑比较容易懂、容易吸收。而AlphaGO以一套名为“蒙特卡罗”的运算技术为基础，搭配类神经网路，从世界棋手、人类专家的技术细节，进行像是象棋、围棋等棋局对弈的研究，然后通过两个阶段的机器学习，第一段是人工喂资料给电脑去运算，第二阶段是给予电脑在比赛过程中去学习的程序，不管是赢还是输，每次比赛过程都会把经验学进去。这个第二阶段采用的技术，叫做类神经网络，主要是通过云端运算的方式，进行深度学习，然后进行“策略网络(Policynetwork)”与“价值网络(Valuenetwork)”的分析，程序就像人类的大脑一般，会有自己的思考模式，这也是为什么AlphaGO可以持续进化。AlphaGo的算法秘密阿尔法围棋（AlphaGo）是一款围棋人工智能程序。这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子。深度学习阿尔法围棋（AlphaGo）的主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。AlphaGo的算法秘密两个大脑阿尔法围棋（AlphaGo）是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。这些网络通过反复训练来检查结果，再去校对调整参数，去让下次执行更好。这个处理器有大量的随机性元素，所以人们是不可能精确知道网络是如何“思考”的，但更多的训练后能让它进化到更好。AlphaGo的算法秘密第一大脑：落子选择器（MovePicker）阿尔法围棋（AlphaGo）的第一个神经网络大脑是“监督学习的策略网络（PolicyNetwork）”，观察棋盘布局企图找到最佳的下一步。事实上，它预测每一个合法下一步的最佳概率，那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。AlphaGo的算法秘密第二大脑：棋局评估器（PositionEvaluator）阿尔法围棋（AlphaGo）的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步，它预测每一个棋手赢棋的可能，在给定棋子位置情况下。这“局面评估器”就是“价值网络（ValueNetwork）”，通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的，但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”，AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行，那么AI就跳过阅读在这一条线上的任何更多落子。[2-6]