世纪对弈——AlphaGo围棋胜利的深度透视事件的最初与发展背景研究者让“阿尔法围棋”和其他的围棋人工智能机器人进行了较量,在总计495局中只输了一局,胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人,胜率分别是77%、86%和99%。事件的最初与发展背景据国际顶尖期刊《自然》封面文章报道,谷歌研究者开发的名为“阿尔法围棋”(AlphaGo)的人工智能机器人,在没有任何让子的情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域,实现了一次史无前例的突破。计算机程序能在不让子的情况下,在完整的围棋游戏中击败专业选手,这是第一次。事件的最初与发展背景2016年李世石VSAlphaGo比赛成绩表AlphaGo李世石3月09日103月10日103月12日103月13日013月15日阿尔法围棋程序的下一个挑战对象是世界围棋冠军李世石。这场人工智能与人类的博弈于2016年3月9日在首尔举行,奖金是由Google提供的100万美金。[2-5]2016年3月12日,“AlphaGo”与韩国14冠高手李世石之间的人机大战第三局中,李世石没能挽回赛点,执黑中盘再次失利,在五番棋的较量中总比分0-3落败,错失百万美元奖金。[7]2016年3月13日,谷歌人工智能“阿尔法围棋”(AlphaGo)与韩国棋手李世石继续进行第四场较量,经过4个多小时的比赛,最终李世石战胜AlphaGo迎来首胜,终结三连败的同时将比分扳成以1:3。[8]3月9第一局李世石认输[9]3月10第二局李世石认输[10]3月12第三局李世石认输[11]3月13第四局李世石胜[12]经过,选手资料,AlphaGo的诞生阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾;2016年3月对战世界围棋冠军、职业九段选手李世石。[1]经过,选手资料,AlphaGo的诞生【赛前】自信“AI连1%的取胜机会都没有”去年,AI专家预计电脑要打败职业围棋手还需要10年,但去年10月,AlphaGo就以5:0击败了欧洲围棋冠军樊麾,震惊棋界。但即便如此,当众高手知晓AlphaGo要挑战李世石时,仍不以为然。“只能说李世石运气太好了”,有着强烈自信的95后天才少年柯洁,赛前彻底看好人类获胜,“计算机战胜李世石的可能性不到百分之五。”和李世石交战多年的好友古力则表示:“赢李世石1%的可能性都没有”。上述两人代表了棋界的普遍观点,其实连AlphaGo的研发团队,都摸不准AI能表现出什么水平。“如果你问一个伟大棋手如何决定落子位置的,他经常会告诉你‘我觉得那样比较正确’,但这是计算机不擅长的。”研发团队坦言,AI虽然有强大的计算能力,但在大的方面仍处劣势。经过,选手资料,AlphaGo的诞生【赛前】自信“AI连1%的取胜机会都没有”去年,AI专家预计电脑要打败职业围棋手还需要10年,但去年10月,AlphaGo就以5:0击败了欧洲围棋冠军樊麾,震惊棋界。但即便如此,当众高手知晓AlphaGo要挑战李世石时,仍不以为然。“只能说李世石运气太好了”,有着强烈自信的95后天才少年柯洁,赛前彻底看好人类获胜,“计算机战胜李世石的可能性不到百分之五。”和李世石交战多年的好友古力则表示:“赢李世石1%的可能性都没有”。上述两人代表了棋界的普遍观点,其实连AlphaGo的研发团队,都摸不准AI能表现出什么水平。“如果你问一个伟大棋手如何决定落子位置的,他经常会告诉你‘我觉得那样比较正确’,但这是计算机不擅长的。”研发团队坦言,AI虽然有强大的计算能力,但在大的方面仍处劣势。经过,选手资料,AlphaGo的诞生【第一局赛后】震惊“李世石仍有五成胜率”3月9日,首战打响,全球瞩目。在全球一亿人注视下,四个小时后,李世石执黑投子认输,让人措手不及。人们开始震惊:新的时代真的到来了?李世石首局本有取胜机会,开局阶段他占据优势,可惜李世石随后的棋路趋于保守,并在长时间比赛后出现失误。人会疲惫,人会失误,但电脑不会,AlphaGo抓住机会疯狂反击,李世石最终在局面大好时遭到逆转。正是因为自身失误和情绪波动的原因导致落败,这让包括李世石在内的绝大多数棋界人士,对接下来的比赛保持乐观。“后面的棋我胜算还是会很大吧,胜算会是五成吧。”李世石表示。柯洁也跳出来向AlphaGo宣战:“就算阿法狗战胜了李世石,但它赢不了我!”经过,选手资料,AlphaGo的诞生【第二局赛后】怀疑“有不能打劫的保密协议?”第二局,李世石再次落败。但人们发现奇怪的一点:AlphaGo为何从不打劫?除了和李世石的两局,AlphaGo此前5:0零封欧洲围棋冠军樊麾的比赛里,也没有打劫。同样,李世石也没有打劫。网友提出疑问:是否存在秘密协议,规定不能打劫?对于这个质疑,AlphaGo的开发团队表示,根本不存在这个所谓的秘密协议。他们也想知道,AlphaGo在对阵李世石这种高手打劫时的表现。两局下来,人们对AI的力量有了更深刻的认识。如果说第一局AlphaGo的一些落子还有待商榷,那么在第二局中,AlphaGo不但几乎没有破绽,而且有了超出人类棋手理解范围的出招,这让古力都感叹“我们要向它学习了!”柯洁也不像之前那么高调:“虽有信心,但不能保证稳赢。”经过,选手资料,AlphaGo的诞生【第三局赛后】服气“5个九段一起上或许能赢”第二局结束后,李世石与几位好友进行了通宵复盘研究,寻找对付AlphaGo的策略,最终大家得出共同的结论:要想取胜,必须靠打劫等复杂下法才有机会获胜。可是,AlphaGo也在不停进步,这让它在第三局展现出了更强大的棋力。对弈中,李世石左下角“故意”选择了一个可能留下打劫的变化,而AlphaGo在最后的较量中,实现了主动打劫和提劫,这也让此前盛传的阴谋论不攻自破。可怕的是,AlphaGo劫争时表现得几乎无懈可击,让李世石招架得十分辛苦。三局之后,按照古力的估算,人类若要打败AlphaGo需要组团作战。“即使柯洁出场也下不过”,古力认为,如果顶尖棋手组团作战,把失误降到最低,或许有希望获胜:“至少得5个九段!”(来源:重庆晨报)经过,选手资料,AlphaGo的诞生李世石出现“神之一手”第四局战胜AlphaGo13日下午,谷歌人工智能“阿尔法围棋”(AlphaGo)与韩国棋手李世石继续在韩国首尔钟路区四季酒店进行第四场较量,经过4个多小时的比赛,最终李世石战胜AlphaGo迎来首胜,终结三连败的同时将比分扳成以1:3。细节,舆论,名字由来DemisHassabis为DeepMind共同创办人暨执行长,DeepMind作为受神经科学启发的人工智能公司,于2014年1月被Google收购,传闻收购金额达4亿美元,成为迄今最庞大的欧洲收购案。1Demis目前担任GoogleDeepMind的工程部副总,带领Google团队积极投入人工智能的研发。Demis小时候是一个国际象棋神童,仅仅13岁棋艺已达大师等级。当时Demis的棋艺仅次于国际特级大师波尔加•朱迪(PolgárJudit),为世界段位第二高的棋手。在提前两年完成A-Level考试之前,17岁的Demis已编写好了销售超过数百万的“主题公园”(ThemePark)模拟游戏。谈到开发AlphaGO的初衷,DeepMind执行长DemisHassabis提到他小时候很喜欢国际象棋,到了大学时期跟朋友疯狂玩围棋,那时候用的就是IBM开发的深蓝,那时候就觉得要开发一个可以学习下棋的机器。因此这个概念从20年前就有了,但是直到两年前才开始做。目前AlphaGO的开发团队一共有9个人,3个人是Google内部员工、3个人是DeepMind、另外三位则是业界人士,而之所以会从中国的围棋出发,DemisHassabis表示,是因为中国的规则让电脑比较容易懂、容易吸收。而AlphaGO以一套名为“蒙特卡罗”的运算技术为基础,搭配类神经网路,从世界棋手、人类专家的技术细节,进行像是象棋、围棋等棋局对弈的研究,然后通过两个阶段的机器学习,第一段是人工喂资料给电脑去运算,第二阶段是给予电脑在比赛过程中去学习的程序,不管是赢还是输,每次比赛过程都会把经验学进去。这个第二阶段采用的技术,叫做类神经网络,主要是通过云端运算的方式,进行深度学习,然后进行“策略网络(Policynetwork)”与“价值网络(Valuenetwork)”的分析,程序就像人类的大脑一般,会有自己的思考模式,这也是为什么AlphaGO可以持续进化。AlphaGo的算法秘密阿尔法围棋(AlphaGo)是一款围棋人工智能程序。这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。深度学习阿尔法围棋(AlphaGo)的主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。AlphaGo的算法秘密两个大脑阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。AlphaGo的算法秘密第一大脑:落子选择器(MovePicker)阿尔法围棋(AlphaGo)的第一个神经网络大脑是“监督学习的策略网络(PolicyNetwork)”,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。AlphaGo的算法秘密第二大脑:棋局评估器(PositionEvaluator)阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这“局面评估器”就是“价值网络(ValueNetwork)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读在这一条线上的任何更多落子。[2-6]