看懂“人机大战”这事

gxxzoo193
1 ℃
2019-12-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1看懂“人机大战”这事第755期人机大战宣传海报3月9日中午12点，机器和世界围棋冠军5场大战的揭幕战开始。在1997年，IBM研发的”DeepBlue“（深蓝）对阵当时世界排名第一的国际象棋大师卡斯帕罗夫，卡斯帕罗夫输了。1月28日，权威学术期刊《自然》宣布，谷歌的围棋AI“AlphaGo”以5：0完胜欧洲冠军、职业二段樊麾，并宣布将于3月挑战世界顶尖选手李世石。机器已经在国际象棋上赢了人，为什么又要下围棋？这场人机大战，机器赢了意味着人工智能的突破性进展吗？第一招：一条会自己学习的“狗”2AlphaGo与欧洲围棋冠军樊麾的5局较量第一招：一条会自己学习的“狗”AlphaGo：因2015年10月，它击败了围棋欧洲冠军、前中国职业棋手樊麾，一时名声大噪。不过被人忽略的是，此前与法国“crazystone”、日本“zen”等当今最优秀围棋程序进行的500盘博弈，“AlphaGo”只输了一盘。“阿尔法狗”不仅记忆超强，还能够自主学习。它其实是一台具有1200核的搭载了基于价值判断与策略判断双重神经网络系统的具有自主学习能力的超级计算机。其中负责策略判断的策略网络又可以分为研究KGS（一款在线围棋对战平台，有真人包括职业棋手与机器人在其上对弈）上对弈数据的学习系统，以及一个自己与自己对弈的增强学习系统，而价值网络则完全通过增强学习系统来实现。而人族这一方，是人类的棋手无疑。但为何是李世石（此时并非他鼎盛时期），而不是现在世界排名第一的中国选手柯杰呢？原因很简单，围棋虽由中国人几千年发明，但近年来将之魅力和实力发挥至顶尖状态，当属韩国棋手。截至2015年11月，总数方面，韩国共夺得56个世界冠军，中国则收获了27冠。其中李世石自2002年加冕富士通杯以来，十年时间里他共获14个世界冠军，数量仅次于李昌镐的18个。他被看作是继独步天下的李昌镐之后、韩国最具代表性的棋手。李世石的棋风特点属于典型的力战型棋风，善于敏锐地抓住对手的弱处主动出击，以强大的力量击垮对手，他的攻击可以用“稳，准，狠”来形容，经常能在劣势下完成逆转，故被称之为”僵尸流“。李世石不按常理出牌，体现在他拒绝参加段位赛，也常有弃赛一说。在鼎盛时期，常口出狂言，大有逮谁灭谁之势头。如今锋芒日渐收敛，但内心骄傲依旧。3十多年来，他以落拓不羁、正邪两极的个性仗剑行走江湖，无视同时代的高手在金钱上的锱铢必较，最早在中国围甲联赛中提出“赢棋一盘10万元，输棋分文不取”的是他；在围甲联赛中前后两年多的时间里保持不败纪录的是他；他所在的围甲队降级后拒要1分钱奖金的也是他；2008年汶川地震，捐出当年亚洲电视快棋赛冠军奖金的还是他。所以，不难理解，李世石为何接受人工智能阿尔法狗的挑战，他仍在证明自己。第二招：这回较量的为何是围棋？1997年，国际象棋等级分最高者、世界冠军卡斯帕罗夫负于超级计算机“深蓝”。第二招：这回较量的为何是围棋？围棋一直被看做是人类最后的智力竞技高地。因围棋步骤的绝对数量比宇宙的原子数还多，它一直被视为最复杂的电脑游戏之一，也是人工智能始终未解的挑战。此前，在国际象棋、中国象棋在1997年和2006年两场人机大战中，先后被超级计算机攻陷。其中1997年，IBM研发的“DeepBlue”（深蓝）对阵当时世界排名第一的国际象棋大师卡斯帕罗夫。“深蓝”的运算能力当时在全球超级计算机中居第259位，每秒可运算2亿步。深蓝主要依靠强大的计算能力穷举所有路数来选择最佳策略：“深蓝”靠硬算可以预判12步，卡斯帕罗夫可以预判10步，两者高下立现。最后卡斯帕罗夫以2胜1负3平败北。比赛中，第二局的完败让卡斯帕罗夫深受打击，他的斗志和体力在随后3局被拖垮，在决胜局中仅19步就宣布放弃。IBM拒绝了卡斯帕罗夫的再战请求，拆卸了“深蓝”。卡斯帕罗夫虽然后来多次挑战电脑战平，却无法找“深蓝”“复仇”，留下永久的遗憾。2006年，中国超级计算机浪潮天梭在比赛中，同时迎战5位中国象棋大师。在2局制的博弈中，浪潮天梭以平均每步棋27秒的速度，每步66万亿次的棋位分析与检索能力，最终以11：9的总比分险胜。最近几年，人工智能在自然语言理解能力上再次展现其优势。2011年，“深蓝”的同门师弟“warson”（沃森）在美国老牌智力问答节目《危险边缘》中挑战两位人类冠军。“沃森”可以在3秒内检索数百万条信息并以人类语言输出答案，还能分析题目线索中的微妙含义、讽刺口吻及谜语等。“沃森”还能根据比赛奖金的数额、自己比对手落后或领先的情况、自己擅长的题目领域来选择是否要抢答某一个问题。4而这一切，仅仅是在短短的20年间发生。相较于中国象棋或者国际象棋，围棋的最大特点在于它的每一个棋子都是相同的，作用不是由其自身的“特殊功能”决定的，而是与它在整个棋局中与别的棋子之间的关系来决定的。围棋棋盘盘面有纵横各19条等距离、垂直交叉的平行线，共构成19×19（361）个交叉点。当棋盘为空时，先手拥有361个可选方案。在游戏进行当中，它拥有远比国际象棋更多的选择空间。有人预估这种可能性高达3361种。作为比较，国际象棋的局面可能性预估为3121种，而人类目前所观测到的总可视宇宙中的总粒子数预估为1075种。当然了，更准确的预估大约是0.012×3361，而最近有人求出这个数值的准确值：208168199381979984699478633344862770286522453884530548425639456820927419612738015378525648451698519643907259916015628128546089888314427129715319317557736620397247064840935（好吧，我就只能暂且帮你装到这里。）第三招：背后操盘者是谁？AlphaGo所使用的神经网络结构示意图第三招：背后操盘者是谁？AlphaGo的背后是一家名为DeepMind的英国公司。其中DeepMind的创始人DemisHassabis更是一位计算机天才。曾是一位国际象棋神童，13岁就获得了大师头衔。DeepMind在2014年1月，被google公司以4亿美元收购。其中间牵线人则是埃隆·马斯克，一位创建了Tesla和SpaceX，并且担任两家公司CEO的硅谷狂人。他在收购前两年，就已向DeepMind投资650万美元。Google的加入，证明了DeepMind在人工智能方面的实力和未来发展空间。差不过两年，google的人工智能试金石机会来了。5就在1月28日曝出了阿尔法狗击败樊麾的消息，随后拿出100万美元作为奖金挑战李世石。当日谷歌股价大幅上涨，涨幅4.42%，换算成市值涨了200亿美元。近日有媒体报道，DeepMind正推进自身医疗技术发展，因为其在围棋领域的影响，已经获得不菲的订单。简单来说，这里面将蕴藏着无限的商机，自然会成为各类厂商争相追逐的焦点。AI这块并非只有一家被盯上。在Google宣布了AlphaGo战胜欧洲围棋冠军的消息后不久，Facebook也宣布说他们FAIR的围棋项目也早就成功解决了计算机下围棋这一课题。不过牛逼人士指出，两者并不在于硬件上有所差异，而是在于算法上的高下。Facebook的围棋对弈系统DarkForest（黑暗森林）采用的则是基于深度卷积算法（DCNN）与蒙特卡罗树搜索算法（MCTS）的算法，前者利用类似于大脑的算法来学习和识别棋盘上各种模式的重要性，而后者相当于一种超前思维，用于计算详细的战略步骤。是不是觉得这解释眼熟呀？文中一开头，AlphaGo的算法也差不多这么写。但到底如何解释，咱们就留到下一场继续来讲。总之，不能一下子都教会你们如何装，要一步步来。第四招：最大的赢家是谁？DemisHassabis是GoogleDeepMind的CEO第四招：最大的赢家是谁？有这么牛的人工智能团队支撑，“阿尔法狗”可谓是备受期待。更重要的一点是计算机没有失误和不知疲劳。还有对弈的棋手，还要承受与对手不打照面的心理压力。这点，樊麾早已领教。不过，棋界根据阿尔法狗战胜樊麾的棋谱，即使经过2个月的学习，也认为其水平还处在低位，尚不具备对李世石的威胁，赌人类胜出占到大多数。6热闹不怕人多，另外一部分人，尤其是看好AI人士，则在阿尔法狗身上押宝。而押宝的砝码正是来自它的深度学习能力，其此前对战樊麾的棋谱是“业余顶尖选手”，此外这个两月，阿尔法狗每天与自己对战棋局达1000万来增强学习，而李世石则是头脑模拟和左右手下棋。这点如真的在今天的对战中显山露水的话，人工智能的未来只是咫尺的距离了。尽管如此，李世石也相信自己的实力。“即使‘阿尔法围棋’战胜了欧洲冠军，但我认为到目前为止还是人类比人工智能强。他表示，“阿尔法围棋”实力难与自己相争，自己将以4：1或者5：0取胜，如不出现失误，将100%获胜。8日的新闻发布会上，李世石表示，在围棋的对决中，人工智能战胜人类的这一天终究会到来，但围棋自身的价值不会消失。正如1997年卡斯帕罗夫被深蓝打败后，国际象棋并未衰败，反倒更加繁荣。人工智能在围棋之外领域，也将带来更大的发展前景。第五招：大战规则是啥？人工智能第五招：大战规则是啥？比赛赛程：此次对战分为5局，分别是：3月9日、3月10日、3月12日、3月13日和3月15日。比赛胜负：五盘对局，取得三局或三局以上者为胜。若比赛出现3-0或3-1已经分出胜负后，也将下满5局，以让AlphaGo获得更多的学习机会。比赛规则：将采用贴7.5目的中国规则。每位棋手各有两个小时布局时间，3次60秒的读秒。比赛时间：比赛开始时间为韩国当地时间下午1点（北京中午时间12点），比赛不设中间休息。每场比赛预计需要4至5个小时。比赛流程：比赛时李世石在棋盘上落子，助手将手数输入电脑传送给AlphaGo，AlphaGo的手数由助手摆到李世石落子的棋盘上。7比赛奖励：获胜的一方将获得100万美元奖励。若AlphaGo获胜，奖金将捐献给联合国儿童基金和GoCharity。比赛直播：比赛全程将在YouTube上的DeepMind官方频道进行直播，并有英文及韩文版解说。国内多个视频网站也将进行直播。