学员论坛阿尔法狗原理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

DeepLearningAamzingAlphaGoPPT模板下载:行业PPT模板:节日PPT模板:素材下载:背景图片:图表下载:优秀PPT下载:教程:教程:教程:资料下载:课件下载:范文下载:试卷下载:教案下载:论坛:围棋棋盘19x19路,共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白子-1,0表示无子。s,aPPT模板下载:行业PPT模板:节日PPT模板:素材下载:背景图片:图表下载:优秀PPT下载:教程:教程:教程:资料下载:课件下载:范文下载:试卷下载:教案下载:论坛:向人类学习,利用人类经验建立的,人类棋手围棋神经网络策略围棋程序深度卷积神经网络02蒙特卡洛搜索树03利用阿尔法狗自我对弈训练起来的,针对现有局势评估的神经网络局势评估神经网络阿尔法狗的核心算法,利用蒙特卡洛方法建立起的局部最优解策略深度卷积神经网络右图为卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(convolutionallayer)和池化层(poolinglayer)。左图为一个神经网络示意图蒙特卡洛搜索树蒙特卡罗算法:采样越多,越近似最优解;举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法——尽量找好的,但不保证是最好的。AlphaGo第一次改进后的阿尔法狗,通过卷积神经网络得到的P_human()的落子概率,在可以落子的点上,利用蒙特卡洛搜索树在进行搜索,并重新修改得分胜利后的奖励分数方法新分数=初始分+通过模拟得到的赢棋概率AlphaGo自我博弈阿尔法狗再次引入利用深度学习网络构建了第二个大脑,局势评估网络,用来评估局面,是对整个棋局的输赢概率进行评判,如这个图,颜色越深就代表赢的可能性越大。训练这个大脑,人类的棋谱的数量已经无法胜任了,但是阿尔法狗可以通过自己和自己下棋,不断产生新的棋局来进行训练这个大脑。新分数=初始分+0.5*通过模拟得到的赢棋概率+0.5*局面评估分AlphaGoOneTwoThree可以评估结果的神经网络蒙特卡洛搜索树模仿人类下法的神经网络学习人类下棋思路,训练出一个深度学习网络通过第一个深度学习网络,找出下一步棋的数个备选走法通过“蒙树”不断模拟走下去的情况,找出相对最优的走法通过第二个深度学习网络,对整个棋局局势进行评估,进一步优化下一步走法两个大脑结合,反复模拟,直到找出最终的走法AlphaGoWhynottryAlphaGoHereiswhatyouneed

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功