(完整版)用深度神经网络和树搜索征服围棋

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

MasteringthegameofGowithdeepneuralnetworksandtreesearch用深度神经网络和树搜索征服围棋电脑下围棋的做法:给定棋盘当前状态,预测下一子落在何处如何决定下一步最优:对每一步可能的落子进行推演,直到每盘棋分出胜负为止。统计每一步可能落子后续的推演赢的比率,选取赢的最多的落子。搜索空间将如宇宙星空一般AlphGo的做法:1、构造一个落子预测器,去掉臭棋,敲定最有可能的落子候选2、构造棋局价值评估器,告诉我们当前棋局的“赢面”,就不需要“那么深了”落子预测器与棋局价值评估器使用深度学习技术,论文上称为政策网络(policynetwork)与价值网络(valuenetwork)Alphago采用:蒙特卡洛搜索树+政策网络+价值网络共同作用蒙特卡罗树搜索(MonteCarloTreeSearch,MCTS),把这两个部分连起来,形成一个完整的系统。通用人工智能通用人工智能(GeneralArtificialIntelligence),是指能通过自我学习解决各种问题的智能算法。人类的大脑就是一种通用智能,因为人既可以学游泳,也可以学下棋。开发AlphaGo的DeepMind就是这么一家公司,以实现通用人工智能为目标。通用人工智能并不是等价于类人智能。但解决了通用人工智能,类人智能也必然能够达到。AlphaGo的算法就是典型的通用人工智能算法,核心使用了深度学习(DeepLearning),增强学习(ReinforcementLearning)。而深度增强学习(DeepReinforcementLearning),就是通用人工智能算法的具体表现形式。什么叫通用?就是这个算法既可以训练用来下围棋,也可以训练用来开车,还可以训练用来股票交易。DeepMind和OpenAI研究的方向:1DeepReinforcementLearning深度增强学习,用于构造学习机制2DeepGenerativeModel深度生成模型,用于理解信息,可以用于预测规划3NeuralMemory神经网络记忆,用于存储信息和推理4OneShotLearning一眼学习,用于快速学习5DeepTransferLearning深度迁移学习,用于移植知识以上多点的综合运用,必将可以制造更强大的通用人工智能算法!而这些方向的研究,都越来越接近人类大脑的本质,或者说智能的本质!

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功