(完整版)用深度神经网络和树搜索征服围棋

hill123123
0 ℃
2020-12-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

MasteringthegameofGowithdeepneuralnetworksandtreesearch用深度神经网络和树搜索征服围棋电脑下围棋的做法：给定棋盘当前状态，预测下一子落在何处如何决定下一步最优：对每一步可能的落子进行推演，直到每盘棋分出胜负为止。统计每一步可能落子后续的推演赢的比率，选取赢的最多的落子。搜索空间将如宇宙星空一般AlphGo的做法：1、构造一个落子预测器，去掉臭棋，敲定最有可能的落子候选2、构造棋局价值评估器，告诉我们当前棋局的“赢面”，就不需要“那么深了”落子预测器与棋局价值评估器使用深度学习技术，论文上称为政策网络（policynetwork）与价值网络（valuenetwork）Alphago采用：蒙特卡洛搜索树＋政策网络＋价值网络共同作用蒙特卡罗树搜索（MonteCarloTreeSearch，MCTS)，把这两个部分连起来，形成一个完整的系统。通用人工智能通用人工智能（GeneralArtificialIntelligence），是指能通过自我学习解决各种问题的智能算法。人类的大脑就是一种通用智能，因为人既可以学游泳，也可以学下棋。开发AlphaGo的DeepMind就是这么一家公司，以实现通用人工智能为目标。通用人工智能并不是等价于类人智能。但解决了通用人工智能，类人智能也必然能够达到。AlphaGo的算法就是典型的通用人工智能算法，核心使用了深度学习（DeepLearning），增强学习（ReinforcementLearning）。而深度增强学习（DeepReinforcementLearning），就是通用人工智能算法的具体表现形式。什么叫通用？就是这个算法既可以训练用来下围棋，也可以训练用来开车，还可以训练用来股票交易。DeepMind和OpenAI研究的方向：1DeepReinforcementLearning深度增强学习，用于构造学习机制2DeepGenerativeModel深度生成模型，用于理解信息，可以用于预测规划3NeuralMemory神经网络记忆，用于存储信息和推理4OneShotLearning一眼学习，用于快速学习5DeepTransferLearning深度迁移学习，用于移植知识以上多点的综合运用，必将可以制造更强大的通用人工智能算法！而这些方向的研究，都越来越接近人类大脑的本质，或者说智能的本质！