深度强化学习中文综述-计算机学报

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第40卷计算机学报Vol.402017年论文在线出版号No.1CHINESEJOURNALOFCOMPUTERSOnlinePublishingNo.1———————————————本课题得到国家自然科学基金项目(61472262,61303108,61373094,61502323,61502329)、苏州市应用基础研究计划工业部分(SYG201422,SYG201308)资助.刘全(通讯作者),男,1969年生,博士,教授,博士生导师,中国计算机协会(CCF)高级会员,主要研究方向为强化学习、深度强化学习和自动推理.E-mail:quanliu@suda.edu.cn.翟建伟,男,1992年生,硕士研究生,主要研究方向为强化学习、深度学习和深度强化学习.章宗长,男,1985年生,博士,副教授,计算机学会会员,主要研究领域为部分感知的马尔可夫决策过程、强化学习和多agent系统.钟珊,女,1983年生,博士研究生,主要研究方向为机器学习和深度学习.周倩,女,1992年生,硕士研究生,主要研究方向为强化学习.章鹏,男,1992年生,硕士研究生,主要研究方向为连续空间强化学习.徐进,男,1991年生,硕士研究生,主要研究方向为连续空间深度强化学习.深度强化学习综述刘全+翟建伟章宗长钟珊周倩章鹏徐进1)(苏州大学计算机科学与技术学院江苏苏州215006)2)(软件新技术与产业化协同创新中心南京210000)摘要深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了3类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.关键词人工智能;深度学习;强化学习;深度强化学习中图法分类号TP18论文引用格式:刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进,深度强化学习综述,2017,Vol.40,在线出版号No.1LIUQuan,ZHAIJian-Wei,ZHANGZong-Zhang,ZHONGShan,ZHOUQian,ZHANGPeng,XUJin,ASurveyonDeepReinforcementLearning,2017,Vol.40,OnlinePublishingNo.1ASurveyonDeepReinforcementLearningLIUQuanZHAIJian-WeiZHANGZong-ZhangZHONGShanZHOUQianZHANGPengXUJin1)(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215006)2)(CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing210000)AbstractDeepreinforcementlearning(DRL)isanewresearchhotspotintheartificialintelligencecommunity.Byusingageneral-purposeform,DRLintegratestheadvantagesoftheperceptionofdeeplearning(DL)andthedecisionmakingofreinforcementlearning(RL),andgainstheoutputcontroldirectlybasedonrawinputsbytheend-to-endlearningprocess.DRLhasmadesubstantialbreakthroughsinavarietyoftasksrequiringbothrichperceptionofhigh-dimensionalrawinputsandpolicycontrolsinceitwasproposed.Inthispaper,wesystematicallydescribethreemaincategoriesofDRLmethods.Firstly,wesummarizevalue-basedDRLmethods.Thecoreideabehindthemistoapproximatethevaluefunctionbyusingdeepneuralnetworkswhichhavestrongabilityofperception.Weintroduceanepoch-makingvalue-basedDRLmethodcalledDeepQ-Network(DQN)anditsvariants.Thesevariantsaredividedintotwocategories:improvementsoftrainingalgorithmandimprovementsofmodelarchitecture.ThefirstcategoryincludesDeepDoubleQ-Network(DDQN),DQNbasedonadvantagelearningtechnique,andDDQNwithproportionalprioritization.ThesecondoneincludesDeepRecurrentQ-Network(DRQN)andamethodbasedonDuelingNetworkarchitecture.Ingeneral,value-basedDRLmethodsaregoodatdealingwithlarge-scaleproblemswithdiscreteactionspaces.Wethensummarizepolicy-basedDRLmethods.Theirpowerfulideaistousedeepneuralnetworkstoparameterizethepoliciesand计算机学报2017年2optimizationmethodstooptimizethepolicies.Inthispart,wefirstlyhighlightsomepurepolicygradientmethods,thenfocusonaseriesofpolicy-basedDRLalgorithmswhichusetheactor-criticframeworke.g.,DeepDeterministicPolicyGradient(DDPG),followedbyaneffectivemethodnamedAsynchronousAdvantageActor-Critic(A3C)withthebenefitofreducingthetrainingtimedramatically.Comparedtovalue-basedmethods,policy-basedDRLmethodshaveawiderrangeofsuccessfulapplicationsincomplexproblemswithcontinuousactionspaces.WelastlyintroduceaDRLmethodbasedonsearchandsupervisionknownasAlphaGo.Itscoreideaistoimprovetheefficiencyofoptimizingpoliciesbyintroducingextrasupervisionandpolicysearchtechniques.Thenthispapersummarizessomecutting-edgeresearchdirectionsofDRL,includinghierarchicalDRLmethodswhichcandecomposeanultimategoalinRLintosomesub-goals,multi-taskandtransferDRLmethodswhichcantakefulladvantageofcorrelationsbetweenmultipletasksandtransferusefulinformationtonewtasks,multi-agentDRLmethodswhichhavetheabilityofcooperationandcommunicationbetweenmultipleagents,DRLbasedonmemoryandreasoningwhichcanbeappliedtosomehigh-levelcognitiveheuristictasks,andmethodsthatbalancebetweenexplorationandexploitation;Next,wesummarizesomesuccessfulapplicationsindifferentfieldssuchasgames,robotics,computervision,naturallanguageprocessingandparameteroptimization.Finally,weendupwithdiscussingsomepotentialtrendsinDRL’sfuturedevelopment.Keywordsartificialintelligence;deeplearning;reinforcementlearning;deepreinforcementlearning1引言近年来,深度学习(DeepLearning,DL)作为机器学习领域一个重要的研究热点[1],已经在图像分析[2-3]、语音识别[4-5]、自然语言处理[6-7]、视频分类[8]等领域取得了令人瞩目的成功.DL的基本思想是通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表示,以发现数据的分布式特征表示[9].因此DL方法侧重于对事物的感知和表达.强化学习(ReinforcementLearning,RL)作为机器学习领域另一个研究热点,已经广泛应用于工业制造[10]、仿真模拟[11]、机器人控制[12]、优化与调度[13-14]、游戏博弈[15-16]等领域.RL的基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略[17].因此RL方法更加侧重于学习解决问题的策略.随着人类社会的飞速发展,在越来越多复杂的现实场景任务中,需要利用DL来自动学习大规模输入数据的抽象表征,并以此表征为依据进行自我激励的RL,优化解决问题的策略.由此,谷歌的人工智能研究团队DeepMind创新性地将具有感知能力的DL和具有决策能力的RL相结合,形成了人工智能领域新的研究热点,即深度强化学习(DeepReinforcementLearning,DRL).此后,在很多挑战性领域中,DeepMind团队构造并实现了人类专家级别的agent.这些agent对自身知识的构建和学习都直接来自原始输入信号,无需任何的人工编码和领域知识.因此DRL是一种端对端(end-to-end)的感知与控制系统,具有很强的通用性.其学习过程可以描述为:(1)在每个时刻agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到抽象、具体的状态特征表示;(2)基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作.(3)环境对此动作做出反应,并得到

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功