强化学习概述

derbe
1 ℃
2020-05-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第四章强化学习4.1强化学习概述智能系统的一个主要特征是能够适应未知环境，其中学习能力是智能系统的关键技术之一。在机器学习范畴内，根据反馈的不同，学习技术可以分为监督学习（Supervisedlearning）、非监督学习（Unsupervisedlearning）和强化学习（Reinforcementlearning）三大类。其中强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。强化学习又称为增强学习、加强学习、再励学习或激励学习，是一种从环境状态到行为映射的学习，目的是使动作从环境中获得的累积回报值最大。强化学习的思想来源于动物学习心理学。观察生物(特别是人)为适应环境而进行的学习过程，可以发现有两个特点:一是人从来不是静止地被动等待而是主动对环境做试探，二是环境对试探动作产生的反馈是评价性的，人们会根据环境的评价来调整以后的行为。强化学习正是通过这样的试探——评价的迭代，在与环境的交互中学习，通过环境对不同行为的评价性反馈信号来改变强化学习系统(RLS或者称为Agent)的行为选择策略以实现学习目标。来自环境的评价性反馈信号通常称为奖赏值(reward)或强化信号（reinforcementSignal)，强化学习系统的目标就是极大化(或极小化)期望奖赏值。强化学习技术是从控制理论、统计学、心理学等相关学科发展而来，最早可以追溯到巴普洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。强化学习围绕如何与环境交互学习的问题，在行动——评价的环境中获得知识改进行动方案以适应环境达到预想的目的。学习者并不会被告知采取哪个动作，而只能通过尝试每一个动作自己做出判断。它主要是依靠环境对所采取行为的反馈信息产生评价，并根据评价去指导以后的行动，使优良行动得到加强，通过试探得到较优的行动策略来适应环境。试错搜索和延迟回报是强化学习的两个最显著的特征。但强化学习系统还具有以下更一般的特点：(1)适应性，即Agent不断利用环境中的反馈信息来改善其性能；(2)反应性，即Agent可以从经验中直接获取状态动作规则；(3)对外部教师信号依赖较少。因为Agent只根据强化信号进行学习，而强化信号可从Agent内置的强化机制中获得。一个智能系统面临的环境往往是动态、复杂的开放环境。因此首先需要设计者对环境加以细分。通常情况，我们可以从以下五个角度对环境（或问题）进行分析。表4.1环境的描述角度1离散状态vs连续状态角度2状态完全可感知vs状态部分可感知角度3插曲式vs非插曲式角度4确定性vs不确定性角度5静态vs动态表4.1中，所谓插曲式（episodic）是指智能系统在每个场景中学习的知识对下一个场景中的学习是有用的。如一个棋类程序对同一个对手时，在每一棋局中学习的策略对下一棋局都是有帮助的。相反非插曲式（non-episodic）环境是指智能系统在不同场景中学习的知识是无关的。角度4是指智能系统所处的环境中，如果状态的迁移是确定的，则可以唯一确定下一状态。否则在不确定性环境中，下一状态是依赖于某种概率分布。进一步，如果状态迁移的概率模型是稳定、不变的，则称之为静态环境；否则为动态环境。显然，最复杂的一类环境（或问题）是连续状态、部分可感知、非插曲式、不确定的动态环境。4.2强化学习原理一个强化学习系统的基本框架主要由两部分组成，即环境和智能体（Agent）。智能体可以通过传感器（Sensor）感知所处环境，并通过执行器（Actuator）对环境施加影响。从广义上讲，除该智能体之外，凡是与该智能体交互的物体，都可以被称为环境。强化学习是智能体在与动态环境的交互过程中，通过反复试错来学习适当的行为。它介于监督式学习（supervisedlearning）和无监督式（unsupervisedlearning）学习之间，是一种策略相关学习，通过与环境的即时交互来获得环境的状态信息，并通过反馈强化信号对所采取的行动进行评价，通过不断的试错和选择，从而学习到最优的策略。强化学习的基本原理是：如果智能体（Agent）的某个行为策略导致环境对智能体正的奖赏（Reward），则智能体以后采取这个行为策略的趋势会加强。反之，若某个行为策略导致了负的奖赏，那么智能体此后采取这个动作的趋势会减弱。图4.1描述了环境与智能体进行交互的一个基本框架。在图4.1中给出的强化学习过程中，Agent不断地与环境进行交互，在每一时刻循环发生如下事件序列：(1)Agent感知当前的环境状态；(2)针对当前的状态和强化值，Agent选择一个动作执行；(3)当Agent所选择的动作作用于环境时，环境发生变化，即环境状态转移至新状态并给出奖赏（强化信号）；(4)奖赏（强化信号r）反馈给Agent。图4.1强化学习框架图强化学习的过程可以总结如下：Agent选择一个动作a作用于环境，环境接收该动作后发生变化，同时产生一个强化信号（奖或罚）反馈给Agent，Agent再根据强化信号和环境的当前状态s再选择下一个动作，选择的原则是使受到正的奖赏值的概率增大。选择的动作不仅影响立即奖赏值，而且还影响下一时刻的状态及最终强化值。强化学习的目的就是寻找一个最优策略，使得Agent在运行中所获得的累计奖赏值最大。强化学习作为一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法，具有如下特点：（1）强化学习是一种弱的学习方式，体现为：Agent通过与环境不断的试错交互来进行学习；强化信息可能是稀疏且合理延迟的；不要求（或要求较少）先验知识；Agent在学习中所使用的反馈是一种数值奖赏形式，不要求有提供正确答案的教师；（2）强化学习是一种增量式学习，并可以在线使用；（3）强化学习可以应用于不确定性环境；（4）强化学习的体系结构是可扩展的。目前，强化学习系统已扩展至规划合并、智能探索、监督学习和结构控制等领域。Agent环境奖赏值R状态S动作Action4.3强化学习系统的主要组成要素模型瞬时奖惩策略状态值函数图4.2强化学习四要素如图4.2所示，除了Agent和环境，一个强化学习系统还有四个主要的组成要素：策略、奖赏函数、值函数以及可选的环境的模型。（1）策略（Policy）策略也称决策函数，规定了在每个可能的状态，Agent应该采取的动作集合。策略是强化学习的核心部分，策略的好坏最终决定了Agent的行动和整体性能，策略具有随机性。策略描述针对状态集合S中的每一个状态s，Agent应完成动作集A中的一个动作a，策略π：S→A是一个从状态到动作的映射。关于任意状态所能选择的策略组成的集合F，称为允许策略集合，πF。在允许策略集合中找出使问题具有最优效果的策略π*，称为最优策略。（2）奖赏函数（RewardFunction）奖赏函数是在与环境交互的过程中，获取的奖励信号，奖赏函数反应了Agent所面临的任务的性质，同时，它也可以作为Agent修改策略的基础。奖赏信号R是对所产生动作的好坏作一种评价，奖赏信号通常是一个标量信号，例如用一个正数表示奖，而用负数表示罚，一般来说正数越大表示奖的越多，负数越小表示罚的越多。强化学习的目的就是使Agent最终得到的总的奖赏值达到最大。奖赏函数往往是确定的、客观的，为策略的选择提供依据。（3）值函数（ValueFunction）奖赏函数是对一个状态（动作）的即时评价，值函数则是从长远的角度来考虑一个状态（或状态-动作对）的好坏。值函数又称为评价函数。状态st的值，是指Agent在状态st根据策略π执行动作at及采取后续策略所得到的积累奖赏的期望，记为)(tsV。例如，将)(tsV定义为所有将来奖赏值通过衰减率γ(γ[0,1])作用后的总和。)()(0iititrEsV(4-1)其中，),(tttasRr为t时刻的奖赏。对于任一策略π，定义值函数为无限时域累积折扣奖赏的期望值，即00)|()(tttssrEsV(4-2)其中，tr和ts分别为在时刻t的立即奖赏和状态，衰减系数γ(γ[0,1])使得邻近的奖赏比未来的奖赏更重要。Q函数是另一种评价函数。在某些时候，记录状态-动作对的值比只记录状态的值更有用，Watkins把状态-动作对的值称为Q值。Q函数的定义：),(asQ表示在状态s执行动作a，及采取后续策略的折扣奖赏和的期望。可以看出，状态值（Q值）是对奖赏的一种预测，对于一个状态s，如果它的奖赏值低，并不意味着它的状态值（Q值）就低，因为如果s的后续状态产生较高的奖赏，仍然可以得到较高的状态值（Q值）。估计值函数的目的是得到更多的奖赏，然而动作的选择是基于状态值（Q值）判断的。也就是说，Agent选择这样一个动作，以使产生的新状态具有最高状态值（Q值），而不是转移到新状态时有最高的即时奖赏，因为从长远看，这些动作将产生更多的奖赏。然而确定值函数要比确定奖赏难很多，因为奖赏往往是环境直接给定，而状态值（Q值）则是Agent在其整个生命周期内通过一系列观察，不断地估计得出的。事实上，绝大部分强化学习算法的研究就是针对如何有效快速的估计值函数。因此，值函数是强化学习算法的关键。（4）环境的模型环境模型是对外界环境状态的模拟，Agent在给定状态下执行某个动作，模型将会预测出下一状态和奖励信号。利用环境的模型，Agent在作决策的同时将考虑未来可能的状态，进行规划。早期的强化学习主要是一种试错学习，与规划大相径庭的。将模型与规划引入强化学习系统是强化学习的一个较新的发展，使得强化学习方法与动态规划方法紧密的联系起来了。强化学习将试错学习和规划都看成获得经验的一个过程。强化学习的四个元素之间的关系如图4.3所示。图4.3强化学习主要元素关系图4.4马尔科夫决策过程（MDP）在强化学习技术中首先对随机的、离散状态、离散时间这一类问题进行数学建模。在实际应用中，最常采用的是马尔可夫模型。表4.2中给出最常用的几种马氏模型。表4.2常用的几种马氏模型马氏模型是否智能系统行为控制环境状态转移？否是是否环境为部分可感知？否马尔可夫链马氏决策过程是隐马尔可夫模型部分感知马氏决策过程很多强化学习问题基于的一个关键假设就是Agent与环境间的交互可以被看成一个马尔可夫决策过程(MDP)，因此强化学习的研究主要集中于对Markov问题的处理。马尔可夫决策过程的本质是：当前状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作，而与历史状态和历史动作无关。在强化学习过程中，智能体通过观察其与环境交互改善自己的行为。为了方便起见，假定在时刻点t=1，2，3，…处观察某个系统，一个有限的Makrov决策过程由5元组组成：))((,,|),,(),,,(),(,''sAaSssVasrsaspsAS其中各个元的含义如下：(1)s为系统所有可能的状态所组成的非空集，有时也称为系统的状态空间，它可以是有限的、可列的或任意非比空集。在本文中，假定S为有限的，用小写字母s,'s等来表示状态。(2)对sS，A(s)是在状态s下所有可能动作集合。(3)当系统在决策时刻点t处于状态s，执行动作a之后，则系统在下一个决策时刻PolicyRewardValueModelofEnvironment点t+1时处于状态s'的概率为p(s,a,'s)。称P={p(s,a,'s)}为转移概率矩阵。(4)当系统在决策时刻点t处于状态s，执行决策a后，系统于本段情节获得的报酬为r(s,a)，常称R=r(s,a)为报酬函数。(5)V为准则(Crietrion)函数(或目标(Objective)函数)，常用的准则函数有期望折扣总报酬、期望总报酬和平均报酬等。若转移概率函数p(s,a,'s)和报酬函数r(s,a)与决策时刻t无关，即不随时间段的变化而变化，则称是平稳的，此时MDP称为平稳的MDP。当系统在决策时刻点t处