马尔科夫决策过程(MDP)目录•强化学习简介•马尔科夫决策过程•值迭代和策略迭代•马尔科夫模型的创建简介•在强化学习中,提供了一个回报函数,用于告诉learningagent的行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖励,翻到或者向后退就给予惩罚。•强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择以及工厂控制等领域。马尔科夫决策过程•五元组(S,A,{𝑃sa},𝛾,R)•S:状态集合•A:动作集合•{𝑃sa}:状态转移概率•𝛾:阻尼系数(discountfactor),取值在0~1之间•R:S*A-R,回报函数,有时也为S-RS0(始)S1S2S3S4S5S6S7S8(终)马尔科夫决策过称为整个决策过程的回报为如果回报函数只与状态有关,则回报为•马尔科夫决策过程的目标就是使整个决策过程的回报期望最大,即•马尔科夫最终的结果就是得到一组策略,即在什么时候该做什么事。•“策略”定义为:𝜋:𝑆→𝐴,即𝜋s=𝑎•定义一个值函数𝑉𝜋,表示在某个策略下最终得到的回报•根据Bellmanequations,上式可以表示为•最优回报•根据Bellmanequations,可以得到下式•最优策略得到最优策略•在知道马尔科夫五元组的情况下,可以通过两种算法得到最优策略,即值迭代和策略迭代•这里只考虑有限状态和有限动作的情况。值迭代•两种更新值函数的方法•首先为所有状态计算新的V(s),全部计算完成后,再一次性的替换原先旧的V(s).(同步更新)•每计算出一个V(s),就用新的V(s)值替换旧的V(s)值。(异步更新)•计算出最优值函数后,就可以根据下式计算最优策略策略迭代值迭代与策略迭代的区别•值迭代和策略迭代都是解决马尔科夫决策过程的标准算法•小规模的MDP,策略迭代计算快速且收敛地也较快•对于有大规模状态空间的MDP来说,计算𝑉𝜋比较复杂,因此,值迭代较策略迭代好•因此,在实际操作中,值迭代使用地更频繁创建马尔科夫模型•在之前的讨论中,状态转移概率和回报函数都是已知的,然而在实际情况中,这两个变量是未知的,需要经过实验得到。•状态转移概率可以通过下式得到•回报函数可以通过下式得到•R(s)=1在𝑠状态获得的回报之和未知状态转移概率情况下MDP算法