动态系统:包含随时间变化的因素和变量的系统。线性系统、非线性系统。(系统在某个时刻的状态,往往要依某种形式、受过去某些决策的影响,而系统的当前状态和决策又会影响系统过程今后的发展。)动态决策问题:将时间作为决策变量之一的决策问题称为动态决策问题。动态决策问题的特点:在动态决策问题中,系统所处的状态和时刻是进行决策的重要因素,即在系统发展的不同时刻(或阶段)根据系统所处的状态,不断地做出决策,找到不同时刻的的最优决策以及整个过程的最优策略。动态规划(DynamicProgramming)动态规划是美国数学家Bellman创立的。Bellman50年代执教于普林斯顿和斯坦福大学,后进入兰德(Rand)研究所。1957年发表“DynamicProgramming”一书,标识动态规划的正式诞生。动态规划是解决复杂系统优化问题的一种方法。是解决动态系统多阶段决策过程的基本方法之一。第八章动态规划的基本方法第一节:动态规划的研究对象和引例多阶段决策问题:是动态决策问题的一种特殊形式。在多阶段决策过程中,系统的动态过程可以按照时间进程分为相互联系而又相互区别的各个阶段,而且在每个阶段都要进行决策。目的是使整个过程的决策达到最优效果。多阶段决策问题的典型例子:1生产决策问题:企业在生产过程中,由于需求是随时间变化的,因此企业为了获得全年的最佳生产效益,就要在整个生产过程中逐月或逐季度地根据库存和需求决定生产计划。2机器负荷分配问题:某种机器可以在高低两种不同的负荷下进行生产。在高负荷下进行生产时,产品的年产量g和投入生产的机器数量u1的关系为g=g(u1)这时,机器的年完好率为a,即如果年初完好机器的数量为u,到年终完好的机器就为au,0a1。12n状态决策状态决策状态状态决策在低负荷下生产时,产品的年产量h和投入生产的机器数量u2的关系为h=h(u2)相应的机器年完好率b,0b1。假定开始生产时完好的机器数量为s1。要求制定一个五年计划,在每年开始时,决定如何重新分配完好的机器在两种不同的负荷下生产的数量,使在五年内产品的总产量达到最高。3航天飞机飞行控制问题:由于航天飞机的运动的环境是不断变化的,因此就要根据航天飞机飞行在不同环境中的情况,不断地决定航天飞机的飞行方向(姿态)和速度,使之能最省燃料和实现目的(如软着落问题)。不包含时间因素的静态决策问题(本质上是一次决策问题)也可以适当地引入阶段的概念,作为多阶段的决策问题用动态规划方法来解决。4线性规划、非线性规划等静态的规划问题也可以通过适当地引入阶段的概念,应用动态规划方法加以解决,后面将详细介绍。5最短路问题:给定一个交通网络图如下,其中两点之间的数字表示距离(或花费),试求从A点到G点的最短距离(总费用最小)。我们将用此例来说明所有动态规划问题的理论和方法。AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G5313687668353384221233355266431234561阶段、阶段变量:把所给问题的过程,适当地分为若干个相互联系的阶段,目的是能按一定的次序去求解。描述阶段的变量称为阶段变量,常用k表示。阶段的划分,一般是分为时间和空间的自然特征来划分,但要便于把问题的过程能转化为多阶段决策的过程。(逆序模型、顺序模型)2状态、状态变量:状态表示每个阶段开始所处的自然状况或客观条件,它描述了研究问题过程的状况。通常一个阶段有若干个状态。描述过程状态的变量称为状态变量。常用sk来表示第k阶段的状态变量。一般来说,状态变量的取值有一定的允许集合或范围,此集合称为是状态允许集合。第二节:动态规划的基本概念和定义3决策、决策变量:决策表示当过程处于某一阶段的某个状态时,可以做出不同的决定(或选择),从而决定下一阶段的状态,这种决定称为决策。在最优控制中也称为控制。描述决策的变量,称为决策变量。常用uk(sk)表示第k阶段当状态为sk时的决策变量。在实际问题中决策变量的取值往往在某一范围之内,此范围称为允许决策集合。常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然有uk(sk)Dk(sk)Dk表示第k阶段的允许决策集合。4多阶段决策过程:就是可以在各个阶段进行决策,去控制过程发展的多段过程。多阶段决策过程的发展是通过一系列的状态转移来实现的,一般来说,系统在某一阶段的状态转移不但于系统的当前(或本阶段)的状态和决策有关,而且还于系统过去的历史状态和决策有关。其状态转移方程如下(一般形式)),,,,,,(),,,(),(221112211231112kkkkusususTsususTsusTs12ks1u1s2u2s3skuksk+1图示如下:状态转移方程是确定过程由一个状态到另一个状态的演变过程。如果第k阶段状态变量sk的值、该阶段的决策变量一经确定,第k+1阶段状态变量sk+1的值也就确定。无后效性或马尔可夫性:如果某阶段状态给定后,则在这个阶段以后过程的发展不受这个阶段以前各段状态的影响。换句话说,过程的过去历史只能通过当前的状态去影响它未来的发展,这个性质称为无后效性。在构造决策过程的动态规划模型时,要充分注意是否满足无后效性的要求。如果状态不能满足无后效性的要求,应适当地改变状态的定义或规定方法,以使状态变量能满足无后效性的要求。状态具有无后效性的多阶段决策过程的状态转移方程如下能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程,即具有无后效性的多阶段决策过程。),(),(),(122231112kkkkusTsusTsusTs动态规划中能处理的状态转移方程的形式。5策略:策略是一个按顺序排列的决策组成的集合。由过程的第k阶段开始到终止状态为止的过程,称为问题的后部子过程(或称为k子过程)。由每段的决策按顺序排列组成的决策函数序列称为k子过程策略,简称子策略,记为pk,n(sk),即当k=1时,此决策函数序列成为全过程的一个策略,简称策略,记为p1,n(s1).即在实际问题中,可供选择的策略有一定范围,此范围称为允许策略集合,用p表示。从允许策略集合中找出达到最优效果的策略称为最优策略。)(,),(),()(11,nnkkkkknksusususp)(,),(),()(22111,1nnnsusususp6指标函数和最优值函数:用来衡量所实现过程优劣的一种数量指标,称为指标函数,它是定义在全过程或所有后部子过程上确定的数量函数。Vk,n表示之。即nksususVVnkkkknknk,,2,1),,,,,,(111,,动态规划模型的指标函数,应具有可分离性,并满足递推关系。即Vk,n可以表示为sk,uk,Vk+1,n的函数。)],,,(,,[),,,,,(111,1111,nkknkkkknkkkknksusVussususV常见的指标函数的形式是:•过程和它的任一子过程的指标是它所包含的各阶段的指标和。即usvsusVjjnkjjnkknk,,,,1,其中vj(sj,uj)表示第j阶段的阶段指标。这时上式可写成),,(),(),,,(111,11,susVusvsusVnkknkkkknkknk无后效性的结果。•过程和它的任意子过程的指标是它所包含的各阶段的指标的乘积。即),(),,,(1,usvsusVjjjnkjnkknk),,(),(),,(111,11,susVusvsusVnkknkkkknkknk则可改写成最优值函数:表示从第k阶段的状态sk开始到第n阶段的终止状态的过程,采取最优策略所得到的指标函数值。即),,,()(1,,,susVoptsfnkknkkkuunk多阶段决策过程的数学模型:(具有无后效性的多阶段决策过程)nkUuSsusTstsusvoptsusVoptkkkkkkkknjjjjuuunnuuunn,,2,1),(..),(),,,(11},,,{111,1},,,{2121所谓求解多阶段决策过程问题,就是要求出(1)最优策略,即最优决策序列},,,{**2*1nuuu(2)最优轨线,即执行最优策略时的状态序列},,,{**2*1nsss(3)最优目标函数值),,,,(***1*1*,1*,1nnnnususVVf1(s1)susvoptsfnkknkkkuunk1,,,,,,从k到终点最优子策略的最优目标函数值第三节:动态规划的基本思想和基本方程以最短路问题的解法为例来说明。(穷举法48条路线)AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368766835338422123335526643123456最短路的特性:如果已有从起点到终点的一条最短路,那么从最短路线上中间任何一点出发到终点的路线仍然是最短路。(证明:用反证法)当k=6时,由F1到终点G只有一条路线,故f6(F1)=4.同理,f6(F2)=3.当k=5时,出发点有E1,E2,E3三个。7}3543min{,,min262151611515FfFEdFfFEdEfu5(E1)=F1E1F1G5}3245min{,,min262251612525FfFEdFfFEdfEu5(E2)=F2E2F2G9}3646min{,,min262351613535FfFEdFfFEdfEu5(E3)=F2E3F3G当k=4时,有234342242421414867EDuDfEDuDfEDuDf当k=3时,有343432333312323113131291013DcuCfDCuCfDCuCfDCuCf当k=2时,有32222212121613CBuBfCBuBf当k=1时,有18163135min,,min222112111BfBAdBfBAdAf且u1(A)=B1,于是得到从起点A到终点G的最短距离为18。为了找到最短路线,再按计算的顺序反推之,可求出最优决策函数序列{uk}:u1(A)=B1,u2(B1)=C2,u3=(C2)=D1,u4(D1)=E2,u5(E2)=F2,u6(F2)=G,即最优策略。最短路线为AB1C2D1E2F2G。AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G5313687683533842212333552664360437597681310912131618用动态规划(逆序法求解的)基本特性:(1)将多阶段决策过程划分阶段,恰当地选取状态变量、决策变量、及定义最优指标函数,正确写出基本的递推关系式和恰当的边界条件(简言之为基本方程)。从而把问题化成一族同类的子问题,(2)求解时从边界条件开始,逆(或顺)过程行进方向,逐段递推寻优。在每个问题求解时,都要使用它前面已求出的子问题的最优结果,最后问题的最优解,就是整个问题的最优解。(3)动态规划方法是既把当前一段和未来各段分开,又把当前效益和未来效益结合起来考虑的一种最优化方法。每段决策的选取都是从全局考虑的,与该段的最优选择答案一般是不同的。(4)在求整个问题的最优策略时,由于初始状态是已知的,每段的决策是该段状态的函数,故沿最优化策略所经过的各段状态便可确定了最优路线。1,2,3,4,5,60,771minksfsufsusdsfkkkkkkksDukkkkk(5)求解的各个阶段,我们利用了k阶段与k+1阶段之间的递推关系:kkkkkkksDukksufsusvsfoptkkk1,一般情况