动态规划DP

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

动态规划DP(DynamicProgramming)动态规划是现代企业管理中一种重要的决策方法,它是解决多阶段决策过程最优化的一种数学方法。豆丁完全解决方案,1000W高质量文档+1天上传5W文档通过率8成==1年后月被动收入5W以上,全套解决方案售价仅8W元,有意请联系扣扣709604208豆丁完全解决方案,1000W高质量文档+1天上传5W文档通过率8成==1年后月被动收入5W以上,全套解决方案售价仅8W元,有意请联系扣扣709604208豆丁完全解决方案,1000W高质量文档+1天上传5W文档通过率8成==1年后月被动收入5W以上,全套解决方案售价仅8W元,有意请联系扣扣709604208豆丁完全解决方案,1000W高质量文档+1天上传5W文档通过率8成==1年后月被动收入5W以上,全套解决方案售价仅8W元,有意请联系扣扣709604208豆丁完全解决方案,1000W高质量文档+1天上传5W文档通过率8成==1年后月被动收入5W以上,全套解决方案售价仅8W元,有意请联系扣扣709604208豆丁完全解决方案,1000W高质量文档+1天上传5W文档通过率8成==1年后月被动收入5W以上,全套解决方案售价仅8W元,有意请联系扣扣709604208动态规划大约产生于五十年代,1951年美国数学家贝尔曼(R.Bellman)等人,根据一类多阶段决策问题的特点,把多阶段决策问题变换为一系列相互联系的单阶段问题。然后逐个加以解决。同时,他提出了解决这类问题的最优原理,研究了许多实际问题,从而创建了解决最优化问题的一种新的方法----动态规划。动态规划的方法,在工程技术、企业管理、军事等部门都有广泛的应用。在企业管理中,动态规划可以用来解决最优路径问题、资源分配问题、生产调度问题、库存问题、装载问题、排序问题、设备更新问题、生产过程最优控制问题。需要特别强调的是:动态规划是求解一类问题的方法,是考察问题的一种途径,而不是一种特殊的算法。因而不像线性规划那样有一个标准的数学表达式和明确定义的一组规则。故需要有丰富的想象去建模,创造性地去求解。一、多段决策问题的提出例1生产与存储问题某工厂每季度需供应市场一定数量的产品(600,700,500,1200),未销售完的产品存入仓库(每件每季度1元),现要制定生产计划,在满足市场需求的条件下,使一年的生产与存储费用最少。生产费用为:件数的平方成正比,比例系数为0.005。这是一个求最小值的四阶段决策问题,根据题意可知;生产量是决策变量,库存量是反映当前每季度产品库存的客观状态,为状态变量。设第k季度生产的产品数为ku,第k季度的库存量为kS,第k季度的销售量为kq,由此得出三个变量之间的关系为:)4,3,2,1(1kquSSkkkk假设年初和年底无存货,即01S,05S。由题中给定的条件可得全过程目标管理函数为:4121)005.0(kkkSuf我们的目标就是求最优的生产决策序列,即全年中每季度的最优生产量4321,,,uuuu,使在满足市场需求的条件下,使一年的总费用最少,由此得本问题的数学模型为:0000505114121,SSquSS)Su.(fkkkkkkk例2最短路问题设有一辆汽车由A城到B城,中间可经过V1到V8城市,各城市的交通路线及距离如下图所示,问应选择哪一条路线,可使总距离最短。可将上述最短路问题看成是四个阶段的决策问题,第一阶段为A到V1,V2,V3,第二阶段为V1,V2,V3到V4,V5,V6,第三阶段为V4,V5,V6到V7,V8,第四阶段为V7,V8到B。在第一阶段,A为起点,终点有V1,V2,V3三个,此时走的路线有三种选择,若选择走到V2。在第二阶段,在从V2出发,可供选择的终点集合{V4,V5,V6},同理递推下去,可看到:各个阶段的决策不同,走的路线就不同,总的距离就不同。故此问题的要求是:在各个阶段选区一个恰当的决策,有这些决策组成的决策序列所决定的一条路线,其总路程最短。由上述例题可知,在实际生产、科学试验、经济活动的过程中,有一类活动的过程,由于其特殊性。可将该过程分为若干个相联系的阶段,在每个阶段都要做出决策,全部过程的决策就形成一个决策序列,每一个阶段的决策有许多种方案选择,从而形成多种决策策略,在这些决策策略中选择一个最优的策略,使在预定的标准下达到最好效果,这就是多阶段决策问题。二、多阶段决策的有关概念(1)阶段;把所给问题的过程,按照过程的时间、空间等的自然特征,恰当的分为若干个相互联系的阶段,以便能按一定的次序去求解,描述阶段的变量称为阶段变量,用k表示。例如例1中可分为四个联系的阶段,4,3,2,1k(2)状态;表示每个阶段开始时所处的自然状况或客观条件,描述了研究问题过程的状况,在例1中,状态就是每个阶段开始时的库存,它既是前一阶段的结果,又是后一阶段的开始。通常一个阶段有若干个状态。描述状态的变量称为状态变量,常用kS表示第k阶段的状态变量。例1中01S,05S表示状态变量1S,5S的值为0,而432,,SSS的取值可能有多种情况。状态应具有无后效性的特点:如果某阶段的状态给定以后,则在这阶段以后过程的发展不受这阶段以前各阶段状态的影响。(3)决策;当过程出于某一阶段的某个状态时,可以做出不同的选择、决定,从而决定下一个阶段的状态,这种决定称为决策。描述决策的变量,称为决策变量。通常用)(kkSu表示第k阶段状态处于kS时的决策变量。(4)策略;策略是一个决策序列。由过程的第k阶段开始到中止状态的过程,称为问题的后部子过程(或k子过程),将后部子过程的决策按顺序排列成的决策函数)}(,),(),({11nnkkkkSuSuSu称为k子过程策略,记为)(,knkSp,当1k时,此决策函数称为全过程的策略,在实际问题中,策略有一定的范围,此范围称为允许策略集合,从允许策略集合中找出达到最优效果的策略就是我们的目标,该策略称为最优策略。(5)状态转移方程;状态转移方程就是确定过程由一个状态到另一个状态的变化,如果给定第k阶段的状态kS,决策为)(kkSu,则第1k阶段的状态1kS为:))(,(1kkkkSuSLS称为状态转移方程,反映了相邻状态变量间的关系。(6)指标函数和最优值函数;用来衡量所实现过程优劣的一种数量函数。它定义在全过程和后部子过程上,常用nkfk,,2,1,表示,指标函数应具有可分离性,递推性。指标函数的最优值称为最优值函数。三、动态规划的基本思想和基本方程以最短路线为例介绍动态规划的思想。常识告诉我们,最短路线有一个重要特点:如果由起点A经过B,C,D,E,F点到达终点G是一条最短的路线,则由点B出发经过C,D,E,F点到达终点G的这条子路线。就必然是从点B出发到达终点的所有可能选择的不同路线中最短的一条。此特点可用反正发来证明。根据最短路线这一特点,我们就得到了寻找最短路线的方法,假设已求得从点B出发到达终点的最短路线,再选择从A到B两点间的一条最短路线,就求得了从起点A到终点G的一条最短路线。那么,如何求从点B出发到达终点的最短路线呢,再假设已求得从点C出发到达终点的最短路线,再选择从B到C两点间的一条最短路线,就求得了从起点B到终点G的一条最短路线。以这样的思路,只要能求出F到G的最短路,就可以求出E到G的最短路,从而递推的求出,D,C,B,A到G的最短路。所以动态规划方法就是从终点逐段向始点方向寻找最优解的一种方法,即就是从最后一段开始,用由后向前逐步递推的方法,求出各点到G点的最短路线,最后求得有A点到G点的最短路线。下面按照动态规划的方法求解例2中最短路问题.从最后一段开始,有后向前逐步递推至A点。当4k时,由V7到终点B只有一条路线,故4)(74Vf,同理,3)(84Vf当3k时,出发点有V4,V5,V6,三个,若从V4,出发则有两种选择V7,V8,一是到V7,另一是到V8,因此7735)(),(743)(),(min)(8484747443VfVVdVfVVdVf其相应的决策为743)(VVu,说明,由V4,出发到终点的最短距离为7,最短路线为:V4,V7,B同理,从V5,V6,出发,有5732)(),(1046)(),(min)(8485747553VfVVdVfVVdVf其相应的决策为853)(VVu,5633)(),(541)(),(min)(8486747663VfVVdVfVVdVf其相应的决策为763)(VVu当2k时,出发点有V1,V2,V3,若从V1,出发则有三种选择V4,V5,V6,一是到V4,另一是到V5,还有一是到V6,因此91055)(),(954)(),(1376)(),(min)(63615351434112VfVVdVfVVdVfVVdVf,其相应的决策为512)(VVu111156)(),(1257)(),(1578)(),(min)(63625352434222VfVVdVfVVdVfVVdVf,其相应的决策为622)(VVu131459)(),(1358)(),(1477)(),(min)(63635353434332VfVVdVfVVdVfVVdVf,其相应的决策为532)(VVu当1k时,出发点为A,终点有三种选择:V1,V2,V3,1718135)(),(20119)(),(1798)(),(min)(3232221211VfVAdVfVAdVfVAdAf,其相应的决策为11)(VAu于是从A到B的最短距离为17。求得的最优决策函数序列为:11)(VAu,512)(VVu,853)(VVu,BVu)(84。从上面的计算可以看出,在求解中利用了k阶段与k+1阶段之间的递推关系:1,,1,,0)())(),(()(1111minnnkSfSfuSgSfnnkkkkUkkk其中),(kkuSg是kS状态下ku的选择方式。称这一递推关系式为动态规划基本方程。四、动态规划的最优性原理(R.Bellman原理)“作为整个过程的最优策略具有这样的性质:无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的决策必须构成最优策略。”简言之,一个最优策略的子策略总是最优的。五、解法举例现利用动态规划的基本方程求解例1中的生产与存储问题。当4k时,有42444005.0)(SuSf由于05S,由状态方程得04445quSS从而当第四阶段的状态4S给定以后,其决策为:44441200SSqu其指标函数的最优值为:2444244005.0117200)1200(005.0SSSSf当3k时,有)005.0117200005.0(min)(005.0(min)(244323443233333SSSuSfSuSfuu由于,500333334uSquSS,则))500(005.0)500(117200005.0(min)(005.0(min)(23333323443233333uSuSSuSfSuSfuu现假设3S给定的情况下,确定最优决策3u,使指标函数)(33Sf最小。根据极值原理;0)(333duSdf得到决策值为:335.0800Su其指标函数的最优值为:23330025.077550SSf当2k时,有)0025.077550005.0(min)(005.0(min)(233222332222222SSSuSfSuSfuu由于,700222223uSquSS,则))700(0025.

1 / 62
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功