决策理论与方法(DecisionMakingTheoryandMethods)《决策理论与方法》编写组教育部高等学校管理科学与工程类学科专业教学指导委员会推荐教材《决策理论与方法》第2页第2页第四章动态决策分析《决策理论与方法》第3页第3页学习目的了解多阶段决策、序贯决策的概念及特点;掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。《决策理论与方法》第4页第4页本讲内容4.3序贯决策4.3.1序贯决策的基本概念4.3.2序贯决策的决策方法《决策理论与方法》第5页第5页4.3序贯决策4.3.1序贯决策的基本概念上面的多阶段决策,阶段数是确定的。除这种决策外,还有一些决策的阶段数不是事先确定的,它依赖于执行决策过程中出现的情况。这种决策问题称为序贯决策(sequentialdecisionproblem)。序列决策在进行决策后又产生一些新的情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策……,这就构成一个序列。《决策理论与方法》第6页第6页4.3序贯决策4.3.1序贯决策的基本概念序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是:1)所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;2)决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值);3)系统下一步(或未来)可能出现的状态是随机的或不确定的。《决策理论与方法》第7页第7页4.3序贯决策4.3.1序贯决策的基本概念系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:1)系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。2)系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。22,raEfE22,raEfE22,raEfE《决策理论与方法》第8页第8页4.3序贯决策4.3.2序贯决策的决策方法序贯决策的过程是:从初始状态开始,每个时刻做出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再做出新的最优决策,反复进行直至最后。解决序贯决策问题的有效办法仍然是决策树,解决序贯决策的关键是确定一个决策序列终止的原则。在下例中,这个原则就是:不管到决策的哪个阶段,只要有一个非经抽样的后悔期望值小于进行一次抽样的费用,决策序列便可终止。22,raEfE22,raEfE22,raEfE《决策理论与方法》第9页第9页4.3序贯决策4.3.2序贯决策的决策方法例4-3-1某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01,0.40,0.90三种可能,其概率分别为0.2,0.6,0.2。现在的问题是:出厂前是否要对产品进行严格检验,将次品挑出。可以选择的行动有两个:①整箱检验(a1),检验费为每箱100元;②整箱不检验(a2),但如果顾客在使用中发现次品,每件次品除条换为合格品外还要赔偿0.25元损失费。《决策理论与方法》第10页第10页4.3序贯决策为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它,然后根据这件产品是都次品再决定该箱是否要检验,抽样成本为4.2元。进行第一次抽样后,除选择检验还是不检验外,还可以根据前面抽样的结果,考虑再进行一次抽样检验如此形成一个决策序列。试进行序列决策:(1)是否需要抽样?(若需要,抽样几次?)(2)在抽样或不抽样的前提下,采用何种方案进行检验?《决策理论与方法》第11页第11页【例8.2】解:θ1,θ2,θ3分别表示产品次品率为0.01,0.4,0.9三种状态。对于抽样检验一件产品,X=1和X=0分别表示样品为次品和合格品两个结果。结果值均用期望损失值表示。序列决策树图不能够一次绘制成功,而是随着决策过程序列的延伸和终止依次进行。为了简化图形,行动方案al和a2可能出现的状态及其对应的损失值均在图中略去,仅在方案枝末端标注上期望损失值。《决策理论与方法》第12页第12页14532867a1a2A1A2A3A4X1=0X1=19X2=0X2=1a1a2(略)………《决策理论与方法》第13页第13页相应的损失矩阵为12500005.97)(32ijrR先进行第一次抽样的后验概率计算3111)()|0()0(jjjpxpXP2.010.06.060.02.099.0578.02251001001005.2100)(32ijqQ该问题的费用矩阵为:《决策理论与方法》第14页第14页3426.0578.02.099.0)0()()|0()0|(111111XPPXpXP6228.0578.06.060.0)0()()|0()0|(122112XPPXPXP0346.0578.02.010.0)0()()|0()0|(133113XPPXPXP3111)()|1()1(jjjPXPXP2.090.06.040.02.001.0422.0《决策理论与方法》第15页第15页【例8.2】0047.0422.02.001.0)1()()|1()1|(111111XPPXPXP5687.0422.06.040.0)1()()|1()1|(122112XPPXPXP4265.0422.02.090.0)1()()|1()1|(133113XPPXPXP第一次抽样的后验概率矩阵为4265.05687.00047.00346.06228.03426.0)|(3211XP01X11X《决策理论与方法》第16页第16页后验行动方案的期望损失值矩阵为)|()|(11XPRXaR4265.05687.00047.00346.06228.03426.012500005.9731.53325.44582.040.3321aa01X11X一次抽样后最满意方案分别为:11)1(aXa21)0(aXa《决策理论与方法》第17页第17页6.894.3250.458219.52.6933.404.3250.458253.3119.525a1a2a1a2a1a2A1A2A3A4S1S20.5780.4220.34260.62280.03460.34260.56870.42650.00470.56870.42650.20.60.20.00470.56870.42650.20.20.697.5000012597.5000012597.50000125期望损失值(包含抽样费用)若为正品,则无须检验整箱产品;若为次品,则整箱检验。最满意方案是,应抽取一件产品作样品检验。《决策理论与方法》第18页第18页在A2上X1=1的决策点处,由于行动方案a1的期望损失值0.4582已小于抽样费用4.20,所以第二次抽样分支S2在此处被截断,决策序列在该分支上终止。而在Xl=0的决策点处,由于行动方案al,a2。的期望损失值分别为33.40和4.324,均大于抽样费用4.20,因此,在此分支上,可进行第二次抽样,抽样结果用X2表示。X2=0和X2=1分别表示第二次抽样抽取一个样品为正品和次品。《决策理论与方法》第19页第19页第二次抽样的后验概率计算如下:311212)0|()|0()0|0(jjjXPXPXXP0346.010.06228.06.03426.099.07163.04735.07163.03426.099.0)0|(21XP5217.07163.06228.060.0)0|(22XP0048.07163.00346.010.0)0|(23XP《决策理论与方法》第20页第20页311212)0|()|1()0|1(jjjXPXPXXP0346.090.06228.040.03426.001.02837.00121.02837.03426.001.0)1|(21XP8781.02837.06228.040.0)1|(22XP1098.02837.00346.090.0)1|(23XP《决策理论与方法》第21页第21页第二次抽样的后验概率矩阵为1098.08781.00121.00048.05217.04735.0)|(3212XP02X12X后验行动方案的期望损失值矩阵为)|()|(22XPRXaR1098.00048.08781.05217.00121.04735.012500005.9773.136038.01778.117.4621aa02X12X二次抽样后最满意方案分别为:12)1(aXa22)0(aXa《决策理论与方法》第22页第22页由于X2=0在的决策点处,方案a2的期望损失值0.6038已小于抽样费用4.20,则序列决策的这一分支应该终止。同样,对于X2=1决策点处,由于方案a1的期望损失值1.1778也小于抽样费用,则这一分枝也应终止。于是,到此决策序列全部终止。《决策理论与方法》第23页第23页4.20a1a2s1a1a2s233.44.3254.2019.50.578a1a2s346.170.60384.200.7163a1a2s313.734.200.28371.1778a1a2s213.734.200.4220.4582A1A2A3S1S26.892.694.3250.45820.76664.3251.1778…《决策理论与方法》第24页第24页在A3上X2=0的决策点处,最满意行动方案为a2,截去a1和s3;在X2=1的决策点处,最满意行动方案为a1,截去a2和s3。在s2状态点处,期望损失值为:)(7666.02837.01778.17163.06038.0元《决策理论与方法》第25页第25页在A2上X1=0的决策点处,最满意行动方案为a2,截去a1和s2;在X1=1的决策点处,最满意行动方案为a1,截去a2和s2。在s1状态点处,期望损失值为:(元)69.2422.04582.0578.0325.4在A1决策点处,最满意方案的期望损失值为:)(89.62.469.2元所以截去a1和a2。《决策理论与方法》第26页第26页综上所述,决策是:应该进行一次抽样检验。若为正品,则采取行动方案a2,即整箱产品不予检验;若为次品,则采取行动方案a1,即整箱产品予以检验,序列决策过程也可以用简化决策树图表示。6.892.694.204.3250.4582s10.5780.422a1a24.3250.4621《决策理论与方法》第27页第27页§4.4马尔可夫决策研究这样的一类决策问题:采取的行动已经确定,但将这个行动付诸实践的过程又分为几个时期。在不同的时期,系统可以处在不同的状态,而这些状态发生的概率又可受前面时期实际所处状态的影响。其中一种最简单、最基本的情形,是每一时期状态参数的概率分布只与这一时期的前一时期实际所处的状态有关,而与更早的状态无关,这就是所谓的马尔可夫链。《决策理论与方法》第28页第28页§4.4马尔可夫决策4.4.1马尔可夫决策问题马氏过程马尔科夫(M.A.Markov)提出一种描述系统状态转移的数