最优控制课程课件II-6.LQR和微分博弈

momery2008
0 ℃
2020-12-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

........................................第⼗讲：微分博弈最优控制的数学理论之六张杰⼈⼯智能学院中国科学院⼤学复杂系统管理与控制国家重点实验室中国科学院自动化研究所2017年10月19日Jie,Zhang(CASIA)OptimalControl最优控制的数学理论1/49........................................TableofContents1回顾：PMP与HJB⽅程2博弈论基础3微分博弈4例⼦：零和追逃博弈Jie,Zhang(CASIA)OptimalControl最优控制的数学理论2/49........................................回顾：PMP与HJB⽅程TableofContents1回顾：PMP与HJB⽅程2博弈论基础3微分博弈4例⼦：零和追逃博弈Jie,Zhang(CASIA)OptimalControl最优控制的数学理论3/49........................................回顾：PMP与HJB⽅程最优控制问题最优控制问题问题1(最优控制问题)1被控对象的状态⽅程为_x(t)=f(x(t);u(t);t);x(t0)=x0:2容许控制,u2U;x2X:3目标集,x(tf)2SS=[t0;1)fx(tf)2Rn:m(x(tf);tf)=0g4求分的u，以最小化性能指标J(u)=h(x(tf);tf)+∫tft0g(x(t);u(t);t)dt:Jie,Zhang(CASIA)OptimalControl最优控制的数学理论4/49........................................回顾：PMP与HJB⽅程庞特里亚⾦极小值原理Pontryagin极小值原理定理1(庞特里亚⾦极小值原理)上问题得到最优控制u(t)的要条件为（TPBVP）极值条件：对任意容许控制u′(t)H(x(t);u(t);p(t);t)H(x(t);u′(t);p(t);t):规范⽅程：状态(state)⽅程:_x(t)=+@H@p(x(t);u(t);p(t);t);协态(costate)⽅程:_p(t)=@H@x(x(t);u(t);p(t);t):边界条件(用于处理目标集)：[@h@x(x(tf);tf)p(tf)]xf+[H(x(tf);u(tf);p(tf);tf)+@h@t(x(tf);tf)]tf=0:Jie,Zhang(CASIA)OptimalControl最优控制的数学理论5/49........................................回顾：PMP与HJB⽅程HJB⽅程Bellman⽅程定理2(Bellman⽅程)x0为初值k0为初始时刻，最优控制下的性能指标为“值函数”V(x0;k0)=minu2UJ(u;x0;k0)(1)根据最优性原理，最优控制满⾜下Bellman⽅程：V(x(N);N)=hD(x(N);N):(2)V(x(k);k)=minu(k)2UfgD(x(k);u(k);k)+V(x(k+1);k+1)g;k=N1;:::;0:(3)Jie,Zhang(CASIA)OptimalControl最优控制的数学理论6/49........................................回顾：PMP与HJB⽅程HJB⽅程Hamilton-Jacobi-Bellman⽅程定理3(Hamilton-Jacobi-Bellman⽅程)若最优控制问题有解，值函数是以t0为初始时刻，x0为初始状态，在最优控制下的性能指标：V(x0;t0)=minuJ(u;x0;t0):(4)若值函数阶可微，则如下Hamilton-Jacobi-Bellman⽅程（称HJB⽅程）是最优控制的分要条件：@V@t(x(t);t)=minu(t)2RmH(x(t);u(t);@V@x(x(t);t);t);(5)V(x(tf);tf)=h(x(tf);tf)（终代价）:(6)Jie,Zhang(CASIA)OptimalControl最优控制的数学理论7/49........................................博弈论基础TableofContents1回顾：PMP与HJB⽅程2博弈论基础3微分博弈4例⼦：零和追逃博弈Jie,Zhang(CASIA)OptimalControl最优控制的数学理论8/49........................................博弈论基础⼀个例⼦例⼦：导弹攻击固定目标的最优控制例1(导弹攻击固定目标的最优控制)初始时刻导弹三维坐标x0，速度为v0，状态⽅程_x(t)=v(t);x(t0)=x0:(7)_v(t)=u(t);v(t0)=v0:(8)终⽌条件：tf时刻导弹击中目标的坐标xf，速度vf自由最小化性能指标，例如最小能量J(u)=∫tft012∥u∥2dt(9)Jie,Zhang(CASIA)OptimalControl最优控制的数学理论9/49........................................博弈论基础⼀个例⼦例⼦：导弹攻击移动目标的最优控制例2(导弹攻击移动目标的最优控制)导弹(M)状态⽅程和目标(T)状态⽅程分别为(uT已知)_xM(t)=vM(t);_vM(t)=uM(t):(10)_xT(t)=vT(t);_vT(t)=uT(t):(11)终⽌条件：tf时刻导弹击中目标，速度vf自由xM(tf)=xT(tf):(12)最小化性能指标，例如能量J(uM)=∫tft012∥uM∥2dt(13)Jie,Zhang(CASIA)OptimalControl最优控制的数学理论10/49........................................博弈论基础⼀个例⼦引⼊“相对位置”“相对速度”令x:=xMxT,v:=vMvT.状态⽅程变为_x=vMvT=v;(14)_v=uMuT:(15)终值条件x(tf)=0,v(tf)free。性能指标不变环境中有其他决策者，控制策略已知，则可化为最优控制问题Jie,Zhang(CASIA)OptimalControl最优控制的数学理论11/49........................................博弈论基础⼀个例⼦被攻击的目标也使用最优控制躲避？Jie,Zhang(CASIA)OptimalControl最优控制的数学理论12/49........................................博弈论基础⼀个例⼦微分博弈的发展1928年(OntheTheoryofGamesofStrategy)，1944年(Theoryofgamesandeconomicbehavior)两篇著作中，JohnVonNeumann和OskerMorgenstern创立博弈论1951年起，Rand公司在美国空军资助下，RufusIssacs研究对抗双⽅都能自由决策⾏动的追逃问题，形成了微分博弈的最初研究成果60-70年代，微分博弈理论逐渐完善，得到微分博弈值函数存在性等基础结果；1965年，Issacs整理出版了第⼀部微分博弈同名专著。也称动态博弈Saridis称之为“最坏情况设计”(1971年)2016年，Google公司的AlphaGo结合动态博弈和强化学习首次在围棋领域战胜⼈类世界冠军Jie,Zhang(CASIA)OptimalControl最优控制的数学理论13/49........................................博弈论基础博弈论从优化到博弈定义1(函数极小值)ΩRN是开集。称函数F2C1(Ω)在x达到局部极小值，若存在ϵ0使得:F(x)F(x′);if∥x′x∥ϵ;8x′2Ω:定义2(纳什平衡NashEquilibrium,NE)F2C1(Ω1Ω2)，局中⼈i=1;2的性能指标分别为Fi(x1;x2),x12Ω1,x22Ω2。x1;x2是纳什平衡，若F1(x1;x2)F1(x′1;x2);8x′12Ω1;(16)F2(x1;x2)F2(x1;x′2);8x′22Ω2:(17)Jie,Zhang(CASIA)OptimalControl最优控制的数学理论14/49........................................博弈论基础反应函数法求解纳什平衡反应函数法求解博弈平衡定义3(反应函数)对于任意给定的x22Ω，映射R1(x2)=argminx12ΩF1(x1;x2)称为局中⼈-1的反应函数(reactionfunction,orbestresponse)Remark1(反应函数法求解纳什平衡)若x1=R1(x2);x2=R2(x1)，可知x1;x2为纳什平衡。可通过联立博弈双⽅的反应函数求解博弈的纳什平衡Jie,Zhang(CASIA)OptimalControl最优控制的数学理论15/49........................................博弈论基础反应函数法求解纳什平衡古诺博弈:反应函数法求解纳什平衡例3(古诺寡头竞争模型,CournotModel)两家公司i=1;2⽣产同类产品，⽣产数量为qi0，⽣产成本为c(qi)=cqi，市场上产品单价p(q)=aq与市场上的产品总量q=q1+q2有关。两家公司都希望最⼤化各自的净利润V1(q1;q2)=p(q1+q2)q1c(q1);(18)V2(q1;q2)=p(q1+q2)q2c(q2):(19)Jie,Zhang(CASIA)OptimalControl最优控制的数学理论16/49........................................博弈论基础反应函数法求解纳什平衡1/2求Best-response固定公司2产量q2，公司1产量q1应满⾜⼀阶条件0=@V1@q1=_p(q1+q2)q1+p(q1+q2)c;R1(q2)=aq2c2:类似的，固定公司1产量，可得公司2的反应函数R2(q1)=aq1c2:q1=R1(q2)=aq2c2;q2=R2(q1)=aq1c2:Jie,Zhang(CASIA)OptimalControl最优控制的数学理论17/49........................................博弈论基础反应函数法求解纳什平衡2/2根据Best-response求得NE联立两个公司的反应函数得到古诺模型的纳什平衡q1=ac3;q2=ac3:(20)Jie,Zhang(CASIA)OptimalControl最优控制的数学理论18/49........................................博弈论基础反应函数法求解纳什平衡斯坦伯格模型问题2(斯坦伯格模型,StackelbergModel)“领导者”实施公策略，“跟随者”随实施策略，则称为斯坦伯格模型。同考古诺模型中双寡头竞争的例⼦，局中⼈1发，局中⼈2发Remark2(反应函数法求解斯坦伯格平衡)跟随者采用策略x2=R2(x1)时，领导者性能指标（或效用函数）中已经不再包含其他⼈的策略，只需求解以自⼰策略为自变量的最优化问题即可Jie,Zhang(CASIA)OptimalControl最优控制的数学理论19/49........................................博弈论基础反应函数法求解纳什平衡计算斯坦伯格平衡固定领导者的产量q1，跟随者的反应函数为R2(q1)=aq1c2:尽管领导者⽆法观测对⼿具体实施的策略，然⽽他可以据此得到对⼿的反应函数，于是V1(q1;R2(q1))=p(q1+R2(q1))q1c(q1)=p(a+q1c2)q1cq1;0=@V