离散时间二人随机微分对策问题信息模式的数学描述范红旗,王胜,付强(国防科技大学ATR实验室,湖南长沙410073)摘要:在离散时间二人随机微分对策问题研究中,信息模式概念尚缺乏统一而准确的描述.针对这一问题,首先将Witsenhausen关于信息模式的相关概念应用到该问题,从数学上严格定义了信息模式及其相关概念,然后对几种典型信息模式的性质及相应对策问题最优解的结构形式作出了严格的证明.相关概念与性质为离散时间二人随机微分对策问题的研究提供了重要的理论工具.关键词:随机微分对策;信息模式;状态估计;最优控制;控制律中图分类号:TP273+1文献标识码:A文章编号:03722112(2010)06135507MathematicalDescriptionforInformationPatternofDiscreteTimeTwoPersonStochasticDifferentialGamesFANHongqi,WANGSheng,FUQiang(ATRLabofNationalUniversityofDefenseTechnology,Changsha,Hunan410073,China)Abstract:Intheresearchesofdiscretetimetwopersonstochasticdifferentialgames,theuniformandexactdescriptionsoninformationpatternareabsent.Tosolvethisproblem,themathematicaldefinitionsofinformationpatternandotherrelatedconceptsareaddressedfirstly,byintroducingWitsenhausen′sconceptsaboutinformationpatterntothediscretetimetwopersonstochasticdifferentialgames.Thenthepropertiesofseveraltypicalinformationpatternsandthestructuresofoptimalcontrollawofdifferentialgameundertheseinformationpatternsarestrictlyproved.Theconceptsandtheoremsofthepaperprovideanimportanttheoreticaltoolfortheresearchesofdiscretetimetwopersonstochasticdifferentialgames.Keywords:stochasticdifferentialgames;informationpattern;stateestimation;optimalcontrol;controllaw1引言微分对策是采用微分方程来描述系统动态过程的一类对策理论,其研究最早可追溯到Isaacs[1].20世纪50年代末,出于飞行器拦截等军事上的需要,兰德公司以Isaacs为领导开始了这方面的研究.他们将现代控制理论中的概念和原理引入到对策论中,取得了重大进展.此后,微分对策理论迅速吸引了战术决策、寻的制导、随机系统控制、网络攻防等领域研究人员的广泛关注,并有大量的著作问世[2~4].在微分对策研究中,二人微分对策是一类最简单的对策问题,理论成果相对较为完备.然而,目前出版的著作[2~4]大都限于完美信息下的微分对策[2].受传感器限制,这种完美信息模式假设在实际应用中会存在两方面的问题:一方面,状态观测中通常包含了一定随机噪声;另一方面,某些状态分量常常无法直接观测.比如在机动目标拦截中,雷达和图像等传感器都不能直接测量目标横向加速度.此外,由于采用计算机控制,状态观测及控制只在离散采样时刻获得[5,6],因此在研究此类系统的最优控制时,往往需要对连续时间状态方程进行离散化,并考虑对策双方信息的缺失与随机性.所以,研究离散时间随机微分对策问题具有更加实际的意义.由于对策双方的信息结构(本文称作信息模式)决定着对策问题最优解的形式及其存在性,因此关于随机微分对策问题的讨论总是基于一定的信息模式.以寻的制导应用为例,早期的代表性成果包括:Behn和Ho[7]假定对策一方的观测中包含白噪声,而另一方则拥有完美信息并可估计对方的控制量,他们得到了该信息模式下对策双方的控制律;Rhodes和Luenberger等人[8]研究了与文献[7]类似信息模式下的对策问题,所不同的是,拥收稿日期:20080605;修回日期:20090227基金项目:973国家安全重大基础研究(No.51314);国防科技预研跨行业综合技术(No.51301050102)第6期2010年6月电子学报ACTAELECTRONICASINICAVol.38No.6Jun.2010有完美信息的一方不能估计出对方的控制量.Willman[9]研究了线性二次高斯微分对策问题,其中对策双方的状态观测都包含高斯噪声,他证明了这类对策问题满足确定性一致原理,对策问题的解可分解为确定性等价项与噪声项之和,由此得到了对策问题的极小极大解,但他并未对解的收敛性和最优性给出严格的证明.而近10年来代表性成果主要集中在Shinar等人工作中[10~12].他们考虑目标机动加速度的估计延迟,在文献[10]中将目标加速度估计等效为真实加速度的延迟,结果表明信息延迟条件下的最优制导策略为一有偏混合策略;在文献[11]中他们基于极小极大确定性等价原理与状态可达集的概念,得到了加速度估计延迟下的微分对策制导律DGL/C;Oshman等人[12]基于DGL/C,利用成像导引头观测到的目标姿态信息来缩减可达集的范围,得到了图像辅助的微分对策制导律DGL/S.最近,Swarup与Speyer[13]对不同信息模式下线性二次高斯随机微分对策的研究情况做了较为全面的总结,表明了信息模式对于微分对策问题研究的重要性.然而目前讨论随机微分对策的各类著作中,对信息模式的概念尚缺乏统一而准确的定义.从数学上准确描述信息模式,对求解随机微分对策问题的最优解,判断最优解的结构形式,理解状态估计与最优控制间的关系等,都具有重要的意义.本文将以离散时间二人随机微分对策问题为例,从数学上严格定义信息模式的相关概念,并对几种典型信息模式的性质给出严格证明.2离散时间二人随机微分对策采用追逃对策惯例,记对策双方分别为P(Pursuer,追踪者)和E(Evader,逃逸者),则N步离散时间二人随机微分对策可表示为:xk+1=fk(xk,wk,uPk,uEk)zik=hik(xk,vik)uPk∈UPRlP,uEk∈UERlEwk∈Rnw,vik∈RnivJ=[x(N),N]+∑N-1k=0G(k,xk,uPk,uEk)k=0,…,N-1,i=P,E(1)其中:xk∈Rn,表示k时刻状态;uik(i=P,E)表示k时刻P或E的控制输入;Ui为Rli(i=P,E)中的有界闭集,称为P/E的控制空间;zPk∈RmP,zEk∈RmE,分别表示k时刻P和E的观测矢量;wk、vik分别表示k时刻的过程噪声及P/E的观测噪声;函数fk为Rn×Rnw×UP×UE→Rn的连续(或分段连续)函数,而hki为Rn×Rniv→Rmi的连续(或分段连续)函数,它们分别表示k时刻系统状态转移函数及P/E的观测函数;J通常称作指标泛函或支付泛函,其中函数G(k,xk,ukP,ukE)为定义在[0,N-1]×Rn×UP×UE上的实值连续函数,而[x(N),N]为终端指标,是定义在Rn×N上的实值函数,且在有界子集中有界.随机微分对策的研究中,通常认为初始状态x0、wk、vik间相互独立,它们一起构成系统的“原始随机变量”.记:ω=(x0,w0,vP0,vE0,w1,vP1,vE1,…,wN-1,vPN-1,vEN-1)Ω={ω|x0∈Rn,wk∈Rnw,vik∈Rniv,k=0,1,…,N-1,i=P,E}上述表示下,ω为“原始随机变量”的一个样本;Ω则表示了系统“原始随机变量”的样本空间.令O表示拓扑空间Ω上的所有开集系,Bσ(O)表示Ω上的Borel集合系,B中的集合称作Ω上的Borel集;那么,(Ω,B,P)就成为系统“原始随机变量”构成的概率空间,表征了系统的不确定性,其中P为概率测度.3信息模式的数学描述Witsenhausen在其关于分离原理的著名论文[6]中描述了具有K个控制单元和M个观测单元的离散时间随机控制系统的信息模式,并讨论了几种信息模式下状态估计与最优控制的可分离性,相关概念与结论对多入多出(MIMO)控制系统设计具有重要指导意义,但关于状态估计与最优控制可分离性的论断,Witsenhausen并未给出严格证明.本节将Witsenhausen关于信息模式的相关概念应用到式(1)的二人随机微分对策问题.定义1(数据基及其生成的数据集)令Zk、Uk分别表示如下有序对所构成的集合:Zk={(τ,i)|τ=0,…,k;i=P,E},k=0,…N-1Uk={(τ,i)|τ=0,…,k-1;i=P,E},k=1,…,N显然有:U0=.如果AZk,BUk,则称有序对(A,B)k为k时刻的一个数据基,称(zA,uB)=zA∪uB为由(A,B)k生成的数据集.其中:zA={zik|(k,i)∈A,zik∈Rmi};uB={uik|(k,i)∈B,uik∈Ui}.定义2(信息模式)式(1)表示的离散时间对策问题中,(k,i)∈UN,称它对应的数据基为k时刻单元i(P或E)的信息模式(informationpattern),记作(Zk,i,Uk,i).由此信息模式生成的数据集{zZk,i,uUk,i}表示了k时刻单元i(P或E)产生控制量uik时的所有可用信息.定义3(控制律)令γik表示span(zZk∪uUk)→Ui的所有Borel可测映射构成的集合.(k,i)∈UN,γik2电子学报2010年∈γik,使得uik=γik(zZk,i,uUk,i),则称γik为k时刻单元i的控制律(控制函数).对于追逃问题,γPk、γEk分别为制导律和逃避策略.定义4(单元及系统的设计)令(γik)N-10=(γi0,γi1,…,γiN-1)(i=P,E)表示式(1)N步离散时间随机对策中单元i的控制律序列,称之为单元i的一个设计.将((γPk)N-10,(γEk)N-10)称为式(1)系统的一个设计,记作γ,将所有的系统设计构成的集合记作Γ.令Γi={γi|γi=(γik)N-10,γik∈γik}(i=P,E)表示单元i的所有可行的设计构成的集合,P和E分别从各自的可行设计集Γi中选择控制量以使性能指标J满足微分对策问题的鞍点条件.定义5(σ域的基)令γL={γik|(k,i)∈L,LUN}表示设计γ中由集合L的元素检索的控制函数所构成的集合.如果ZZk,UUk,LUN,γ,γ′∈Γ,下面关系成立:γL=γ′LF(Z,U;γ)=F(Z,U;γ′)则称三元组(Z,U,L)为k时刻σ域F(Z,U;γ)的一组基.其中,F(Z,U;γ)表示设计γ下由定义在概率空间(Ω,F,P)上的随机变量集(zz,uU)生成的σ域.定义6(状态变量的条件基)如果存在函数F,γ∈Γ,给定σ域F(Z,U;γ)后,状态变量y的条件概率分布几乎处处等于F(zZ,uU,γL),则称三元组(Z,U,L)为y的条件基.定义7(等价设计)将控制变量u表示为原始随机变量ω与设计γ的函数,即:u=S(ω,γ).γ∈Γ,如果γ′∈Γ,使得下式成立:S(ω,γ)a.e.S(ω,γ′)则称这两个设计等价,记作γγ′.定义8(等价的信息模式)对于信息模式(Zk,i,Uk,i)下任意的设计γ,如果信息模式(Z′k,i,U′k,i)下存在另一个设计γ′,使得γγ′,反之亦成立,则称这两个信息模