离散时间二人随机微分对策问题信息模式的数学描述

zwch090
0 ℃
2018-10-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

离散时间二人随机微分对策问题信息模式的数学描述范红旗，王胜，付强（国防科技大学ＡＴＲ实验室，湖南长沙４１００７３）摘要：在离散时间二人随机微分对策问题研究中，信息模式概念尚缺乏统一而准确的描述．针对这一问题，首先将Ｗｉｔｓｅｎｈａｕｓｅｎ关于信息模式的相关概念应用到该问题，从数学上严格定义了信息模式及其相关概念，然后对几种典型信息模式的性质及相应对策问题最优解的结构形式作出了严格的证明．相关概念与性质为离散时间二人随机微分对策问题的研究提供了重要的理论工具．关键词：随机微分对策；信息模式；状态估计；最优控制；控制律中图分类号：ＴＰ２７３＋１文献标识码：Ａ文章编号：０３７２２１１２（２０１０）０６１３５５０７ＭａｔｈｅｍａｔｉｃａｌＤｅｓｃｒｉｐｔｉｏｎｆｏｒＩｎｆｏｒｍａｔｉｏｎＰａｔｔｅｒｎｏｆＤｉｓｃｒｅｔｅＴｉｍｅＴｗｏＰｅｒｓｏｎＳｔｏｃｈａｓｔｉｃＤｉｆｆｅｒｅｎｔｉａｌＧａｍｅｓＦＡＮＨｏｎｇｑｉ，ＷＡＮＧＳｈｅｎｇ，ＦＵＱｉａｎｇ（ＡＴＲＬａｂｏｆＮａｔｉｏｎａｌＵｎｉｖｅｒｓｉｔｙｏｆＤｅｆｅｎｓｅＴｅｃｈｎｏｌｏｇｙ，Ｃｈａｎｇｓｈａ，Ｈｕｎａｎ４１００７３，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｒｅｓｅａｒｃｈｅｓｏｆｄｉｓｃｒｅｔｅｔｉｍｅｔｗｏｐｅｒｓｏｎｓｔｏｃｈａｓｔｉｃｄｉｆｆｅｒｅｎｔｉａｌｇａｍｅｓ，ｔｈｅｕｎｉｆｏｒｍａｎｄｅｘａｃｔｄｅｓｃｒｉｐｔｉｏｎｓｏｎｉｎｆｏｒｍａｔｉｏｎｐａｔｔｅｒｎａｒｅａｂｓｅｎｔ．Ｔｏｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍ，ｔｈｅｍａｔｈｅｍａｔｉｃａｌｄｅｆｉｎｉｔｉｏｎｓｏｆｉｎｆｏｒｍａｔｉｏｎｐａｔｔｅｒｎａｎｄｏｔｈｅｒｒｅｌａｔｅｄｃｏｎｃｅｐｔｓａｒｅａｄｄｒｅｓｓｅｄｆｉｒｓｔｌｙ，ｂｙｉｎｔｒｏｄｕｃｉｎｇＷｉｔｓｅｎｈａｕｓｅｎ′ｓｃｏｎｃｅｐｔｓａｂｏｕｔｉｎｆｏｒｍａｔｉｏｎｐａｔｔｅｒｎｔｏｔｈｅｄｉｓｃｒｅｔｅｔｉｍｅｔｗｏｐｅｒｓｏｎｓｔｏｃｈａｓｔｉｃｄｉｆｆｅｒｅｎｔｉａｌｇａｍｅｓ．Ｔｈｅｎｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｓｅｖｅｒａｌｔｙｐｉｃａｌｉｎｆｏｒｍａｔｉｏｎｐａｔｔｅｒｎｓａｎｄｔｈｅｓｔｒｕｃｔｕｒｅｓｏｆｏｐｔｉｍａｌｃｏｎｔｒｏｌｌａｗｏｆｄｉｆｆｅｒｅｎｔｉａｌｇａｍｅｕｎｄｅｒｔｈｅｓｅｉｎｆｏｒｍａｔｉｏｎｐａｔｔｅｒｎｓａｒｅｓｔｒｉｃｔｌｙｐｒｏｖｅｄ．Ｔｈｅｃｏｎｃｅｐｔｓａｎｄｔｈｅｏｒｅｍｓｏｆｔｈｅｐａｐｅｒｐｒｏｖｉｄｅａｎｉｍｐｏｒｔａｎｔｔｈｅｏｒｅｔｉｃａｌｔｏｏｌｆｏｒｔｈｅｒｅｓｅａｒｃｈｅｓｏｆｄｉｓｃｒｅｔｅｔｉｍｅｔｗｏｐｅｒｓｏｎｓｔｏｃｈａｓｔｉｃｄｉｆｆｅｒｅｎｔｉａｌｇａｍｅｓ．Ｋｅｙｗｏｒｄｓ：ｓｔｏｃｈａｓｔｉｃｄｉｆｆｅｒｅｎｔｉａｌｇａｍｅｓ；ｉｎｆｏｒｍａｔｉｏｎｐａｔｔｅｒｎ；ｓｔａｔｅｅｓｔｉｍａｔｉｏｎ；ｏｐｔｉｍａｌｃｏｎｔｒｏｌ；ｃｏｎｔｒｏｌｌａｗ１引言微分对策是采用微分方程来描述系统动态过程的一类对策理论，其研究最早可追溯到Ｉｓａａｃｓ［１］．２０世纪５０年代末，出于飞行器拦截等军事上的需要，兰德公司以Ｉｓａａｃｓ为领导开始了这方面的研究．他们将现代控制理论中的概念和原理引入到对策论中，取得了重大进展．此后，微分对策理论迅速吸引了战术决策、寻的制导、随机系统控制、网络攻防等领域研究人员的广泛关注，并有大量的著作问世［２～４］．在微分对策研究中，二人微分对策是一类最简单的对策问题，理论成果相对较为完备．然而，目前出版的著作［２～４］大都限于完美信息下的微分对策［２］．受传感器限制，这种完美信息模式假设在实际应用中会存在两方面的问题：一方面，状态观测中通常包含了一定随机噪声；另一方面，某些状态分量常常无法直接观测．比如在机动目标拦截中，雷达和图像等传感器都不能直接测量目标横向加速度．此外，由于采用计算机控制，状态观测及控制只在离散采样时刻获得［５，６］，因此在研究此类系统的最优控制时，往往需要对连续时间状态方程进行离散化，并考虑对策双方信息的缺失与随机性．所以，研究离散时间随机微分对策问题具有更加实际的意义．由于对策双方的信息结构（本文称作信息模式）决定着对策问题最优解的形式及其存在性，因此关于随机微分对策问题的讨论总是基于一定的信息模式．以寻的制导应用为例，早期的代表性成果包括：Ｂｅｈｎ和Ｈｏ［７］假定对策一方的观测中包含白噪声，而另一方则拥有完美信息并可估计对方的控制量，他们得到了该信息模式下对策双方的控制律；Ｒｈｏｄｅｓ和Ｌｕｅｎｂｅｒｇｅｒ等人［８］研究了与文献［７］类似信息模式下的对策问题，所不同的是，拥收稿日期：２００８０６０５；修回日期：２００９０２２７基金项目：９７３国家安全重大基础研究（Ｎｏ．５１３１４）；国防科技预研跨行业综合技术（Ｎｏ．５１３０１０５０１０２）第６期２０１０年６月电子学报ＡＣＴＡＥＬＥＣＴＲＯＮＩＣＡＳＩＮＩＣＡＶｏｌ．３８Ｎｏ．６Ｊｕｎ．２０１０有完美信息的一方不能估计出对方的控制量．Ｗｉｌｌｍａｎ［９］研究了线性二次高斯微分对策问题，其中对策双方的状态观测都包含高斯噪声，他证明了这类对策问题满足确定性一致原理，对策问题的解可分解为确定性等价项与噪声项之和，由此得到了对策问题的极小极大解，但他并未对解的收敛性和最优性给出严格的证明．而近１０年来代表性成果主要集中在Ｓｈｉｎａｒ等人工作中［１０～１２］．他们考虑目标机动加速度的估计延迟，在文献［１０］中将目标加速度估计等效为真实加速度的延迟，结果表明信息延迟条件下的最优制导策略为一有偏混合策略；在文献［１１］中他们基于极小极大确定性等价原理与状态可达集的概念，得到了加速度估计延迟下的微分对策制导律ＤＧＬ／Ｃ；Ｏｓｈｍａｎ等人［１２］基于ＤＧＬ／Ｃ，利用成像导引头观测到的目标姿态信息来缩减可达集的范围，得到了图像辅助的微分对策制导律ＤＧＬ／Ｓ．最近，Ｓｗａｒｕｐ与Ｓｐｅｙｅｒ［１３］对不同信息模式下线性二次高斯随机微分对策的研究情况做了较为全面的总结，表明了信息模式对于微分对策问题研究的重要性．然而目前讨论随机微分对策的各类著作中，对信息模式的概念尚缺乏统一而准确的定义．从数学上准确描述信息模式，对求解随机微分对策问题的最优解，判断最优解的结构形式，理解状态估计与最优控制间的关系等，都具有重要的意义．本文将以离散时间二人随机微分对策问题为例，从数学上严格定义信息模式的相关概念，并对几种典型信息模式的性质给出严格证明．２离散时间二人随机微分对策采用追逃对策惯例，记对策双方分别为Ｐ（Ｐｕｒｓｕｅｒ，追踪者）和Ｅ（Ｅｖａｄｅｒ，逃逸者），则Ｎ步离散时间二人随机微分对策可表示为：ｘｋ＋１＝ｆｋ（ｘｋ，ｗｋ，ｕＰｋ，ｕＥｋ）ｚｉｋ＝ｈｉｋ（ｘｋ，ｖｉｋ）ｕＰｋ∈ＵＰＲｌＰ，ｕＥｋ∈ＵＥＲｌＥｗｋ∈Ｒｎｗ，ｖｉｋ∈ＲｎｉｖＪ＝［ｘ（Ｎ），Ｎ］＋∑Ｎ－１ｋ＝０Ｇ（ｋ，ｘｋ，ｕＰｋ，ｕＥｋ）ｋ＝０，…，Ｎ－１，ｉ＝Ｐ，Ｅ（１）其中：ｘｋ∈Ｒｎ，表示ｋ时刻状态；ｕｉｋ（ｉ＝Ｐ，Ｅ）表示ｋ时刻Ｐ或Ｅ的控制输入；Ｕｉ为Ｒｌｉ（ｉ＝Ｐ，Ｅ）中的有界闭集，称为Ｐ／Ｅ的控制空间；ｚＰｋ∈ＲｍＰ，ｚＥｋ∈ＲｍＥ，分别表示ｋ时刻Ｐ和Ｅ的观测矢量；ｗｋ、ｖｉｋ分别表示ｋ时刻的过程噪声及Ｐ／Ｅ的观测噪声；函数ｆｋ为Ｒｎ×Ｒｎｗ×ＵＰ×ＵＥ→Ｒｎ的连续（或分段连续）函数，而ｈｋｉ为Ｒｎ×Ｒｎｉｖ→Ｒｍｉ的连续（或分段连续）函数，它们分别表示ｋ时刻系统状态转移函数及Ｐ／Ｅ的观测函数；Ｊ通常称作指标泛函或支付泛函，其中函数Ｇ（ｋ，ｘｋ，ｕｋＰ，ｕｋＥ）为定义在［０，Ｎ－１］×Ｒｎ×ＵＰ×ＵＥ上的实值连续函数，而［ｘ（Ｎ），Ｎ］为终端指标，是定义在Ｒｎ×Ｎ上的实值函数，且在有界子集中有界．随机微分对策的研究中，通常认为初始状态ｘ０、ｗｋ、ｖｉｋ间相互独立，它们一起构成系统的“原始随机变量”．记：ω＝（ｘ０，ｗ０，ｖＰ０，ｖＥ０，ｗ１，ｖＰ１，ｖＥ１，…，ｗＮ－１，ｖＰＮ－１，ｖＥＮ－１）Ω＝｛ω｜ｘ０∈Ｒｎ，ｗｋ∈Ｒｎｗ，ｖｉｋ∈Ｒｎｉｖ，ｋ＝０，１，…，Ｎ－１，ｉ＝Ｐ，Ｅ｝上述表示下，ω为“原始随机变量”的一个样本；Ω则表示了系统“原始随机变量”的样本空间．令Ｏ表示拓扑空间Ω上的所有开集系，Ｂσ（Ｏ）表示Ω上的Ｂｏｒｅｌ集合系，Ｂ中的集合称作Ω上的Ｂｏｒｅｌ集；那么，（Ω，Ｂ，Ｐ）就成为系统“原始随机变量”构成的概率空间，表征了系统的不确定性，其中Ｐ为概率测度．３信息模式的数学描述Ｗｉｔｓｅｎｈａｕｓｅｎ在其关于分离原理的著名论文［６］中描述了具有Ｋ个控制单元和Ｍ个观测单元的离散时间随机控制系统的信息模式，并讨论了几种信息模式下状态估计与最优控制的可分离性，相关概念与结论对多入多出（ＭＩＭＯ）控制系统设计具有重要指导意义，但关于状态估计与最优控制可分离性的论断，Ｗｉｔｓｅｎｈａｕｓｅｎ并未给出严格证明．本节将Ｗｉｔｓｅｎｈａｕｓｅｎ关于信息模式的相关概念应用到式（１）的二人随机微分对策问题．定义１（数据基及其生成的数据集）令Ｚｋ、Ｕｋ分别表示如下有序对所构成的集合：Ｚｋ＝｛（τ，ｉ）｜τ＝０，…，ｋ；ｉ＝Ｐ，Ｅ｝，ｋ＝０，…Ｎ－１Ｕｋ＝｛（τ，ｉ）｜τ＝０，…，ｋ－１；ｉ＝Ｐ，Ｅ｝，ｋ＝１，…，Ｎ显然有：Ｕ０＝．如果ＡＺｋ，ＢＵｋ，则称有序对（Ａ，Ｂ）ｋ为ｋ时刻的一个数据基，称（ｚＡ，ｕＢ）＝ｚＡ∪ｕＢ为由（Ａ，Ｂ）ｋ生成的数据集．其中：ｚＡ＝｛ｚｉｋ｜（ｋ，ｉ）∈Ａ，ｚｉｋ∈Ｒｍｉ｝；ｕＢ＝｛ｕｉｋ｜（ｋ，ｉ）∈Ｂ，ｕｉｋ∈Ｕｉ｝．定义２（信息模式）式（１）表示的离散时间对策问题中，（ｋ，ｉ）∈ＵＮ，称它对应的数据基为ｋ时刻单元ｉ（Ｐ或Ｅ）的信息模式（ｉｎｆｏｒｍａｔｉｏｎｐａｔｔｅｒｎ），记作（Ｚｋ，ｉ，Ｕｋ，ｉ）．由此信息模式生成的数据集｛ｚＺｋ，ｉ，ｕＵｋ，ｉ｝表示了ｋ时刻单元ｉ（Ｐ或Ｅ）产生控制量ｕｉｋ时的所有可用信息．定义３（控制律）令γｉｋ表示ｓｐａｎ（ｚＺｋ∪ｕＵｋ）→Ｕｉ的所有Ｂｏｒｅｌ可测映射构成的集合．（ｋ，ｉ）∈ＵＮ，γｉｋ２电子学报２０１０年∈γｉｋ，使得ｕｉｋ＝γｉｋ（ｚＺｋ，ｉ，ｕＵｋ，ｉ），则称γｉｋ为ｋ时刻单元ｉ的控制律（控制函数）．对于追逃问题，γＰｋ、γＥｋ分别为制导律和逃避策略．定义４（单元及系统的设计）令（γｉｋ）Ｎ－１０＝（γｉ０，γｉ１，…，γｉＮ－１）（ｉ＝Ｐ，Ｅ）表示式（１）Ｎ步离散时间随机对策中单元ｉ的控制律序列，称之为单元ｉ的一个设计．将（（γＰｋ）Ｎ－１０，（γＥｋ）Ｎ－１０）称为式（１）系统的一个设计，记作γ，将所有的系统设计构成的集合记作Γ．令Γｉ＝｛γｉ｜γｉ＝（γｉｋ）Ｎ－１０，γｉｋ∈γｉｋ｝（ｉ＝Ｐ，Ｅ）表示单元ｉ的所有可行的设计构成的集合，Ｐ和Ｅ分别从各自的可行设计集Γｉ中选择控制量以使性能指标Ｊ满足微分对策问题的鞍点条件．定义５（σ域的基）令γＬ＝｛γｉｋ｜（ｋ，ｉ）∈Ｌ，ＬＵＮ｝表示设计γ中由集合Ｌ的元素检索的控制函数所构成的集合．如果ＺＺｋ，ＵＵｋ，ＬＵＮ，γ，γ′∈Γ，下面关系成立：γＬ＝γ′ＬＦ（Ｚ，Ｕ；γ）＝Ｆ（Ｚ，Ｕ；γ′）则称三元组（Ｚ，Ｕ，Ｌ）为ｋ时刻σ域Ｆ（Ｚ，Ｕ；γ）的一组基．其中，Ｆ（Ｚ，Ｕ；γ）表示设计γ下由定义在概率空间（Ω，Ｆ，Ｐ）上的随机变量集（ｚｚ，ｕＵ）生成的σ域．定义６（状态变量的条件基）如果存在函数Ｆ，γ∈Γ，给定σ域Ｆ（Ｚ，Ｕ；γ）后，状态变量ｙ的条件概率分布几乎处处等于Ｆ（ｚＺ，ｕＵ，γＬ），则称三元组（Ｚ，Ｕ，Ｌ）为ｙ的条件基．定义７（等价设计）将控制变量ｕ表示为原始随机变量ω与设计γ的函数，即：ｕ＝Ｓ（ω，γ）．γ∈Γ，如果γ′∈Γ，使得下式成立：Ｓ（ω，γ）ａ．ｅ．Ｓ（ω，γ′）则称这两个设计等价，记作γγ′．定义８（等价的信息模式）对于信息模式（Ｚｋ，ｉ，Ｕｋ，ｉ）下任意的设计γ，如果信息模式（Ｚ′ｋ，ｉ，Ｕ′ｋ，ｉ）下存在另一个设计γ′，使得γγ′，反之亦成立，则称这两个信息模