论最大熵原理及其应用摘要:熵是源于物理学的基本概念,后来Shannon在信息论中引入了信息熵的概念,它在统计物理中的成功使人们对熵的理论和应用有了广泛和高度的重视。最大熵原理是一种在实际问题中已得到广泛应用的信息论方法。本文从信息熵的概念出发,对最大熵原理做了简要介绍,并论述了最大熵原理的合理性,最后提及它在一些领域的应用,通过在具体例子当中应用最大熵原理,展示该原理的适用场合,以期对最大熵原理及其应用有更深刻的理解。关键词:熵;信息熵;最大熵原理;不适定性问题1引言科学技术的发展使人类跨入了高度发展的信息化时代。在政治、军事、经济等各个领域,信息的重要性不言而喻,有关信息理论的研究正越来越受到重视,信息论方法也逐渐被广泛应用于各个领域。信息论一般指的是香农信息论,主要研究在信息可以度量的前提下如何有效地、可靠地、安全地传递信息,涉及消息的信息量、消息的传输以及编码问题。1948年C.E.Shannon为解决通信工程中不确定信息的编码和传输问题创立信息论,提出信息的统计定义和信息熵、互信息概念,解决了信息的不确定性度量问题,并在此基础上对信息论的一系列理论和方法进行了严格的推导和证明,使以信息论为基础的通信工程获得了巨大的发展。信息论从它诞生的那时起就吸引了众多领域学者的注意,他们竞相应用信息论的概念和方法去理解和解决本领域中的问题。近年来,以不确定性信息为研究对象的信息论理论和方法在众多领域得到了广泛应用,并取得了许多重要的研究成果。迄今为止,较为成熟的研究成果有:E.T.Jaynes在1957年提出的最大熵原理的理论;S.K.Kullback在1959年首次提出后又为J.S.Shore等人在1980年后发展了的鉴别信息及最小鉴别信息原理的理论;A.N.Kolmogorov在1956年提出的关于信息量度定义的三种方法——概率法,组合法,计算法;A.N.Kolmogorov在1968年阐明并为J.Chaitin在1987年系统发展了的关于算法信息的理论。这些成果大大丰富了信息理论的概念、方法和应用范围。在信息论中,最大熵的含义是最大的不确定性,它解决的一大类问题是在先验知识不充分的条件下进行决策或推断等。熵方法在谱估计、图象滤波、图象重建、天文信号处理、专家系统等中都有广泛的应用。最大熵原理在实际问题中的应用近年来一直在不断地发展。2信息熵的概念信息熵是将熵概念成功地扩展到信息科学领域。熵是描述客观事物无序性的参数,它最早是由R.Clausius于1865年引入热力学中的一个物理概念,通常称之为热力学熵。后来L.Boltzmann赋予熵统计意义上的解释,称之为统计热力学熵。1929年,匈牙利科学家Lszilard首先提出了熵与信息不确定性的关系,使信息科学引用熵的概念成为可能。1948年,贝尔实验室的C.Shannon创立了信息论,熵的概念有了新的解释,香农认为信息是人们对事物了解的不确定性的消除或减少,他把通讯过程中信源讯号的平均信息量称为信息熵,现在一般称之为香农熵,实现了信息熵的实际应用,从此对信息熵的研究,随着信息科学的发展而得到不断的发展。香农将随机变量X的信息熵定义为:)(XH-nNnnpplog1式中,np为Xnx的概率分布,n=1,2,…,N;当对数底数取2时,信息熵的单位为bit/sign;取自然对数时,单位为nat/sign;取常用对数时,单位为hart/sign。它代表了信源输出后每个消息所提供的平均信息量,或信源输出前的平均不确定度。信息熵的定义使随机变量的不确定性得到了量度,使信息论得到了空前的发展。而且,信息熵具有的凸函数性质使得它特别适合作为优化问题中的目标函数,这同时也为信息论概念和方法在除通信领域以外的其他领域内的应用提供了理论基础,拓宽了信息论的应用范围。3最大熵原理香农提出的信息熵的概念很好地解决了随机事件的不确定性程度的度量问题,但没有解决随机事件的概率是如何进行分配的问题。设想有一个可观测的概率过程,其中的随机变量x取离散值1x,2x,…,nx,如果从观测的结果知道了这个随机变量的均值、方差等特征值,怎样才能确定它取各离散值的概率1P,2P,…,nP呢?一般地,满足可观测值的概率分配,可以有无限多组。那么究竟应当选哪一组呢?即在什么意义下,所选出的一组概率才是最可能接近实际的呢?在项目决策实际中,有些随机事件不能直接计算其概率,也无法知道其频率,通常只能取得与该随机事件(或随机变量)有关的一个或几个平均值,从理论上讲,对于给定的随机变量,如何获取最为合适的一个分布呢?1957年,E.T.Jaynes在“信息论与统计力学”一文中,提出一个选择准则:“当根据部分信息进行推理时,必须选择这样一组概率分配,它应具有最大的熵,并服从一切已知的信息。这是我们能够做出的唯一的无偏分配;使用任何其它分配,就等于对原来没有信息做了随意假定”。换言之,在只掌握部分信息的情况下要对分布做出推断时,符合已知信息的概率分布可能不止一个,而我们应该选取符合约束条件但熵值取最大的概率分布,这是我们可以做出的唯一的不偏不倚的选择,任何其他的选择都意味着我们添加了其他的约束或假设,这些约束或假设根据我们所掌握的信息是无法做出的。E.T.Jaynes建立的这一统计推理准则,被称为最大熵原理,或者极大熵准则。它为我们如何从满足约束条件的诸多相容分布中,挑选“最佳”、“最合理”的分布提供了一个选择标准。尽管这个准则在性质上也有主观的一面,但却是一个最“客观”的主观准则。因为,我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。熵值最大意味着添加的约束和假设最少,这时求出的分布是最自然、偏差最小的。4最大熵原理的合理性最大熵方法对于构造概率密度函数来说,是一种有价值的方法。按照极大熵准则,人们应该挑选在一定约束下(常常是某些与随机变量有关的平均值)使得熵(或条件熵)能极大化的那种分布作为选定的分布。使用这个准则,先验信息(已知数据)将构成求极值的问题的约束条件。由最大熵准则得到的概率分布称为最大熵分布。应用最大熵准则构造先验概率分布有如下优点:首先,最大熵的解是最超然的,即在数据不充分的情况下求解,解必须和己知的数据相吻合,而又必须对未知的部分做出最少的假定;其次,根据熵集中原理,绝大部分可能状态都集中在最大熵状态附近,因此,用最大熵法所做出的预测是相当准确的;第三,用最大熵法求得的解满足一致性要求—不确定性的测度(熵)与试验步骤无关。最大熵方法的这一宝贵性质来源于推导熵函数的合成法则。用最大熵准则设立先验分布的理论根据由S.A.Smith从数学上进行了证明,其思路是把随机性决策问题作为对策问题看待,即自然界选择一状态的分布使期望损失极大,而决策人选择一决策使此期望损失为极小,推导出在损失函数的集为适合特定条件的理想集的情况,这个极小化极大解的确能导致一概率分布适合最大熵准则。对最大熵原理提出的疑问主要有以下两个:(1)关于最大熵原理所得解的客观性引起这一疑问的原因要追溯到香农对熵的定义和解释。在那里,香农是从通信的角度提出和讨论熵和信息的,因此计算熵和信息时所用的概率分布带有一定的主观性。而最大熵原理是用于对客观物理系统的某种实际分布的估计,那么这样得到的估计是否也带有主观性呢?仔细分析最大熵原理所针对的问题,就可以知道在这一问题中,熵的确代表了人们对客观物理系统中某种物理量概率分布的无知程度,它带有主观性。然而,在最大熵原理下所给出的解却完全是一个客观的量,因为这一解只与一组数学期望值有关,而这组数学期望值是可以客观测量得到的,所以最大熵原理给出的解完全是一个客观量,没有主观的因素。(2)如何理解被最大熵原理排除的其他满足约束条件的解最大熵原理所给出的解是唯一的,而不适定问题原来的解不唯一,因此我们如何来理解适合约束条件的其他解,它们在实际情况下会不会是真正的解呢?有关研究结果已经证明,从概率的观点来看,熵值远离最大熵的可能解出现的机会非常小,或者从组合的观点来看,熵值远离最大熵的组合种类在所有可能的组合中所占的比例很小。因此,最大熵解是在给定信息下可能做出的最可靠的解,它在绝大多数情况下会接近于真实解,因而最大熵原理是一种保险的策略。5最大熵原理在实际中的应用在数学、物理、工程技术及其它领域中,常常要根据测量的数据,所给的条件或所作的假设求解。对于求解,通常关心三个问题:存在性、唯一性和稳定性。如果这三个要求中至少有一个不满足,则认为是“不适定性问题”,对于此类问题,最大熵原理是有效方法之一。譬如,地球物理学中利用地震勘探法确定地层构造,射电天文学中利用无线电干涉仪获取星空图像,计算机层析术中利用扫描投影数据构造断层图像,语音识别和语音编码中根据语音信号估计声道参数,图像处理中对散焦或目标位移造成的蜕化图像进行复原,雷达及声纳中根据接收信号进行功率谱估计,数字通信中对信道畸变带来的符号间串扰进行盲目均衡等不适定性问题的解决通常采用基于最大熵原理的最大熵估计法。“不适定问题”是求解时由于数据不完全或有噪声,或两者兼有,使掌握的数据不足以推求该问题的确定解,其中包括所测得的数据求解时所给定的条件或假设。在“不适定问题”的所有的可行(可能)解中,应选其中熵值最大的一个解。因为熵最大意味着对由于数据不足而作的人为假定(人为添加信息)最小,从而所获得的解是最合乎自然、最为超然、偏差最小的。统计物理中一些有名的分布已被证明都是在若干类似上述的约束条件下使熵或微分熵最大的分布。例如,统计力学中气体分子速度的分布是能量受约束下的最大熵分布,大气层空气密度随高度的分布是在平均势能受约束下的最大熵分布等。从熵作为不确定程度的度量来看,此时的解包含的主观成分最少,因而是最客观的。自1957年Jaynes提出这一原理以来,这一原理先后在统计力学、统计学、运输工程、排队论、计算机系统建模、系统仿真、生产决策、股市分析等领域得到应用,特别是在信号处理领域,最大熵原理成为谱估计或图像复原中的主要方法。5.1最大熵原理在水文水资源科学中的应用水文水资源科学从本质上看,是一门有关水信息(采集、传输、整理、分析、研究)的学科。现有的大量研究成果表明:最大熵原理在水系统频率分析、水文时间序列谱分析、水文水质观测站网的布设评估、水模型的研建评价、水文预报与预测、水力学、河流地貌学、水利风险分析及水环境工程等方面具有广泛的应用。在水系统中应用最大熵原理最多的是水文频率分析研究,推导水文随机变量的概率分布和参数估计两个方面[7]。在水文频率分析研究中,由于无法从概率论理论直接推导出水文变量的先验分布,一般只能是依据观测数据,通过统计来推求近似的后验分布。然而水文变量现有的观测数据十分有限,远不足以推求概率分布。这是一个典型的不适定性问题。1972年,J.O.Sonuga首次将最大熵原理应用到水文频率分析中,推导了基于有限数据的小偏差的正态分布以进行频率分析,只需均值和标准差作为先验信息。研究证明,基于最大熵原理推导频率分布,人为偏差最小,所得的结果最客观,合乎自然。另一方面,由于导出的分布仅有的参数是以约束方程组形式表达,得出的分布的函数形式是无限制的,也可对假定的有参概率分布函数根据样本数据作参数估计,若考虑到样本数据所含的可观的抽样误差,则参数估计仍旧适用最大熵原理的不适定问题。另外,水文/气象时间序列分析经常遇到确定周期等问题,而谱分析方法具有低分辨率,选择自相关函数最大时滞的主观性不足。最大熵谱分析则具有频谱短且光滑、分辨率高等独特优势。1967年,J.P.Burg首次将最大熵原理用于频谱分析,利用信息论的观点提出了外推方式:在观察时间内估计值等于观察值;在观察时间之外的取值不做任何假定,即保持最随机、最不确定性,也就是使得熵为最大。从而得到一种新的非线性谱估计法,即最大熵谱分析法。1980年,A.R.Rao等比较了谱分析中的几种新近发展的方法,表明最大熵谱分析方法在水文时间序列的分析中是非常有效的。总之,在水文水资源科学领域中的许多问题,