2.2熵函数的性质信源的数学模型信源熵(信息熵)–随机变量、随机序列–随机过程–定义:自信息的数学期望–含义:两种解释–与联合熵、条件熵之间的关系[]()()iHXEIx=()(/)ijHXYEIxy⎡⎤=⎣⎦()()ijHXYEIxy⎡⎤=⎣⎦{复习)()()()()(YXHYHXYHXHXYH+=+=∑=−−=++++=NnnnNNNUUUUHUUUUHUUUHUUHUHUUUH112112121312121)()()()()()(熵、条件熵、联合熵关系当Ui相互独立时121()()NNinHUUUHU==∑当X和Y相互独立时()()()HXYHXHY=+复习熵函数•H(P)是概率矢量P的函数,称为熵函数。•表示方法:–用H(x)表示随机变量x的熵;–用H(P)或H(p1,p2,…,pq)表示概率矢量为P=(p1,p2,…,pq)的q个符号信源的熵。–若当q=2时,因为p1+p2=1,所以将两个符号的熵函数写成H(p1)或H(p2)。•熵函数H(P)是一种特殊函数,具有以下性质。性质:1、对称性:H(P)的取值与分量p1,p2,···,pq的顺序无关。•一个例子:⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡6/12/13/1)(,3/12/16/1)(,2/16/13/1)(321321321aaazPzaaayPyaaaxPx111()(,,)1.459362HXHbit==111()(,,)1.459623HYHbit==111()(,,)1.459326HZHbit==)()()(ZHYHXH==2、确定性:H(1,0)=H(1,0,0)=H(1,0,0…,0)=0•性质说明:这个信源是一个确知信源,其熵等于零。3、非负性:H(P)≥0•说明:––这种非负性合适于离散信源的熵,对连续信源这种非负性合适于离散信源的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。的概念下,可能出现负值。非负性体现信息是非负的非负性体现信息是非负的。。4、扩展性•性质说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。),...,,(),,...,,(lim212110qqqqpppHpppH=−+→εεε),,,(log211qqqiiipppHpp⋅⋅⋅=−=∑=}log)log()(log{lim110εεεεε∑−=→−−−−−=qiqqiipppp所以,上式成立),,,,(lim2110εεε−⋅⋅⋅+→qqpppH因为5、可加性()()(/)()()(/)(|)(|)(/)HXYHXHYXHXYHYHXYHXYZHXZHYXZ=+=+=+统计独立信源X和Y的联合信源的熵等于信源X和Y各自的熵之和。H(XY)=H(X)+H(Y)可加性是熵函数的一个重要特性,正因具有可加性,才使熵函数的形式是唯一的。例如,甲信源为例如,甲信源为它们的联合信源是可计算得联合信源的联合熵:H(Z)=H(XY)=log(nm)=logm+logn=H(X)+H(Y)⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡nnnaaaxpXn/1.../1/1...)(21乙信源为乙信源为⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡mmmbbbypYm/1.../1/1...)(21⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡nmnmnmccczpZnm1...11...)(21222()log()()log(/)log()()(/)()(/):()()(/)(/)1ijiijjiijijiijijypxyqxpxypyxqxpxyHYXHXHYXpxyqxpyxpyx=−−⎡⎤=−+⎢⎥⎣⎦=+==∑∑∑∑∑∑∑利用可加性证明22()()log()()log[()(/)]ijijijijijiijHXYpxypxypxyqxpyx=−=−∑∑∑∑(|)(|)(/)HXYZHXZHYXZ=+同理1231231121312121213121211211()()()()()()()()()()()()NNNNnnnHUUUHUHUUUHUHUUHUUUHUUUHUHUUHUUUHUUUUHUUUU−−==+=++=++++=∑6、极值性•在离散信源情况下,信源各符号等概率分布时,熵值达到最大。•性质表明等概率分布信源的平均不确定性为最大。•这是一个很重要的结论,称为最大离散熵定理。qqqqHPPPHqlog)1,...,1,1(),...,,(21=≤证明:因为对数是∩型凸函数,满足詹森不等式E[logY]≤logE[Y],则有:qpppppppHiqiiqiiiqlog)1log(1log),...,,(1121=≤=∑∑==复习熵条件熵半条件熵联合熵()()K11()log()log()()rririiiHXEIxEpxpxpx=⎛⎞===−⎜⎟⎝⎠∑)/(log)()/()()]/([)/(1111jimjnijijimjnijijiyxpyxpyxIyxpyxIEYXH∑∑∑∑====−===11(/)(/)(/)(/)log(/)mmjijijijijiiHXypxyIxypxypxy====−∑∑21111()()()()log()nmnmijijijijijijHXYpxyIxypxypxy======−∑∑∑∑复习链式法则()()()|HXYHXHYX=+()()()()()()121213121211211...//.../.../...nnnniiiHXXXHXHXXHXXXHXXXXHXXXX−−==++++=∑复习熵函数的性质H(p1,p2,…,pn)对称性非负性极值性连续性扩展性可加性()()()()()()()()()1222122211111211122112221,,...,,...,,...,,,.,,...,,,..,,,...,||nnnnnnnnmnniixmiimiXmqHqpqpqpHqqqqHpppHXYHXHYXpqqqpqpHXqxHqxpYqp=∈=+=+=+∑∑二进制信源是离散信源的一个特例该信源符号只有二个,设为“0”和“1”。符号输出的概率分别为“ω”和“1-ω”,即信源的概率空间为:H(X)=-ωlogω–(1-ω)log(1-ω)=H(ω)⎥⎦⎤⎢⎣⎡−==⎥⎦⎤⎢⎣⎡ωωω110)(xpx即信息熵H(x)是ω的函数。ω取值于[0,1]区间,可画出熵函数H(ω)的曲线来,如右图所示。引理1:一个常用不等式:11ln1xxx−≤≤−引理2:香农辅助定理∑=−≤KkkkKKqppppH121log),,,(1,1=∑=Kkkp1,1=∑=Kkkq∑=+KkkkKKqppppH121log),,,(∑∑==+−=KkkkKkkkqppp11loglog∑∑====KkkkkKkkkkpqpepqp11lnloglog0log1log111=⎥⎦⎤⎢⎣⎡−=⎥⎦⎤⎢⎣⎡−≤∑∑∑===KkkKkkKkkkkpqepqpe令,即可得到最大熵为。证明:Kqk1=K2log定理:1.H(X/Y)≤H(X)2.H(XY)≤H(X)+H(Y)证明:222(/)((/)()log(/)()/)(/)()log()log()ijijijjjijijijijjiipxypxypHXYpxypxypypyHpxXxy=−⎡⎤=−⎢⎥⎣⎦⎡⎤≤−⎢⎥⎣⎦=∑∑∑∑∑∑()()/jHXyHX与大小比较?\1211/81/825/81/8xy()()/jHXyHX与大小比较?定义凸集R是定义在矢量空间中的区域R上的实值分量的K维矢量。若对,有,Rαβ∈()1Rθαθβ+−∈αβγ()12,,...,Kαααα=凸函数概念及性质()()()1,01βθαβθαθβθ+−=+−≤≤定义概率矢量满足仅K-1个分量独立。引理概率矢量的全体构成的区域是凸集。凸函数概念及性质()12,,...,Kαααα=()101,1,1.KiiiiKαα=≤≤≤≤=∑满足就称f为R上的上凸函数。,Rαβ∈,01θ≤≤()()()()()11fffθαθβθαθβ+−≤+−定义上凸函数定义在凸集R上的函数f,若对所有凸函数概念及性质性质1上凸,则下凸。性质2若上凸,则上凸。性质3(Jensen不等式)f为R上的上凸函数,则凸函数概念及性质()fα()fα−()()()12,,...,Lfffααα()(),0lllcfcα∑()(),EffEαα≤⎡⎤⎡⎤⎣⎦⎣⎦()11nniiiiiipffpαα==⎛⎞≤⎜⎟⎝⎠∑∑在[a,b]上定义的下凸)(∪函数凸函数概念及性质()(1)()[(1)]fqfpfqpλλλλ+−≥+−()(),01pqpλλ+−≤≤()yfx=在[a,b]上定义的上凸)(∩函数凸函数概念及性质[(1)]()(1)()fqpfqfpλλλλ+−≥+−[(1)]fqpλλ+−()(1)()fqfpλλ+−()(),01pqpλλ+−≤≤()yfx=()3fx1x()1fx()2fx2x()()()()()()()323121323121123fxfxfxfxfxfxxxxxxxxxx−−−≤≤−−−上凸函数等价定义3x()3fx′1x()1fx′()2fx′3x2x若可微,上凸单调减()fx′⇔上凸函数等价定义()fx()fx定理若,则上凸。证明在Taylor展开。''()0fx≤()fx()0121xxxθθ=+−()()()()()()200002ffxfxfxxxxxξ′′′=+−+−()()()()()121211fxfxfxxθθθθ+−≤+−()()()()''000()0fxfxfxfxxx′≤≤+−由得到()()()()()()()()()()()()()()()()()()()()()()()()100100012200200021120121211111fxfxfxxxfxfxxxfxfxfxxxfxfxxxfxfxfxfxfxfxxθθθθθθθθθθ′′≤+−=+−−′′≤+−=+−−+−≤+−≤+−给第一式乘加第二式乘得参考文献:张筑生《数学分析新讲》()0121xxxθθ=+−定理设nRS⊂是非空开凸集,RSf:可微,则(1)f是S上的上凸函数的充要条件是12121()()()()Tfxxxfxfx∇−≥−,Sxx∈∀21,其中1111()()()(,....,)nTfxfxfxxx∂∂∇=∂∂是函数f在点1x处的一阶导数或梯度。(2)f是S上的严格上凸函数的充要条件是12121()()()()Tfxxxfxfx∇−−,2121,,xxSxx≠∈∀最优化理论定理设nRS⊂是非空开凸集,RSf:二阶连续可导,则f是S上的上凸函数的充要条件是f的Hesse矩阵)(2xf∇在S上是半负定的。当)(2xf∇在S上是负定矩阵时,f是S上的严格上凸函数。(注意:该逆命题不成立。)⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂=∇22221222222122122122122)()()(....)(...)()()(....)()()(nnnnnxxfxxxfxxxfxxxfxxfxxxfxxxfxxxfxxfxf最优化理论Jensen不等式证明()()11212-111212-1......,1nnnnnnnnnpppfpfpppfppθααααθθθθααααθθθθ−−⎛⎞≤++++⎜⎟⎝⎠⎡⎤⎛⎞≤+++++=⎜⎟⎢⎥⎝⎠⎣⎦()11nniiiiiipffpαα==⎛⎞≤⎜⎟⎝⎠∑∑f为R上的上凸函数,则12-1...npppθ=+++()()()()()()()()1122-1-111212-1...,...nnnnnnnnpfpfpfpfpppfffpfααααθααααθθθ−++++⎡⎤=++++⎢⎥⎣⎦–上凸性:熵函数H(X)为上凸函数,即对任何和任何两个概率矢量P,Q)10(αα)()1()(])1([QHPHQPHαααα−+−+若集合nRC