推导求条件熵为什么要用联合概率?先取一个jy,在已知jy条件下,X的条件熵)/(jyXH为:)/(log)/()/()/()/(211jinijijinijijyxpyxpyxIyxpyXH上式为仅知某一个jy时X的条件熵,它随着jy的变化而变化,仍然是一个随机变量。已知所有的jy时X仍然存在的不确定度,应该是进一步把)/(jyXH在Y集合上取数学期望,)/(log)()/(log)/()()/()()/(2112111jimjnijijijimjnijmjjjyxpyxpyxpyxpypyXHypYXH条件熵是一个确定值,表示信宿在收到Y后,信源X仍然存在的不确定度。这是由于传输失真造成的;)/(YXH称为信道疑义度,也称损失熵;条件熵)/(XYH为噪声熵。[例2.1.4条件熵]已知X,Y}1,0{,XY构成的联合概率为:p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。解:根据条件熵公式:mjnijijiyxpyxpYXH112)/(log)()/()()()/(jjijiypyxpyxp首先求21)()(ijijyxpyp,有)/(406.0243log8341log81)1/1(log)11()0/1(log)10()1/0(log)01()0/0(log)00()/(,43)1/0()0/1()1/1(412/18/1)0()00()0()00()0/0()0/0(21)1()1(8183)10()00()0()0(22222211111212111symbolbitppppppppYXHpppypyxpppyxppyppcyxpyxpypp从而有:同理可求得最大离散熵定理nXH2log)(证明:先证明一个常用不等式:lnxx-1(x0)用图形表示为:0-11y=x-1y=lnxxy令f(x)=lnx–(x-1),则11)('xxf,可见当x=1时,f(x)=0,它是f(x)的极值。且01)(2''xxf,故此极值为极大值。所以有:f(x)f(1)=0,当且仅当x=1时取等号。这时f(x)=lnx-(x-1)0=lnx≤(x-1)证法一:niiininiiiixnpxpnxpxpxpnXH1211222)(1log)(log)()(1log)(log)(令)(1ixnpx,利用exxxxx22loglnlog,0,1ln且nXHexpnexnpxpnxHniiniii212122log)(0log)](1[log]1)(1)[(log)(证法二:现令iipqx(ip、iq为两个概率),则有22log()(1)logiiiiqqepp,两边取统计平均值求得:iiiiiiiiiiqpqppqp01)1(loginqiiiiinqpppilogloglog1当结论:等概率分布时熵最大,不确定性最大。故这一定理又被称为离散信源最大熵定理。可加性的证明1)/()/()()(:)/()()/()/()(log)()/(log)()(log)/()()]/()([log)()(log)()(22222jijijijijijiiiijijjiiijijiijiijjijiijjixypxypxpyxpXYHXHXYHxypxpxpxypyxpxpxypxpxypxpyxpyxpyxpXYH利用条件熵不大于信源熵(无条件熵)的证明证明:)()()/()(,)()(log)()(log)/()()(log)/()()/(log)/()()/(log)()/(22222ijjijjijiiiiijjijjiijijjjiijijjiijjixpyxpyxpypXHxpxpxpyxpypxpyxpypyxpyxpypyxpyxpYXH其中上凸性的证明熵函数H(U)为)(iiupp的上凸函数。证明一:在证明本定理以前先介绍凸函数的概念。(1)先介绍凸集合:若集合nRC(n维欧氏空间),有CqCp,,且对任意实数:01,有Cqp)1(,则称为C为凸集合。其涵义为:凸集合中任意两元素的线性组合仍属于原凸集合。显然,n维线性空间nR为一凸集合。概率矢量)(1nppp亦为一凸集11niip。任意凸集合的交()和并)(仍为凸集,但是其补(c)并非凸集。ABABABABAAC(2)凸函数:又称下凸)(函数,设f(p)是在某个凸集C(nRC)上定义的实函数,若对任意实数)10(和任意矢量Cqp,,满足下列不等式:])1([)()1()(qpfqfpf则称)(f为下凸函数或凹函数)(。其含义为:凸集合中函数的线性组合不小于凸集合中线性组合的函数。若不等号相反,即])1([)()1()(qpfqfpf则称)(f为上凸()。若将上述“”﹑“”改为“”﹑“”则分别称为严格凸和严格凹。上述凹凸函数可以用下列形象直观图形来表示:])1([)()1()(qpfqfpfapqbqp)1(p在[a,b]上定义的下凸)(函数)()1()(])1([qfpfqpfapqbqp)1(p在[a,b]上定义的上凸)(函数(3)由上述凸函数性质,我们只需证明熵函数满足下列不等式。即熵函数为上凸函数。''[(1)]()(1)()iiiiiHpppHpHp(对照上凸函数性质,即,Hf)其中10,而')1(iiippp因此只需证:)()1()(])1([''iiiipHpHppHiiiiiiiiiippppppp'''log)1(loglog])1([iiiiiiiipppppp''log)1(log''log(1)logiiiiiiiipppppp(Jensen不等式P.25)iiiipplog)1(log1log)1(1log0证明中,我们引用了著名的Jensen不等式。其含义为:若f(x)是随机变量X(Xx)的凸函数,则有:)]([)]([xEfxfE——f(x)下凸时)]([)]([xEfxfE——f(x)上凸时上式证明中要注意:logx为上凸函数。为严格上凸函数。则称,若,两个矢量的定义域中任意)及(的正数对任一小于量函数设有一个多元函数或矢fYfXfYXfYXfXfxxxfn)()1()(])1([101),(),,,(21证明二:设P,Q为两组归一的概率矢量12121121[(),(),,()],[(),(),,()]0()1,0()1()()1((1))[()(1)()]log[()(1)()]nniinniiiiniiiiiPpxpxpxQpypypypxpypxpyHPQpxpypxpy且则1)()1()(01)()1()(1)(1)(,1)(,11)(1)(1)()1()(0)()1()(0)(,0)(,01,01)()1()(0iiiiiiiiiiiiiiiiiypxpypxpxpypxpxpypypxpypxpypxpypxp故有而当不可能则如果可以证明1112121[()(1)()]()(1)()11()(1)()()log[()(1)()]()(),()()log[()(1nnniiiiiiiiiniiiiiiniiipxpypxpypxpypxpxpyHPpxpypxpx可以看成一种新的概率分布由熵的极值性(textbookP.24)各不完全相等,有)()]()ipyHP)()1()(])1([)()1()]()1()([log)()1(:21QHPHQPHQHypxpypiinii两式相加整理同理*严格上凸函数在定义域内的极大值必为最大值,用上凸性求最大熵时,只需求导并取极值即可。给定信源)](,[ixpX,求1)()(1niixpXH在限制下的条件极值。令:0)](log1[01)()()(21iniiixpxpXHxp得为待定常数,若取对数的底为自然数e,constexpi1)(而1)(1niixp故nXHnxpln)(1)(max