2008-应用信息论基础-张林-Chap-1-129208415

279556087
2 ℃
2020-03-14

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1第一章信息论的基本概念BasicConceptsofInformationTheory©THU2008–Allrightsreserved清华大学电子系－张林2008年9月17日2008年9月24日2008年10月8日概率空间概念回顾概率空间是一个三元组Ω为样本空间Ξ为事件集，E∈Ξ，P为概率度量，公理：(,,)PΩXE⊂Ω:[0,1]P→X©THU2008–Allrightsreserved2公理：C12311.,2.E3.,,...iiEEEEE∞=ΦΩ∈∈∈∈∈UXXXXX若，则若，则()1231()12.()1()3.,,...()CiiiiPPEPEEEEEPEΩ==−=∑U.若彼此没有交集，则P本章知识脉络图©THU2008–Allrightsreserved31.1信息熵（Entropy）1.1.1随机事件的自信息1.1.2信息熵1.1.3信息熵的唯一性定理1.1.4联合熵与条件熵1.1.5信息熵的性质©THU2008–Allrightsreserved41.1.1随机事件的自信息直觉的定义信息量等于传输该信息所用的代价两个相同的信源所产生的信息量两倍于单个信源的信息量但是，直觉的定义立即会引起置疑：©THU2008–Allrightsreserved5一卡车Beatles的单曲CD盘，承载的信息量很大吗？“很高兴见到你”，“平安到达”，“生日快乐”，“妈妈，母亲节快乐！”等电文传达的信息与其长度等效吗？信息是对不确定性的消除天气预报消息量夏天预报下雪和冬天预报下雪，哪个消息含有更大信息量？骗子股票分析员特工00111如何为他提供的服务定价？用户来找00111是为了消除对某种不确定性©THU2008–Allrightsreserved6用户来找00111是为了消除对某种不确定性所消除的不确定性越多，收费越高2随机事件的自信息四个基本问题：随机性与概率的关系；概率为1的事件的信息量；概率为0的事件的信息量；两个独立事件的联合信息量。©THU2008–Allrightsreserved71212121111121212,(()()()()1()0()0(),(,)()()aaPaPafafaPafaPafaaafaafafa====∞=+设为两个随机事件，（1）若），则（2）若，则（3）若，则（4）若为独立事件，则自信息1()log()iiIaPa=对数底与信息的单位以2为底：bit(binaryunit)以e为底nat(natureunit)©THU2008–Allrightsreserved8以e为底：nat(natureunit)以10为底：Hart(Hartley)换算关系：1nat=1.44bit1Hart=3.32bit一般不加说明时，取以2为底。9自信息大于等于零关于自信息的评注()0iIa≥0()11log0,()iipapa≤≤⎛⎞∴≥⎜⎟⎝⎠Q，证毕。©THU2008–Allrightsreserved99不同底（单位）之间的自信息之间的换算关系()(log)()log()loglog()iiiiIaIapapaααβββαβα==证明：，证毕。例1.1“比特”的意义八个灯泡串联，其中一个灯丝断了。如何用最少的步骤定位出哪一个坏了？最少需要用三次二元判定来定位故障因此这个事件所含有的信息Step1Step2Step3©THU2008–Allrightsreserved10最少需要用三次二元判定来定位故障。因此，这个事件所含有的信息量是3比特。例1.2洗牌的信息一副52张的扑克牌，现将其充分洗牌，试问：（1）任意特定排列所给出的平均信息量是多少？（2）若任意从这副牌中抽出13张，所示的点数都不同，应获得多少信息量？解：（1）获得某一个特定的排列的概率是多少？©THU2008–Allrightsreserved11（2）获得“顺子”的概率是多少？11()logloglog52!225.58bit1{}52!IXP===＝任意特定排列11115248444135211()loglog13.21bit{}IYCCCCPP==⋅⋅⋅＝得到一副“顺子”1.1.2信息熵上一节我们定义了对于随机事件的自信息对于一个随机系统，我们如何定义信息的度量？a1~p(a1)a2~p(a2)a3~p(a3)1.每一个随机事件都有自信息I(ai)2.针对系统，取各随机事件自信息的统计平均©THU2008–Allrightsreserved12某离散信源或随机实验…a3p(a3)a4~p(a4)a5~p(a5)an-1~p(an-1)an~p(an)平均：()()()()log()piiiiiiiEIapaIapapa==−∑∑3定义1.1离散随机变量的信息熵离散随机变量X的信息熵H(X)定义为：()()log()xHXpxpx∈=−∑X©THU2008–Allrightsreserved139H(.)的综量是随机变量的分布，而非取值90log0=0（x→0时，xlogx→0），概率为0的事件不影响信息熵例1.3设随机变量X如下N元概率空间：平均不确定性，即信息熵为：12112,,...,,1,,...,()NNnnNxxxXpppppx=⎛⎞⎛⎞==⎜⎟⎜⎟⎝⎠⎝⎠∑©THU2008–Allrightsreserved141()logNnnnHXpp==−∑例1.4设则有：101pXp⎧=⎨−⎩以概率以概率©THU2008–Allrightsreserved159H(.)是随机变量的分布上凸（Concave）函数9p=0→H(X)=0，确定性系统信息量为零9p=0.5→H(X)最大熵例1.5设12141818abXcd⎧⎪⎪⎪=⎨⎪⎪⎪⎩以概率以概率以概率以概率©THU2008–Allrightsreserved169平均意义下，确定X的取值所需要的问题数最少是1.75个9如果X是一个随机信源，表达之所需要的最小比特数存在于H(X)和H(X)+1之间9可见，熵与信息的有效表达密切相关1.1.3信息熵的唯一性定理香农给出了信息熵函数满足的三个条件1.连续性2.等概时的单调增函数特性3.可加性定理1.1：满足上述三个条件的随机变量不确定性度量函数为：©THU2008–Allrightsreserved17________度量函数为：121(,,...,)logNNnnnfpppCpp==−∑参见板书证明证明思路流程1.等概情况下熵函数的形式2.由等概走向有理数非等概的情况3.由有理数走向无理数©THU2008–Allrightsreserved184A.I.Khinchin给出的条件1.连续性2.可加性3.极值条件12111max(,,...,)(,,,)NfpppfNNN=L©THU2008–Allrightsreserved194.零概率事件不影响不确定性1212(,,...,)(,,,,0)NNfpppfppp=LKhinchin条件与香农条件等价1.1.4联合熵与条件熵定义1.2:一对离散随机变量(X,Y)的联合熵定义为：©THU2008–Allrightsreserved209多元扩展9问题：H(X,Y)=H(X)+H(Y)?12121212(,,)(,,)log(,,)nnnnxxxHXXXpxxxpxxx∈∈∈=−∑∑∑XXXLLLL例1.6袋子里装3个黑球，2个白球。进行两个随机试验X和Y。情况一：X—从中随机取出一个球，看颜色，放回；Y—再从中随机取出一球，看颜色。情况二：X—从中随机取出一个球，看颜色，不放回；Y—再从中随机取出一球，看颜色。©THU2008–Allrightsreserved21研究联合试验（XY）的不确定性。参见板书9H(X,Y)≤H(X)+H(Y)，等号在X、Y独立时成立。9联合信息小于等于独立观察信息量之和9缺少的信息哪里去了？条件熵定义定义1.3:若(X,Y)~p(x,y)，则条件熵H(Y|X)定义为：©THU2008–Allrightsreserved22自己证明：9若X,Y统计独立，则H(X|Y)=H(X)，H(Y|X)=H(Y)定理1.2：H(X,Y)=H(X)+H(Y|X)自己证明：9H(X,Y|Z)=H(X|Z)+H(Y|X,Z)9H(X,Y)=H(Y)+H(X|Y)9若X,Y统计独立，H(X,Y)=H(X)+H(Y)证明参见板书©THU2008–Allrightsreserved23推论1.3：设随机变量X1,X2,…,Xn满足分布p(x1,x2,…,xn)，则证明参见板书例1.7设(X,Y)服从以下联合分布：©THU2008–Allrightsreserved24X的边缘分布为，H(X)=1.75比特Y的边缘分布为，H(Y)=2比特类似地，比特比特51.1.5信息熵的性质性质1.1对称性性质1.2非负性H(p)≥0性质1.3可加性H(X,Y)=H(X)+H(Y|X)定理12与推论13),...,,(),...,,()()2()1(21NkkkNpppHpppH=©THU2008–Allrightsreserved25定理1.2与推论1.3性质1.4条件减少熵H(X|Y)≤H(X)知道了统计相关性的变量，则可以减少不确定性统计平均意义上条件减少不确定性，但是针对具体的Y取值则不一定思考题：证明最大离散熵定理性质1.5离散随机变量X在等概率分布的时，熵取得________最大值。12111(,,...,)(,,...,)loglogNHpppHNNNN≤==X证明参见板书©THU2008–Allrightsreserved26证明参见板书1.2互信息与鉴别信息1.2.1互信息1.2.2互信息的基本性质1.2.3似然比与鉴别信息1.2.4熵、互信息与鉴别信息的关系©THU2008–Allrightsreserved271.2.1互信息事物是普遍联系的，随机变量之间也存在相关关系©THU2008–Allrightsreserved28如何从信息的角度刻画X与Y之间的相关程度？单独观察X，得到的信息量是H(X)已知Y之后，X的信息量变为H(X|Y)了解了Y之后，X的信息量减少了H(X)－H(X|Y)这个减少量是得知Y取值之后提供的关于X的信息离散互信息的定义定义1.4:定义离散随机变量X与Y之间的互信息I(X;Y)为I(X;Y)=H(X)－H(X|Y)9也可以直接定义互信息为©THU2008–Allrightsreserved299I(X;Y)=H(X)+H(Y)－H(X,Y)9若X,Y独立，则I(X;Y)=09若X,Y一一映射，则I(X;Y)=H(X)(,)(;)(,)log()()xypxyIXYpxypxpy∈∈=∑∑XY从信道的角度看互信息定义假定X是信道的输入，Y是信道的输出©THU2008–Allrightsreserved30I(X;Y)表示了一个信道输入与输出之间的依存关系信道的传输能力用p和Q＝[q(yj|xk)]J×K表示的互信息(;)IXY()()()()log()()xyxqyxIpxqyxpxqyx∈∈∈==∑∑∑p;QXYX6多变量的互信息定义1.5:设有随机变量X,Y,Z，则定义(;,)()(,)(,)(,)IXYZHXHXYZHYZHYZX=−=−©THU2008–Allrightsreserved319也可以直接定义互信息为(,)(;,)(,,)log()(,,)(,,)log()(,)xyzxyzpxyzIXYZpxyzpxpxyzpxyzpxpyz∈∈∈∈∈∈==∑∑∑∑∑∑XYZXYZ多变量的条件互信息定义1.6:设有随机变量X,Y,Z，则定义I(X;Y|Z)=H(X|Z)－H(X|Y,Z)=H(Y|Z)－H(Y|X,Z)9也可以直接定义条件互信息为(|)pxyz∑∑∑©THU2008–Allrightsreserved329条件互信息非负。9I(X;Y|Z)=H(X|Z)－H(X,Y|Z)+H(Y|