2020/1/71信源与信息熵第二章(第2讲)赵苏鉴2020/1/722.1信源的描述和分类2.2离散信源熵和互信息2.3离散序列信源的熵2.4连续信源的熵和互信息2.5冗余度本章内容2020/1/732.2离散信源熵和互信息2020/1/74离散信源熵和互信息问题:什么叫后验概率?什么叫互信息量?什么叫平均互信息量?什么叫疑义度?什么叫噪声熵(或散布度)?数据处理定理是如何描述的?熵的性质有哪些?2020/1/752.2.3互信息设有两个随机事件X和Y,X取值于信源发出的离散消息集合,Y取值于信宿收到的离散符号集合有扰信道干扰源信源X信宿Y)()()(2121nnxpxpxpxxxPX)()()(2121nnypypypyyyPY2020/1/76互信息如果信道是无噪的,当信源发出消息xi后,信宿必能准确无误地收到该消息,彻底消除对xi的不确定度,所获得的信息量就是xi的不确定度I(xi),即xi本身含有的全部信息。一般而言,信道中总是存在着噪声和干扰,信源发出消息xi,通过信道后信宿只可能收到由于干扰作用引起的某种变型yj。信宿收到yj后推测信源发出xi的概率p(xi|yj)称为后验概率。信源发出消息xi的概率p(xi)称为先验概率。2020/1/77单个符号之间的互信息定义为xi的后验概率与先验概率比值的对数)()|(log);(2ijijixpyxpyxI互信息I(xi;yj)表示接收到某消息yj后获得的关于事件xi的信息量。(|)()(;)loglog()()()(|)log(;)()ijijijiijjijijpxypxyIxypxpxpypyxIyxpy)|()()|()();(ijjjiijixyIyIyxIxIyxI2020/1/78例某地二月份天气构成的信源为:8/18/14/12/1)(雪雨阴晴xpXbitxIxIbitxIbitxI4)()(,2)(,121log)(43221若得知“今天不是晴天”,把这句话作为收到的消息y1(P(y1)=1/2)当收到y1后,各种天气发生的概率变成后验概率了p(x1|y1)=0,p(x2|y1)=1/2,p(x3|y1)=1/4,p(x4|y1)=1/4111121(|)(;)log-()pxyIxypx求得自信息量分别为2020/1/79bitxpyxpyxI14/12/1log)()|(log);(2212212表明从y1分别得到了x2x3x4各1比特的信息量。消息y1使x2x3x4的不确定度各减少1bit。bityxIyxI18/14/1log);();(214132020/1/710在集合X上对I(xi;yj)进行概率加权统计平均,可得I(X;yj)为:;logijjijiipxyIXypxypx再将上式对集合Y进行统计平均,就可以得到平均互信息量;()(;)()()(;)()log()()jjjijijijijijijijIXYpyIXypxypxyIxypxypxpy平均互信息I(X;Y)就是互信息I(xi;yj)在两个概率空间X和Y中的平均值。互信息I(xi;yj)是代表收到消息yj后获得关于某事件xi的信息量。2020/1/711平均互信息平均互信息定义:接收端接收到符号集Y后平均每个符号获得的关于X的信息量。信息=先验不确定性-后验不确定性=不确定性减少的量)|()();(YXHXHYXIY未知,X的不确定度为H(X)Y已知,X的不确定度变为H(X|Y)2020/1/712平均互信息有扰信道干扰源信源X信宿Y通信系统中,若发端的符号为X,收端的符号为Y如果是一一对应信道,接收到Y后,对X的不确定性将完全消除:H(X|Y)=0,I(X;Y)=H(X)如果X和Y相互独立,则I(X;Y)=H(X)-H(X|Y)=0一般情况:H(X|Y)<H(X),即了解Y后对X的不确定度的将减少通过信道传输消除了一些不确定性,获得了一定的信息。)();(0XHYXI2020/1/713平均互信息);()()|(log)()()()(log)()()|(log)();(XYIypxypyxpypxpyxpyxpxpyxpyxpYXIijiijjiijijijijijijiji平均互信息的另一种定义方法:2020/1/714例假设一条电线上串联了8个灯泡x1,x2,…x8如图,这8个灯泡损坏的概率相等p(xi)=1/8,现假设只有一个灯泡已损坏,致使串联灯泡都不能点亮。•未测量前,8个灯泡都有可能损坏,它们损坏的先验概率:p(xi)=1/8•这时存在的不确定性:bitxpxIii38log)(1log)(22020/1/715第1次测量后,可知4个灯泡是好的,另4个灯泡中有一个是坏的,这时后验概率p(xi|y)=1/4尚存在的不确定性•所获得的信息量就是测量前后不确定性减少的量,•第1次测量获得的信息量:bityxpyxIii24log)|(1log)|(2bityxIxIyxIiiji123)|()();(2020/1/716第2次测量后变成猜测哪2个灯泡中一个是损坏的,这时后验概率为:p(xi|yz)=1/2尚存在的不确定性:•第2次测量获得的信息量:bityzxpyzxIii12log)|(1log)|(2•第3次测量完全消除了不确定性,能获知哪个灯泡是坏了的。尚存在的不确定性等于零。•第3次测量获得的信息量:bityzxIyxIii112)|()|(bityzxIi1010)|(2020/1/717信源消息x1x2x3x4x5x6x7x8先验概率1/81/81/81/81/81/81/81/8后验概率第1次测量y1/41/41/41/4第2次测量z1/21/2第3次测量w1bitxpyxpyxI14/12/1log)()|(log);(22222bitxpyzxpyzxI28/12/1log)()|(log);(22222bitxpyzwxpyzwxI38/11log)()|(log);(22222要从8个等可能损坏的串联灯泡中确定哪个灯泡是坏的,至少要获得3个bit的信息量2020/1/718方法2:逐个检查第1次:x1坏,获得信息量=3bit,可能性较小1/8;x1通,其余7只中1只坏,坏灯泡的不确定性:log27=2.8073bit获得信息量=3-2.8073=0.1927bit,可能性较大7/8第1次所获得的平均信息量:543.01927.0873811184184•“对半开”第1次所获得的平均信息量:2020/1/719H(X|Y):信道疑义度,损失熵信源符号通过有噪信道传输后所引起的信息量的损失。又可看作由于信道上存在干扰和噪声,接收端获得Y后还剩余的对信源X的平均不确定度,故又称为疑义度。信源X的熵等于接收到的信息量加上损失掉的信息量。H(Y|X):噪声熵,散布熵它反映了信道中噪声源的不确定性。输出端信源Y的熵H(Y)等于接收到关于X的信息量I(X;Y)加上H(Y|X),这完全是由于信道中噪声引起的。(;)()(|)IXYHXHXY(;)()(|)IXYHYHYX2020/1/720收发两端的熵关系H(X)H(Y)I(X;Y)H(X|Y)H(Y|X)2020/1/721若信道是无噪一一对应信道(参P51),信道传递概率:)(1)(0)|(xfyxfyxyp)(1)(0)|()()|()()()()|(xfyxfyxypxpxypxpypxypyxp计算得:0)|(;0)|(XYHYXH)()();(YHXHYXI)()();(YHXHYXI2020/1/722熵的意义(对通信系统)H(X):表示信源中每个符号的平均信息量(信源熵)H(Y):表示信宿中每个符号的平均信息量(信宿熵)H(X|Y):表示在输出端接收到Y的全部符号后,发送端X尚存的平均不确定性。这个对X尚存的不确定性是由于干扰引起的。信道疑义度(损失熵,含糊度)H(Y|X):表示在已知X的全部符号后,对于输出Y尚存的平均不确定性。信道散布度(噪声熵)H(XY):表示整个信息传输系统的平均不确定性(联合熵)。2020/1/723平均互信息与各类熵的关系)()()()|()()|()();(XYHYHXHXYHYHYXHXHYXI)()()()|()()|()()(YHXHXYHYXHYHXYHXHXYHH(X|Y)H(X)H(Y)H(XY)H(Y|X)I(X;Y)()(|)()(|)HXHXYHYHYX维拉图2020/1/724平均互信息的性质(1)非负性:;0IXY(2)互易性:I(X;Y)=I(Y;X)();()log()()ijijijijpxyIXYpxypxpy;;IXYHXIXYHY(3)有界性由的对称性可得到。注意:可正可负。(;)kjIxy2020/1/7254平均互信息的性质所以:只是输入信源X的概率分布p(xi)和信道转移概率p(yj|xi)的函数。当p(xi)一定时,I是关于p(yj|xi)的U型凸函数,存在极小值;当p(yj|xi)一定时,I是关于p(xi)的∩型凸函数,存在极大值。;,loglogjijiijijiijijjjjijiipyxpyxIXYpxypxpyxpypypypxpyx;IXY2020/1/726三个变量的互信息量在有3个变量的情况下,符号xi与符号对(yj,zk)之间的互信息量定义为(|)(;)log()ijkijkipxyzIxyzpx定义在已知事件zk的条件下,接收到yj后获得关于某事件xi的条件互信息)|()|()|(log)|()|(log)|()|(log)|;(kjkikjikjkijkikjikjizypzxpzyxpzypzxypzxpzyxpzyxI2020/1/727三个变量的互信息上式表明一个联合事件(yj,zk)出现后所提供的有关xi的信息量I(xi;yj,zk)等于yj事件出现后提供的有关xi的信息量I(xi;yj),加上在给定yj条件下再出现zk事件后所提供的有关xi的信息量I(xi;zk|yj)。)|;();()|()|(log)()|(log)|()()|()|(log)()|(log);(jkijijikjiijijiikjijiikjikjiyzxIyxIyxpzyxpxpyxpyxpxpzyxpyxpxpzyxpzyxI同理)|;();();(kjikikjizyxIzxIzyxI2020/1/728三维联合集XYZ上的平均互信息量(;)(;)(;|)(;)(;)(;|)(;)(;)(;)(;|)(;)(;)(;|)(;|)(;)(;)(;|)(;)(;|)IXYZIXYIXZYIYZXIYXIZXYIXYZIXZYIXZIXYZIXZIXYIXZYIXYZIXYZIXZIYZXIYZIXZY2020/1/729第一级处理器第二级处理器XYZ输入级联处理器2.2.4数据处理中信息的变化数据处理定理:当消息通过多级处理器时,随着处理器数目增多,输入消息与输出消息间的平均互信息量趋于变小假设Y条件下X和Z相互独立(P26));();();();(YXIZXIZYIZXI2020/1/730数据处理定理数据处理定理说明:当对信号、数据或消息进行多级处理时,每处理一次,就有可能损失一部分信息,也就是说数据处理会把信号、数据或消息变成更有用的形