信息论与编码理论第2章信息的统计度量主要内容从概率的角度研究问题自信息量互信息量平均自信息量平均互信息量信息的大小多个信息之间关联的密切程度2.1自信息和条件自信息2.1.1自信息量事件发生的概率越大,它发生后提供的信息量越小。张三今天吃饭了事件发生的概率越小,一旦该事件发生,它提供的信息量就越大。美国总统的专机发生空难2.1.1自信息定义2-1任意随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件xi发生的概率为p(xi),则其自信息定义式为根据该公式可能提出的问题底数是多少?常用底数:2真的成反比吗?I(x)≥0规定:0log0=0()log()iiIxpx自信息量的含义自信息量表示了一个事件是否发生的不确定性的大小。一旦该事件发生,就消除了这种不确定性,带来了信息量,即:自信息量表示了一个事件的发生带给我们的信息量的大小。自信息量表示了确定一个事件是否发生,所需的信息量的大小。自信息量表示了将事件的信息量表示出来,所需的二进制位的个数。自信息量的例子假设“张三今天吃饭了”这个事件发生的概率是99.99%,则该事件的自信息量为:这表明该事件的不确定性很小。假设“美国总统的专机发生空难”这个事件发生的概率是0.01%,则该事件的自信息量为:这表明该事件的不确定性很大。log(0.9999)0.00014428log(0.0001)13.2877联合自信息量定义2-2二维联合集XY上的元素(xiyj)的联合自信息量定义为联合自信息量衡量的是多个事件同时出现的不确定性;或者,两个事件同时发生带给我们的信息量的大小;或者,将该信息量表示出来,所需的二进制位的个数。()log()ijijIxypxy2.1.2条件自信息量定义2-3事件xi在事件yj给定的条件下的条件自信息量定义为:含义:知道事件yj之后,仍然保留的关于事件xi的不确定性;或者,事件yj发生之后,事件xi再发生,能够带来的信息量。p(x):x出现的概率I(x):x的不确定性p(x|y):y出现之后x出现的概率I(x|y):知道y之后仍然保留的关于x的不确定性衡量的都是不确定性先验概率后验概率(|)log(|)ijijIxypxy条件自信息量的例子事件:x=“美国总统的专机发生空难”y=“今天是9.11”概率:p(x)=0.01%p(x|y)=1%事件x的自信息量为:事件x在事件y发生的情况下的条件自信息量为:()log()log0.01%13.2877Ixpx6439.6%1log)|(log)|(yxpyxI2.2互信息量举例张三今天没来上课张三有可能病了为什么没来上课就会猜到生病了?因为二者有关系互信息衡量的就是这种关系的大小象形字,本意:绞绳用的工具,又象握手互相,两者或者多者相互作用两个或者多个事件之间关联的密切程度2.2.1互信息量定义2-4随机事件yj的出现给出关于事件xi的信息量,定义为互信息量。定义式:单位:同自信息量(|)(;)log()ijijipxyIxypx互信息量的含义还可表示为:含义:本身的不确定性,减去知道了事件y之后仍然保留的不确定性,即由y所提供的关于x的信息量,或者说由y所消除的x的不确定性。互信息量=原有的不确定性-尚存在的不确定性(|)(;)log()pxyIxypx(;)()(|)IxyIxIxy对数的几个性质:1loglogloglogloglogloglogaaaabbabablog(|)log()log()log(|)()(|)pxypxpxpxyIxIxy互信息量的例子事件:x=“美国总统的专机发生空难”y=“今天是9.11”概率:p(x)=0.01%p(x|y)=1%前面已求出自信息量和条件自信息量为:而x和y的互信息量为:(|)1%(;)logloglog1006.6439()0.01%pxyIxypx6439.6)|(yxI2877.13)(xI)|()(yxIxI2.2.2互信息量的性质概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxyx1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1全概率公式互信息量的性质1互信息量的互易性I(x;y)=I(y;x)证明:含义:由y所提供的关于x的信息量等于由x所提供的关于y的信息量概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxy(|)(;)log()pxyIxypx()(|)()(|)()logloglog(;)()()()()pxypxypypyxpxIyxpxpypypy互信息量的性质2互信息量可为0当事件x、y统计独立时,互信息量为0证明:含义:当两个事件相互独立时,一个事件不能提供另一个事件的任何信息。即一个事件发生之后,对于确定另一个事件是否发生没有任何帮助。p(x|y)=p(x)无论是否知道y,都对x出现的概率没有影响x和y没有什么关系(|)()(;)logloglog10()()pxypxIxypxpx概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxy互信息量的性质3互信息量可正可负正:y的出现有助于肯定x的出现x:张三病了。y:张三没来上课。负:y的出现有助于否定x的出现x:李四考了全班第一名。y:李四没有复习功课。无论正负,互信息量的绝对值越大,x和y的关系越密切。(|)(;)log0()(|)1(|)()()pxyIxypxpxypxypxpx(|)(;)log0()(|)1(|)()()pxyIxypxpxypxypxpx回想自信息量I(x)I(x)≥0:x的出现或多或少总能带来一些信息互信息量的性质4互信息量不大于其中任一事件的自信息量证明同理:I(x;y)=I(y;x)≤I(y)互信息量=原有的不确定性-尚存在的不确定性(|)1(;)loglog()()()pxyIxyIxpxpx2.3离散集的平均自信息量(熵)离散集X={x1,x2,…,xn}离散集的概率分布表示为离散集中的每一个事件都有自己的自信息量所有这些自信息量的均值,就是离散集的平均自信息量定义2-5集X上,随机变量I(xi)的数学期望定义为平均自信息量。又称作集X的信息熵,简称熵。H(X)又可记作H(p1,p2,…,pn)1()(())[log()]()log()niiiiiHXEIxEpxpxpx1212()()()nnxxxXpxpxpxP12()()()nIxIxIx平均自信息量含义熵表示了集合中所有事件是否发生的平均不确定性的大小。熵表示了集合中事件发生,带给我们的平均信息量的大小。熵表示了确定集合中到底哪个事件发生时,所需的平均信息量的大小。熵表示了,如果用二进制数据将集合中的各个元素表示出来,所需的二进制位的个数的平均值。熵的单位同自信息量的单位熵的例子串口通信某串口的概率空间为则熵为011122XP11111()()log()loglog12222niiiHXpxpx2.3.2熵函数的数学特性对称性非负性确定性扩展性可加性极值性上凸性熵函数的数学特性1对称性集合中各分量的次序任意变更时,熵值(平均自信息量)不变从熵(平均自信息量)的公式上来看,该结论是明显的深层含义:熵是有局限性的。它仅与随机变量的总体结构有关,抹煞了个体的特性。例2-7“加权熵”qiiixpxpXH1)(log)()(晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4加权熵晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4权重11124117()()log()8wAiAiAiiHXwpxpx4118()()log()8wBiBiBiiHXwpxpx例2-8熵函数的数学特性2非负性H(X)≥0源于自信息量的非负性。什么时候为0:有且仅有一个pi=1,其余的pi=0,即确定事件集。熵函数的数学特性3确定性集合中只要有一个事件为必然事件,则其余事件为不可能事件,熵为0。H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0熵函数的数学特性4扩展性集合X有q个事件,集合Y比X仅仅是多了一个概率接近0的事件,则两个集合的熵值一样。证明:含义:集合中,一个事件发生的概率比其它事件发生的概率小得多时,这个事件对于集合的熵值的贡献可以忽略。即在研究这个集合的时候,该小概率事件可以不用考虑112120lim(,,,,)(,,,)qqqqHpppHppp0limlog0熵函数的数学特性5可加性H(X,Y)=H(X)+H(Y|X)当X、Y相互独立时,H(X,Y)=H(X)+H(Y)熵函数的数学特性6极值性各事件等概率发生时,熵最大。最大熵定理例子X={x1,x2}:p(x1)=p,p(x2)=1-pH(X)=-plogp-(1-p)log(1-p)X={x1,x2,x3}:p(x1)=p1,p(x2)=p2,p(x3)=1-p1-p2H(X)=-p1logp1-p2logp2-(1-p1-p2)log(1-p1-p2)nnnnHpppHnlog)1,...,1,1(),...,,(2100.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.91pH(p,1-p)010.50.333300.510.333300.511.52p1p2H熵函数的数学特性7上凸性H(p1,p2,…,pq)是概率分布(p1,p2,…,pq)的严格上凸函数如果f[X1+(1-)X2]f(X1)+(1-)f(X2),其中01,则称f(X)为上凸函数。如果f[X1+(1-)X2]f(X1)+(1-)f(X2),则称f(X)为严格上凸函数。上凸函数的直观意义除上凸函数之外,还有下凸函数x1x2f(x1)f(x2)x1+(1-)x2f[x1+(1-)x2]f(x1)+(1-)f(x2)对于凸函数,有詹森(Jenson)不等式E[f(x)]f(E[x])2.3.3条件熵定义2-7条件自信息量I(y|x)的概率均值定义为条件熵。含义:知道了集合X中全部事件之后,仍然保留的关于集合Y的平均不确定性。(|)()(|)()log(|)XYXYHYXpxyIyxpxypyx2.3.4联合熵定义2-8联合集XY上,每对元素xy的自信息量的概率平均值定义为联合熵。联合熵又称为共熵。(,)()()()log()XYXYHXYpxyIxypxypxy第2个关系第3个关系第1个关系2.3.5各种熵之间的关系(,)()(|)(,)()()(|)()HXYHXHYXHXYHXHYHYXHY“=”成立的条件是X和Y统计独立H(X,Y)=H(X)+H(Y),H(Y|X)=H(Y)如果有N个随机变量集合统计独立,则有H(X1,X2,…,XN)=H(X1)+H(X2)+…+H(XN)如果统计不独立,则有H(X1,X2,…,XN)H(X1)+H(X2)+…+H(XN)2.4离散集的平均互信息量x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1