第2章信息的统计度量.

andypossible
1 ℃
2019-12-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

信息论与编码理论第2章信息的统计度量主要内容从概率的角度研究问题自信息量互信息量平均自信息量平均互信息量信息的大小多个信息之间关联的密切程度2.1自信息和条件自信息2.1.1自信息量事件发生的概率越大，它发生后提供的信息量越小。张三今天吃饭了事件发生的概率越小，一旦该事件发生，它提供的信息量就越大。美国总统的专机发生空难2.1.1自信息定义2-1任意随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件xi发生的概率为p(xi)，则其自信息定义式为根据该公式可能提出的问题底数是多少？常用底数：2真的成反比吗？I(x)≥0规定：0log0=0()log()iiIxpx自信息量的含义自信息量表示了一个事件是否发生的不确定性的大小。一旦该事件发生，就消除了这种不确定性，带来了信息量，即：自信息量表示了一个事件的发生带给我们的信息量的大小。自信息量表示了确定一个事件是否发生，所需的信息量的大小。自信息量表示了将事件的信息量表示出来，所需的二进制位的个数。自信息量的例子假设“张三今天吃饭了”这个事件发生的概率是99.99%，则该事件的自信息量为：这表明该事件的不确定性很小。假设“美国总统的专机发生空难”这个事件发生的概率是0.01%，则该事件的自信息量为：这表明该事件的不确定性很大。log(0.9999)0.00014428log(0.0001)13.2877联合自信息量定义2-2二维联合集XY上的元素(xiyj)的联合自信息量定义为联合自信息量衡量的是多个事件同时出现的不确定性；或者，两个事件同时发生带给我们的信息量的大小；或者，将该信息量表示出来，所需的二进制位的个数。()log()ijijIxypxy2.1.2条件自信息量定义2-3事件xi在事件yj给定的条件下的条件自信息量定义为：含义：知道事件yj之后，仍然保留的关于事件xi的不确定性；或者，事件yj发生之后，事件xi再发生，能够带来的信息量。p(x)：x出现的概率I(x)：x的不确定性p(x|y)：y出现之后x出现的概率I(x|y)：知道y之后仍然保留的关于x的不确定性衡量的都是不确定性先验概率后验概率(|)log(|)ijijIxypxy条件自信息量的例子事件：x=“美国总统的专机发生空难”y=“今天是9.11”概率：p(x)=0.01%p(x|y)=1%事件x的自信息量为：事件x在事件y发生的情况下的条件自信息量为：()log()log0.01%13.2877Ixpx6439.6%1log)|(log)|(yxpyxI2.2互信息量举例张三今天没来上课张三有可能病了为什么没来上课就会猜到生病了？因为二者有关系互信息衡量的就是这种关系的大小象形字，本意：绞绳用的工具，又象握手互相，两者或者多者相互作用两个或者多个事件之间关联的密切程度2.2.1互信息量定义2-4随机事件yj的出现给出关于事件xi的信息量，定义为互信息量。定义式：单位：同自信息量(|)(;)log()ijijipxyIxypx互信息量的含义还可表示为：含义：本身的不确定性，减去知道了事件y之后仍然保留的不确定性，即由y所提供的关于x的信息量，或者说由y所消除的x的不确定性。互信息量=原有的不确定性-尚存在的不确定性(|)(;)log()pxyIxypx(;)()(|)IxyIxIxy对数的几个性质：1loglogloglogloglogloglogaaaabbabablog(|)log()log()log(|)()(|)pxypxpxpxyIxIxy互信息量的例子事件：x=“美国总统的专机发生空难”y=“今天是9.11”概率：p(x)=0.01%p(x|y)=1%前面已求出自信息量和条件自信息量为：而x和y的互信息量为：(|)1%(;)logloglog1006.6439()0.01%pxyIxypx6439.6)|(yxI2877.13)(xI)|()(yxIxI2.2.2互信息量的性质概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxyx1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1全概率公式互信息量的性质1互信息量的互易性I(x;y)=I(y;x)证明：含义：由y所提供的关于x的信息量等于由x所提供的关于y的信息量概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxy(|)(;)log()pxyIxypx()(|)()(|)()logloglog(;)()()()()pxypxypypyxpxIyxpxpypypy互信息量的性质2互信息量可为0当事件x、y统计独立时，互信息量为0证明：含义：当两个事件相互独立时，一个事件不能提供另一个事件的任何信息。即一个事件发生之后，对于确定另一个事件是否发生没有任何帮助。p(x|y)=p(x)无论是否知道y，都对x出现的概率没有影响x和y没有什么关系(|)()(;)logloglog10()()pxypxIxypxpx概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxy互信息量的性质3互信息量可正可负正：y的出现有助于肯定x的出现x：张三病了。y：张三没来上课。负：y的出现有助于否定x的出现x：李四考了全班第一名。y：李四没有复习功课。无论正负，互信息量的绝对值越大，x和y的关系越密切。(|)(;)log0()(|)1(|)()()pxyIxypxpxypxypxpx(|)(;)log0()(|)1(|)()()pxyIxypxpxypxypxpx回想自信息量I(x)I(x)≥0：x的出现或多或少总能带来一些信息互信息量的性质4互信息量不大于其中任一事件的自信息量证明同理：I(x;y)=I(y;x)≤I(y)互信息量=原有的不确定性-尚存在的不确定性(|)1(;)loglog()()()pxyIxyIxpxpx2.3离散集的平均自信息量（熵）离散集X={x1,x2,…,xn}离散集的概率分布表示为离散集中的每一个事件都有自己的自信息量所有这些自信息量的均值，就是离散集的平均自信息量定义2-5集X上，随机变量I(xi)的数学期望定义为平均自信息量。又称作集X的信息熵，简称熵。H(X)又可记作H(p1,p2,…,pn)1()(())[log()]()log()niiiiiHXEIxEpxpxpx1212()()()nnxxxXpxpxpxP12()()()nIxIxIx平均自信息量含义熵表示了集合中所有事件是否发生的平均不确定性的大小。熵表示了集合中事件发生，带给我们的平均信息量的大小。熵表示了确定集合中到底哪个事件发生时，所需的平均信息量的大小。熵表示了，如果用二进制数据将集合中的各个元素表示出来，所需的二进制位的个数的平均值。熵的单位同自信息量的单位熵的例子串口通信某串口的概率空间为则熵为011122XP11111()()log()loglog12222niiiHXpxpx2.3.2熵函数的数学特性对称性非负性确定性扩展性可加性极值性上凸性熵函数的数学特性1对称性集合中各分量的次序任意变更时，熵值（平均自信息量）不变从熵（平均自信息量）的公式上来看，该结论是明显的深层含义：熵是有局限性的。它仅与随机变量的总体结构有关，抹煞了个体的特性。例2-7“加权熵”qiiixpxpXH1)(log)()(晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4加权熵晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4权重11124117()()log()8wAiAiAiiHXwpxpx4118()()log()8wBiBiBiiHXwpxpx例2-8熵函数的数学特性2非负性H(X)≥0源于自信息量的非负性。什么时候为0：有且仅有一个pi=1，其余的pi=0，即确定事件集。熵函数的数学特性3确定性集合中只要有一个事件为必然事件，则其余事件为不可能事件，熵为0。H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0熵函数的数学特性4扩展性集合X有q个事件，集合Y比X仅仅是多了一个概率接近0的事件，则两个集合的熵值一样。证明：含义：集合中，一个事件发生的概率比其它事件发生的概率小得多时，这个事件对于集合的熵值的贡献可以忽略。即在研究这个集合的时候，该小概率事件可以不用考虑112120lim(,,,,)(,,,)qqqqHpppHppp0limlog0熵函数的数学特性5可加性H(X,Y)=H(X)+H(Y|X)当X、Y相互独立时，H(X,Y)=H(X)+H(Y)熵函数的数学特性6极值性各事件等概率发生时，熵最大。最大熵定理例子X={x1,x2}:p(x1)=p,p(x2)=1-pH(X)=-plogp-(1-p)log(1-p)X={x1,x2,x3}:p(x1)=p1,p(x2)=p2,p(x3)=1-p1-p2H(X)=-p1logp1-p2logp2-(1-p1-p2)log(1-p1-p2)nnnnHpppHnlog)1,...,1,1(),...,,(2100.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.91pH(p,1-p)010.50.333300.510.333300.511.52p1p2H熵函数的数学特性7上凸性H(p1,p2,…,pq)是概率分布(p1,p2,…,pq)的严格上凸函数如果f[X1+(1-)X2]f(X1)+(1-)f(X2)，其中01，则称f(X)为上凸函数。如果f[X1+(1-)X2]f(X1)+(1-)f(X2)，则称f(X)为严格上凸函数。上凸函数的直观意义除上凸函数之外，还有下凸函数x1x2f(x1)f(x2)x1+(1-)x2f[x1+(1-)x2]f(x1)+(1-)f(x2)对于凸函数，有詹森（Jenson）不等式E[f(x)]f(E[x])2.3.3条件熵定义2-7条件自信息量I(y|x)的概率均值定义为条件熵。含义：知道了集合X中全部事件之后，仍然保留的关于集合Y的平均不确定性。(|)()(|)()log(|)XYXYHYXpxyIyxpxypyx2.3.4联合熵定义2-8联合集XY上，每对元素xy的自信息量的概率平均值定义为联合熵。联合熵又称为共熵。(,)()()()log()XYXYHXYpxyIxypxypxy第2个关系第3个关系第1个关系2.3.5各种熵之间的关系(,)()(|)(,)()()(|)()HXYHXHYXHXYHXHYHYXHY“=”成立的条件是X和Y统计独立H(X,Y)=H(X)+H(Y),H(Y|X)=H(Y)如果有N个随机变量集合统计独立，则有H(X1,X2,…,XN)=H(X1)+H(X2)+…+H(XN)如果统计不独立，则有H(X1,X2,…,XN)H(X1)+H(X2)+…+H(XN)2.4离散集的平均互信息量x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1