第2章信息的统计度量.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

信息论与编码理论第2章信息的统计度量主要内容从概率的角度研究问题自信息量互信息量平均自信息量平均互信息量信息的大小多个信息之间关联的密切程度2.1自信息和条件自信息2.1.1自信息量事件发生的概率越大,它发生后提供的信息量越小。张三今天吃饭了事件发生的概率越小,一旦该事件发生,它提供的信息量就越大。美国总统的专机发生空难2.1.1自信息定义2-1任意随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件xi发生的概率为p(xi),则其自信息定义式为根据该公式可能提出的问题底数是多少?常用底数:2真的成反比吗?I(x)≥0规定:0log0=0()log()iiIxpx自信息量的含义自信息量表示了一个事件是否发生的不确定性的大小。一旦该事件发生,就消除了这种不确定性,带来了信息量,即:自信息量表示了一个事件的发生带给我们的信息量的大小。自信息量表示了确定一个事件是否发生,所需的信息量的大小。自信息量表示了将事件的信息量表示出来,所需的二进制位的个数。自信息量的例子假设“张三今天吃饭了”这个事件发生的概率是99.99%,则该事件的自信息量为:这表明该事件的不确定性很小。假设“美国总统的专机发生空难”这个事件发生的概率是0.01%,则该事件的自信息量为:这表明该事件的不确定性很大。log(0.9999)0.00014428log(0.0001)13.2877联合自信息量定义2-2二维联合集XY上的元素(xiyj)的联合自信息量定义为联合自信息量衡量的是多个事件同时出现的不确定性;或者,两个事件同时发生带给我们的信息量的大小;或者,将该信息量表示出来,所需的二进制位的个数。()log()ijijIxypxy2.1.2条件自信息量定义2-3事件xi在事件yj给定的条件下的条件自信息量定义为:含义:知道事件yj之后,仍然保留的关于事件xi的不确定性;或者,事件yj发生之后,事件xi再发生,能够带来的信息量。p(x):x出现的概率I(x):x的不确定性p(x|y):y出现之后x出现的概率I(x|y):知道y之后仍然保留的关于x的不确定性衡量的都是不确定性先验概率后验概率(|)log(|)ijijIxypxy条件自信息量的例子事件:x=“美国总统的专机发生空难”y=“今天是9.11”概率:p(x)=0.01%p(x|y)=1%事件x的自信息量为:事件x在事件y发生的情况下的条件自信息量为:()log()log0.01%13.2877Ixpx6439.6%1log)|(log)|(yxpyxI2.2互信息量举例张三今天没来上课张三有可能病了为什么没来上课就会猜到生病了?因为二者有关系互信息衡量的就是这种关系的大小象形字,本意:绞绳用的工具,又象握手互相,两者或者多者相互作用两个或者多个事件之间关联的密切程度2.2.1互信息量定义2-4随机事件yj的出现给出关于事件xi的信息量,定义为互信息量。定义式:单位:同自信息量(|)(;)log()ijijipxyIxypx互信息量的含义还可表示为:含义:本身的不确定性,减去知道了事件y之后仍然保留的不确定性,即由y所提供的关于x的信息量,或者说由y所消除的x的不确定性。互信息量=原有的不确定性-尚存在的不确定性(|)(;)log()pxyIxypx(;)()(|)IxyIxIxy对数的几个性质:1loglogloglogloglogloglogaaaabbabablog(|)log()log()log(|)()(|)pxypxpxpxyIxIxy互信息量的例子事件:x=“美国总统的专机发生空难”y=“今天是9.11”概率:p(x)=0.01%p(x|y)=1%前面已求出自信息量和条件自信息量为:而x和y的互信息量为:(|)1%(;)logloglog1006.6439()0.01%pxyIxypx6439.6)|(yxI2877.13)(xI)|()(yxIxI2.2.2互信息量的性质概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxyx1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1全概率公式互信息量的性质1互信息量的互易性I(x;y)=I(y;x)证明:含义:由y所提供的关于x的信息量等于由x所提供的关于y的信息量概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxy(|)(;)log()pxyIxypx()(|)()(|)()logloglog(;)()()()()pxypxypypyxpxIyxpxpypypy互信息量的性质2互信息量可为0当事件x、y统计独立时,互信息量为0证明:含义:当两个事件相互独立时,一个事件不能提供另一个事件的任何信息。即一个事件发生之后,对于确定另一个事件是否发生没有任何帮助。p(x|y)=p(x)无论是否知道y,都对x出现的概率没有影响x和y没有什么关系(|)()(;)logloglog10()()pxypxIxypxpx概率乘法公式全概率公式(,)()(|)pxypypxy11()(,)()(|)nniiiiipxpxypypxy互信息量的性质3互信息量可正可负正:y的出现有助于肯定x的出现x:张三病了。y:张三没来上课。负:y的出现有助于否定x的出现x:李四考了全班第一名。y:李四没有复习功课。无论正负,互信息量的绝对值越大,x和y的关系越密切。(|)(;)log0()(|)1(|)()()pxyIxypxpxypxypxpx(|)(;)log0()(|)1(|)()()pxyIxypxpxypxypxpx回想自信息量I(x)I(x)≥0:x的出现或多或少总能带来一些信息互信息量的性质4互信息量不大于其中任一事件的自信息量证明同理:I(x;y)=I(y;x)≤I(y)互信息量=原有的不确定性-尚存在的不确定性(|)1(;)loglog()()()pxyIxyIxpxpx2.3离散集的平均自信息量(熵)离散集X={x1,x2,…,xn}离散集的概率分布表示为离散集中的每一个事件都有自己的自信息量所有这些自信息量的均值,就是离散集的平均自信息量定义2-5集X上,随机变量I(xi)的数学期望定义为平均自信息量。又称作集X的信息熵,简称熵。H(X)又可记作H(p1,p2,…,pn)1()(())[log()]()log()niiiiiHXEIxEpxpxpx1212()()()nnxxxXpxpxpxP12()()()nIxIxIx平均自信息量含义熵表示了集合中所有事件是否发生的平均不确定性的大小。熵表示了集合中事件发生,带给我们的平均信息量的大小。熵表示了确定集合中到底哪个事件发生时,所需的平均信息量的大小。熵表示了,如果用二进制数据将集合中的各个元素表示出来,所需的二进制位的个数的平均值。熵的单位同自信息量的单位熵的例子串口通信某串口的概率空间为则熵为011122XP11111()()log()loglog12222niiiHXpxpx2.3.2熵函数的数学特性对称性非负性确定性扩展性可加性极值性上凸性熵函数的数学特性1对称性集合中各分量的次序任意变更时,熵值(平均自信息量)不变从熵(平均自信息量)的公式上来看,该结论是明显的深层含义:熵是有局限性的。它仅与随机变量的总体结构有关,抹煞了个体的特性。例2-7“加权熵”qiiixpxpXH1)(log)()(晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4加权熵晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4权重11124117()()log()8wAiAiAiiHXwpxpx4118()()log()8wBiBiBiiHXwpxpx例2-8熵函数的数学特性2非负性H(X)≥0源于自信息量的非负性。什么时候为0:有且仅有一个pi=1,其余的pi=0,即确定事件集。熵函数的数学特性3确定性集合中只要有一个事件为必然事件,则其余事件为不可能事件,熵为0。H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0熵函数的数学特性4扩展性集合X有q个事件,集合Y比X仅仅是多了一个概率接近0的事件,则两个集合的熵值一样。证明:含义:集合中,一个事件发生的概率比其它事件发生的概率小得多时,这个事件对于集合的熵值的贡献可以忽略。即在研究这个集合的时候,该小概率事件可以不用考虑112120lim(,,,,)(,,,)qqqqHpppHppp0limlog0熵函数的数学特性5可加性H(X,Y)=H(X)+H(Y|X)当X、Y相互独立时,H(X,Y)=H(X)+H(Y)熵函数的数学特性6极值性各事件等概率发生时,熵最大。最大熵定理例子X={x1,x2}:p(x1)=p,p(x2)=1-pH(X)=-plogp-(1-p)log(1-p)X={x1,x2,x3}:p(x1)=p1,p(x2)=p2,p(x3)=1-p1-p2H(X)=-p1logp1-p2logp2-(1-p1-p2)log(1-p1-p2)nnnnHpppHnlog)1,...,1,1(),...,,(2100.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.91pH(p,1-p)010.50.333300.510.333300.511.52p1p2H熵函数的数学特性7上凸性H(p1,p2,…,pq)是概率分布(p1,p2,…,pq)的严格上凸函数如果f[X1+(1-)X2]f(X1)+(1-)f(X2),其中01,则称f(X)为上凸函数。如果f[X1+(1-)X2]f(X1)+(1-)f(X2),则称f(X)为严格上凸函数。上凸函数的直观意义除上凸函数之外,还有下凸函数x1x2f(x1)f(x2)x1+(1-)x2f[x1+(1-)x2]f(x1)+(1-)f(x2)对于凸函数,有詹森(Jenson)不等式E[f(x)]f(E[x])2.3.3条件熵定义2-7条件自信息量I(y|x)的概率均值定义为条件熵。含义:知道了集合X中全部事件之后,仍然保留的关于集合Y的平均不确定性。(|)()(|)()log(|)XYXYHYXpxyIyxpxypyx2.3.4联合熵定义2-8联合集XY上,每对元素xy的自信息量的概率平均值定义为联合熵。联合熵又称为共熵。(,)()()()log()XYXYHXYpxyIxypxypxy第2个关系第3个关系第1个关系2.3.5各种熵之间的关系(,)()(|)(,)()()(|)()HXYHXHYXHXYHXHYHYXHY“=”成立的条件是X和Y统计独立H(X,Y)=H(X)+H(Y),H(Y|X)=H(Y)如果有N个随机变量集合统计独立,则有H(X1,X2,…,XN)=H(X1)+H(X2)+…+H(XN)如果统计不独立,则有H(X1,X2,…,XN)H(X1)+H(X2)+…+H(XN)2.4离散集的平均互信息量x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功