第二章教育信息熵•熵的最早提出(1865年)与热力学•熵在信息论中的地位精选第一节熵的概述一信息量的表示1信息的多少与信源的不确定性有关实例:5个学生(A、B、C、D、E)参加某项比赛,选拔出1人为冠军精选2信息量的度量与信源的不确定性实例1:5个学生水平相差不多(接近等概率)实例2:5个学生水平相差大(不等概率),其中A的水平高超问:哪一组比赛悬念更大(获得的信息量多)?精选3小结:信源输出的消息可以看作是随机事件事件出现的概率大,出现机会多,不确定程度小;事件出现的概率小,出现机会少,不确定程度大。即Pi大,f(Pi)小;Pi小,f(Pi)大。即f(Pi)应是Pi的单调减函数f(pi)=∽(1/pi)精选4信息量的可加性单调减函数可以有很多种,用来度量信息的函数f(Pi)究竟应当是哪一种呢?有了可加性即可解决。即P(x1,x2)=P(x1)*P(x2)联合概率(两个变量相互独立)而f(P1,P2)=f(P1)+f(P2)不确定性可见f(P)满足取对数的关系f(P)=log(1/p)=-logp它满足的两个关系:(1)不确定性与概率的关系;(2)可加性的要求。精选二信息熵1平均信息量(信息熵)一般情况下状态空间:X:x1,x2……………xn概率分布:P(x):P(x1),P(x2)………P(xn),且nixiP11)(这里假定各状态是相互独立的。精选出现Xi的不确定性:log(1/P(xi))该信源每个状态的平均(加权平均)不确定性:ninixiPxiPxiP11)(/))(/1log()(nixiPxiP1)(1)]log()([精选信息熵(平均信息量):也可以简写为:ninixiPxiPxiPxiPXH11)(1)(log)()log()()(),,,1,1(log1pnppHPiPiHni精选2两种不同的单位上面的定义式中,没有考虑对数的底a,当它取不同的底时(常取2或e),信息熵的单位为比特(bits)和奈特(nats)1比特=0.693奈特1奈特=1.443比特此外,还有一个单位叫哈特(以10为底),取自人名哈特莱(Hartley),他提出了熵定义式中的对数关系。且1哈特=3.32比特精选3例某一系统具有四种状态(或四种事件)A1、A2、A3、A4,各自的概率为:p1=1/2,p2=1/4,p3=1/8,p4=1/8注意:概率和为1计算得熵:H=1.75(比特/状态)精选4连续信源如果概率空间为连续系统,其概率分布为:p(x),对应系统的熵为:badxxpxpH)](log)([精选三熵的意义1熵的大小表示某概率系统的不确定程度实例1:某一概率系统的概率分布如下:(1,0,0,,,0)这是一个确定性系统,计算其信息熵H=0,即该系统不确定性为0。精选实例2:某一概率系统的概率分布为等概率:(1/n,1/n,,,1/n),设该系统共有n个状态(事件)这是一个最不确定系统,计算其信息熵H为最大,即该系统不确定性最大。一般系统介于上述两种极端情况之间。精选2熵的大小表示某系统中任一状态(事件)出现后产生的平均信息量实例1:某一概率系统的概率分布如下:(1,0,0,,,0)在这个系统中,只有第一个状态出现,当它出现之后,没有给我们带来任何信息量,计算其信息熵H=0。精选实例2:某一概率系统的概率分布为等概率:(1/n,1/n,,,1/n),设该系统共有n个状态(事件)在这个系统中,任何一个状态都有均等的机会出现,当某一个状态出现之后,都给我们带来最大的信息量,计算其信息熵H为最大。一般系统介于上述两种极端情况之间。精选四信息熵的基本性质1单峰性(极值性)任何一个随机系统,其信息熵都有一个极大值(单峰),即各状态出现为等概率时,熵为最大:H(p1,p2,,,pn)≤H(1/n,1/n,,,1/n)=logn实例:一个二事件系统,概率分别为p和1-p该系统的熵为:H=-[plogp+(1-p)log(1-p)]其H—P图具有单峰性(图2.1)精选图2-1两个事件H-P图精选2对称性H(p1,p2,p3)=H(p1,p3,p2)=H(p3,p2,p1)说明:1)这是由于加法满足交换率2)这也说明熵反映了该系统的整体特性精选3渐化性(递增性)设某系统共有n个事件,现在第n个事件分裂成两个事件,概率分别为q、r(即pn=q+r),该系统的熵变为:证明(利用熵函数的表达式):作为习题精选4展开性(扩展性)H(p1,p2,,,pn)=H(p1,p2,,,pn,0)=H(p1,p2,,,pn,0,,,0)说明:某系统的事件数增加了,但这些事件的出现概率为0时,该系统的熵不变。精选5确定性H(1,0)=H(0,1)=H(1,0,,,0)=H(0,0,,,0,1)=06非负性H(p1,p2,…,pn)≥0小结:熵是一种描述系统总体特性的统计量精选第二节相对熵与冗余度一最大熵任何一个随机系统(共有n个状态),各状态出现为等概率时,且各个状态无相关性,其信息熵都有一个最大值:Hmax=logn实例:英语用来传输信息,使用26个字母,加上一个空格。这样的系统,其最大熵为:Hmax=log27≈4.76(比特/字母)精选二一般情况一般情况下,任何一个系统(共有n个状态),各状态出现一般为不等概率,且各个状态有相关性,其实际信息熵(H)都有小于最大值,即H≤Hmax=logn实例:1)英语字母的使用并非是相互独立的,字母间存在相关性;2)英语字母并非等概率使用(表2.1:P33)故:英语字母的熵通常远小于4.76(有人计算≈1.4)精选三相对熵我们定义:h=H/Hmax为相对熵,它便于比较两个不同事件数目的系统的信息熵。精选四冗余度定义:r=1-h=1-H/Hmax=(Hmax-H)/Hmax冗余度的含义:在传递信息时,不必要的冗长部分的比例,即为了表示某一定量的信息量,我们需要用更多的事件数。实例:(英语字母),为了表示某一内容的文章,我们需要用更多的字母。关于汉字的使用精选五关于冗余度的讨论1冗余度使得信息传递的效率降低实例:英语字母使用中的冗余度达到70%-80%,所以英语是一种传递效率不高的语言。2冗余度可以提高信息传递中的抗干扰能力实例:传输“中华人民共和国”与传输“中国”,效果是一样的,因此有一定的冗余度。但前者在传输时,抗干扰能力更高。精选第三节熵函数的展开一联合熵1信源现有两个信源:X,YX:x1,x2…xnY:y1,y2,……ymP(x):P(x1),P(x2)…P(xn)P(y):P(y1),P(y2)…P(ym)精选联合空间:X.Y:x1y1,x1y2,…………x1ym…………….xny1,xny2,…………xnymP(x.y):P(x1,y1),P(x1,y2)………P(x1,ym)………….P(xn,y1),P(xn,y2)………P(xn,ym)精选其中P(xi,yj)为xi和yj的联合概率且P(xi,yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj)当:xi和yj相互独立时P(yj/xi)=P(yj)P(xi/yj)=P(xi)精选2二元联合信源的熵:H(X,Y)=-ΣΣP(xi,yj)logP(xi,yj)当每个信源相互独立时:H(X,Y)=H(X)+H(Y)即联合熵等于每一个信源熵之和。但由于相关性的存在,会减少平均不确定性故H(X,Y)=H(X)+H(Y)精选3例考虑m=2的情况,且假定联合概率分布如下:P(xi,yj)y1y2y3x11/207/201/10x27/201/201/101/21/22/52/51/5精选(1)先求出Px(x1)=1/2Px(x2)=1/2Py(y1)=2/5Py(y2)=2/5Py(y3)=1/5(2)求出H(X)=-[(1/2)log(1/2)+(1/2)log(1/2)]=1同理H(Y)=1.522而H(X)+H(Y)=2.522(比特/事件)精选(3)H(X,Y)=-[P(x1,y1)logP(x1,y1)+P(x1,y2)logP(x1,y2)+P(x1,y3)logP(x1,y3)+P(x2,y1)logP(x2,y1)+P(x2,y2)logP(x2,y2)+P(x2,y3)logP(x2,y3)]=-[(1/20)log(1/20)+(7/20)log(7/20)+(1/10)log(1/10)+(7/20)log(7/20)+(1/20)log(1/20)+(1/10)log(1/10)]=2.157精选显然H(X,Y)=H(X)+H(Y)2.1572.522精选二条件熵1概率关系把联合概率P(xi,yj)=P(xi)*P(yj/xi)代入H(X,Y)=-ΣΣP(xi,yj)log[P(xi)*P(yj/xi)]=-ΣΣP(xi,yj)logP(xi)-ΣΣP(xi,yj)logP(yj/xi)=-ΣP(xi)logP(xi)-ΣΣP(xi,yj)logP(yj/xi)=H(X)+H(Y/X)精选2条件熵上式中的H(Y/X)=-ΣΣP(xi,yj)logP(yj/xi)叫做给定X时关于Y的条件熵它表示:已知X时关于Y还保留的平均不确定性精选3讨论:(1)联合熵表示将XY作为一个整体看待时,总的平均不确定性H(X,Y)等于X的不确定性与已知X后关于Y的不确定性H(Y/X)的和(2)如果X和Y独立,则H(Y/X)=H(Y)这时H(X,Y)=H(X)+H(Y)精选(3)反之,若Y完全由X决定,因而已知X即可确定Y,不再有任何不确定性,即H(Y/X)=0这时H(X,Y)=H(X)(4)一般情况下:0=H(Y/X)=H(Y)即条件熵永远小于或等于无条件熵(5)由于X与Y之间存在的对称性,可得H(X,Y)=H(Y)+H(X/Y)精选4互信息定义:I(X,Y)=H(X)+H(Y)-H(X,Y)为信源X和信源Y的互信息。通过变换,可得:I(X,Y)=H(X,Y)-H(X|Y)-H(Y|X)精选5关于几个熵的关系:H(X),H(Y),H(X,Y),H(Y/X),H(X/Y),I(X;Y)三Kullback信息量(略)第四节熵模型(略)精选第五节测试问题信息量一测试问题信息熵的计算1多重选择题(设有5个备选答案)几种应答分布:1)(1,0,0,0,0),应答信息熵:H=02)(1/2,1/8,1/8,1/8,1/8),应答信息熵:H=23)(1/2,1/2,0,0,0),应答信息熵:H=14)(1/5,1/5,1/5,1/5,1/5)应答信息熵:H=log5通过信息熵的计算,我们能够得到这些测试问题的难易程度和学生的学习能力倾向,可以作为测试问题的评价及其指标。精选二等价预选项数题目分析:难度,区分度这里主要讨论选择题:除了难度与区分度,还有一个问题:就是对题目各备选项的有效性作出评价精选1等价预选项数令i=1,2,3………m为选择题的一个选项,Pi为考生选择第i项的概率,则该选择题的熵:H=-ΣPilogPi讨论:某一个Pi=1,其它选项无人选,此时:H=0,分散程度最小每一个Pi=1/m,每个选项均匀分布,此时:H=logm(最大)分散程度最大。如图所示精选图2-8等价预选项目的数据精选由于H是熵(平均信息量)设H与回答均匀地分布于K个(不是m个,而是小于或等于m个)选项时的信息量相等(原来是m个答案非均匀的分布)H=-Σ(1/K)log(1/K)=logK可得K=2H这就是等价预选项数(佐藤隆博定义)精选例某题有5个选项,根据回答先求出H,再计算KH约为1.531,计算出K=2.89这意味着:虽然有5个选项,但结果等价于均匀地分布在大约3个选项上。把熵表达式代入等价选预项数公式:得K=2-ΣPilogPi=ПPi-Pi改错:(2-29):P45精选这里,我们不用求熵,就可以直接求出等价预选项数K,而且K与logPi中的底无关。当各选项等概时,H和K取最大值:即:Hmax=logmKmax=m精选2选项项数的范围KmaxKminK=1/PrKPr在图中r:为选择题的正确选