定义离散连续自信息(单位:比特/奈特)自信息𝐼(𝑥)=−𝑙𝑜𝑔𝑝(𝑥)联合自信息𝐼(𝑥𝑦)=−𝑙𝑜𝑔𝑝(𝑥𝑦)条件自信息𝐼(𝑥|𝑦)−𝑙𝑜𝑔𝑝(𝑥|𝑦)互信息(单位:比特/奈特)互信息𝐼(𝑥;𝑦)=𝑙𝑜𝑔𝑝(𝑥|𝑦)𝑝(𝑥)=𝑙𝑜𝑔𝑝(𝑥𝑦)𝑝(𝑥)𝑝(𝑦)y给x提供的信息量𝐼(𝑥;𝑦)=𝑙𝑜𝑔𝑝(𝑥𝑦)𝑝(𝑥)𝑝(𝑦)条件互信息𝐼(𝑥;𝑦|𝑧)=𝑙𝑜𝑔𝑝(𝑥|𝑦𝑧)𝑝(𝑥|𝑧)熵(单位:比特/信源符号)(单位:比特/扩展(N个)符号)(单位:比特/自由度)信息熵𝐻(𝑋)=−∑𝑝(𝑥)𝑙𝑜𝑔𝑝(𝑥)𝑥离散熵ℎ(𝑋)=−∫𝑝(𝑥)𝑙𝑜𝑔𝑝(𝑥)𝑑𝑥+∞−∞差熵、微分熵ℎ0(𝑋)=−𝑙𝑖𝑚∆𝑥→0(𝑙𝑜𝑔∆𝑥)∫𝑝(𝑥)𝑑𝑥=−𝑙𝑖𝑚∆𝑥→0(𝑙𝑜𝑔∆𝑥)→∞绝对熵ℎ(𝑋)=−𝑙𝑖𝑚∆𝑥→0∑𝑝(𝑥𝑖)∆𝑥𝑙𝑜𝑔𝑝(𝑥𝑖)𝑖=−∫𝑝(𝑥)𝑙𝑜𝑔𝑝(𝑥)𝑑𝑥𝐻([𝑋])=−∑𝑝(𝑥𝑖)∆𝑥𝑙𝑜𝑔[𝑝(𝑥𝑖)∆𝑥]𝑖=−∑𝑝(𝑥𝑖)∆𝑥𝑙𝑜𝑔𝑝(𝑥𝑖)−∑𝑝(𝑥𝑖)∆𝑥𝑙𝑜𝑔∆𝑥𝑖𝑖连续随机变量的离散化条件熵𝐻(𝑌|𝑋)=−∑∑𝑝(𝑥𝑦)𝑦𝑥𝑙𝑜𝑔𝑝(𝑦|𝑥)=∑𝑝(𝑥)[−∑𝑝(𝑦|𝑥)𝑙𝑜𝑔𝑝(𝑦|𝑥)𝑦]𝑥(本质)=∑𝑝(𝑥)𝐻(𝑌|𝑥)𝑥ℎ(𝑋|𝑌)=−∬𝑝(𝑥𝑦)𝑙𝑜𝑔+∞−∞𝑝(𝑥|𝑦)𝑑𝑥𝑑𝑦联合熵𝐻(𝑋𝑌)=−∑∑𝑝(𝑥𝑦)𝑙𝑜𝑔𝑝(𝑥𝑦)𝑦𝑥ℎ(𝑿𝑵)=−∫𝑝(𝒙)𝑙𝑜𝑔𝑝(𝒙)𝑑𝑥XN=𝑋1𝑋2…𝑋𝑁,𝑝(𝒙)是XN的联合概率密度熵率𝐻∞(𝑋)=𝑙𝑖𝑚𝑁→∞1𝑁𝐻(𝑋𝑁)=𝑙𝑖𝑚𝑁→∞1𝑁𝐻(𝑋1𝑋2…𝑋𝑁)单位:比特/符号ℎ∞(𝑋)=𝑙𝑖𝑚𝑁→∞1𝑁ℎ(𝑋𝑁)=𝑙𝑖𝑚𝑁→∞1𝑁ℎ(𝑋1𝑋2…𝑋𝑁)单位:比特/自由度平均互信息离散连续集合和事件之间𝐼(𝑥;𝑌)=∑𝑝(𝑦|𝑥)𝑙𝑜𝑔𝑝(𝑦|𝑥)𝑝(𝑦)𝑦(过渡)x给Y提供的信息量,与事件自信息顺序不同集合之间𝐼(𝑋;𝑌)=∑∑𝑝(𝑥𝑦)𝐼(𝑥;𝑦)𝑦𝑥=∑∑𝑝(𝑥𝑦)𝑙𝑜𝑔𝑝(𝑥|𝑦)𝑝(𝑥)𝑦𝑥Y给X提供信息量,与事件自信息顺序相同∬𝑝(𝑥𝑦)𝑙𝑜𝑔𝑝(𝑥𝑦)𝑝(𝑥)𝑝(𝑦)𝑑𝑥𝑑𝑦+∞−∞平均条件互信息I(X;Y|Z)𝐼(𝑋;𝑌|𝑍)=∑∑∑𝑝(𝑥𝑦𝑧)[𝐼(𝑥;𝑦|𝑧)]𝑧𝑦𝑥性质离散连续等式关系自信息、条件自信息、联合自信息之间的关系𝐼(𝑥𝑦)=𝐼(𝑥)+𝐼(𝑦|𝑥)=𝐼(𝑦)+𝐼(𝑥|𝑦)互信息、条件自信息、自信息之间的关系𝐼(𝑥;𝑦)=𝐼(𝑥)−𝐼(𝑥|𝑦)平均互信息与熵的关系I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)I(X;Y)=H(X)+H(Y)-H(XY)对比:𝐼(𝑥;𝑦)=𝐼(𝑥)−𝐼(𝑥|𝑦)𝐼(𝑥;𝑦)=𝐼(𝑥)+𝐼(𝑦)−𝐼(𝑥𝑦)等式两边同时对∑∑𝑝(𝑥𝑦)𝑦𝑥求和则为上式平均条件互信息和平均互信息的关系I(X;Y|Z)=I(X;YZ)-I(X;Z)I(X;Z|Y)=I(X;YZ)-I(X;Y)I(X;YZ)=I(X;Y|Z)+I(X;Y)I(X;YZ)=I(X;Z|Y)+I(X;Z)𝐼(𝑥;𝑦𝑧)=𝑙𝑜𝑔𝑝(𝑥|𝑦𝑧)𝑝(𝑥)=𝑙𝑜𝑔𝑝(𝑥|𝑦𝑧)𝑝(𝑥|𝑧)𝑝(𝑥|𝑧)𝑝(𝑥)=𝐼(𝑥;𝑦|𝑧)+𝐼(𝑥;𝑧)等式两边对∑∑∑𝑝(𝑥𝑦𝑧)𝑧𝑦𝑥求和,得到性质熵的性质对称性非负性𝐻(𝑝)=𝐻(𝑝1,𝑝2,…,𝑝𝑛)≥0当且仅当某个pi=1时,取“=“差别:1.不具有非负性若整个积分区间概率密度值大于1,则差熵值小于02.相对度量不是绝对度量3.一一对应变换条件下差熵可能发生变化3.扩展性4.(可加性)𝐻(𝑋1𝑋2…𝑋𝑛)=𝐻(𝑋1)+𝐻(𝑋2|𝑋1)+⋯+𝐻(𝑋𝑛|𝑋1…𝑋𝑛−1)(熵的链式法则)可加性:ℎ(𝑋1𝑋2…𝑋𝑛)=ℎ(𝑋1)+ℎ(𝑋2|𝑋1)+⋯+ℎ(𝑋𝑛|𝑋1…𝑋𝑛−1)5.(极值性)离散最大熵定理:有限离散随机变量集合,当集合事件等概率发生时,熵达到最大值(无限情况下不满足)6.确定性任何一事件为1,熵为07.(上凸性)𝐻(𝑝)=𝐻(𝑝1,𝑝2,…,𝑝𝑛)是(𝑝1,𝑝2,…,𝑝𝑛)上的严格上凸函数。各类熵之间的不等关系:熵不增加原理:H(Y|X)≤H(Y)证明:散度(单个事件不具有该性质)凡是事件不成立而平均成立的都要利用散度当且仅当X,Y互相独立时,取“=“熵的不增性:h(Y|X)≤h(Y)含义:条件越多,熵越小𝐻(𝑋1𝑋2…𝑋𝑁)≤∑𝐻(𝑋𝑖)𝑁𝑖=1证明:熵不增原理,所以取等条件一致当且仅当各𝑋𝑖独立时,取“=”ℎ(𝑋1𝑋2…𝑋𝑁)≤∑ℎ(𝑋𝑖)𝑁𝑖=1熵函数的唯一性尚不清楚互信息的性质互易性:I(x;y)=I(y;x)2.𝑋⊥𝑌时:I(x;y)=03.互信息可正可负(平均互信息非负)4.任何两件事的互信息不大于任一事件自信息:(一件事情的自信息是任何其他事件所能提供关于该事件的最大信息量)𝐼(𝑥;𝑦)≤𝐼(𝑥),𝐼(𝑦);𝐼(𝑦;𝑥)≤𝐼(𝑦),𝐼(𝑥)平均互信息的性质非负性I(X;Y)≥0证明:散度(单个事件不具有该性质)凡是事件不成立而平均成立的都要利用散度1.非负性I(X;Y)≥0对称性I(X;Y)=I(Y;X)2.对称性I(X;Y)=I(Y;X)凸函数性I(X;Y)是概率分布p(x)上的上凸函数是条件概率p(y\x)下的下凸函数极值性I(X;Y)≤H(X),H(Y)与事件互信息性质一致𝐼(𝑥;𝑦)≤𝐼(𝑥),𝐼(𝑦);𝐼(𝑦;𝑥)≤𝐼(𝑦),𝐼(𝑥).5.I(X;YZ)≥I(X;Z),I(X;Y)含义:事件越多,提供的互信息越大6.(平均互信息的链式法则)𝐼(𝑋1𝑋2…𝑋𝑛;𝑌)=𝐼(𝑋1;𝑌)+𝐼(𝑋2;𝑌|𝑋1)+⋯+𝐼(𝑋𝑛;𝑌|𝑋1𝑋2…𝑋𝑛−1)平均条件互信息的性质非负性I(X;Y|Z)≥0证明:散度(单个事件不具有该性质)凡是事件不成立而平均成立的都要利用散度补充概念:凸函数:多元函数𝑓(𝑥1,𝑥2,…,𝑥𝑛),若对α(0≤𝛼≤1),及任意矢量𝒙𝟏,𝒙𝟐有𝑓[𝛼𝒙𝟏+(1−𝛼)𝒙𝟐]≥𝛼𝑓(𝒙𝟏)+(1−𝛼)𝑓(𝒙𝟐)则称为上凸函数,若当且仅当𝒙𝟏=𝒙𝟐,或α=0或1时取“=”,则为严格上凸函数定理:若𝑓(𝒙)是定义在区间上的实值严格上凸函数,则对任意一组𝒙𝟏,𝒙𝟐,…,𝒙𝒒(x可以为一维或多维)和任意一组λ1,λ2,…,λq,∑𝜆𝑘=1,那么𝑓[∑𝜆𝑘𝑞𝑘=1𝑥𝑘]≥∑𝜆𝑘𝑞𝑘=1𝑓(𝑥𝑘)(Jason不等式)当且仅当𝒙𝟏=𝒙𝟐=⋯=𝒙𝒒,或λk=1(1≤k≤q)且λj=0(j≠k),取“=“有用不等式:1−1𝑥≤𝑙𝑛𝑥≤𝑥−1信息的散度:𝐷(𝑃||𝑄)=∑𝑃(𝑥)𝑙𝑜𝑔𝑃(𝑥)𝑄(𝑥)𝑥定理:𝐷(𝑃||𝑄)≥0,当且仅当对所有x,P(x)=Q(x)时,取“=”。(证明:Jason不等式)连续随机变量集合的信息散度