关于信息熵应用的讨论

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1关于信息熵应用的讨论1引言信息的多少该如何度量?信息论之父香农在1948年发表的论文提出了“信息熵”的概念,用其来描述信息的不确定度。一般情况下,如果一段信息,它的出现概率很高的时候,就表示它传播的范围很广,也可以认为是被引用的程度更高,所以我们可以这样认为,从信息的传播角度来看,信息熵表征了信息的价值,这样就方便我们对信息的价值高低进行有效的衡量。其计算公式可表示如下:(X)()lb()XHPxPx其中,x表示随机变量,随机变量的集合用X表示,()Px表示输出概率函数。2信息熵在社会领域的应用信息熵理论的应用非常广泛,涉及到我们生活的方方面面。前段时间的琅琊榜以及正播出的芈月传这种精品剧受到了大众的追捧,同样在收视率上表现抢眼。而收视率统计数据作为电视台评价自己的节目,确定各频道和时段广告价格及广告客户选择媒体、频道、时段和节目的重要依据。如果只是对节目播出后进行调查分析显然已经无法满足电视台和广告商的期望。对于电视台方面来说,节目的播出前收视预测能帮助实现节目的精细化制作并获取期望的效果;对于广告商收视预测则明显能减小投资风险。我们知道信息熵是对不确定性的度量,显然其很可能在此处发挥作用。我们可以对一个节目分为多个属性,如艺术水平、题材流行程度、编导人气、受众文化程度、受众经济情况、受众性别、受众年龄等等,再然后加上一个已获得的收视率属性,对属性进行等级或者分数记录。选取样本数据并分别统计,然后计算给定样本集的收视率熵,从而得到样本的平均信息量,再分别计算每个属性的熵,计算信息增益值,从结果中就很容易知道哪个属性在其中具有最高信息增益,即信息熵最小的属性。这个属性作为最先决策的考虑,然后在此基础上再计算其他的信息熵最小属性,作为第二决策考虑,依次类推,生成决策树。基于信息熵的预测收视率模型已有研究成果,2并且证明预测效果很好,比较适合用于影响因素多,样本数据库大的电视节目的收视率分析[1]。对于电视台和广告商,信息熵有巨大的利用价值,那对于为整个娱乐产业操碎了心的广电总局,信息熵是否也有其参考价值呢?假如把观众与电视频道作为一个相对封闭的互动系统,那么观众对频道选择的趋同或者多样就是这个封闭系统非常重要的一个表明系统复杂性的特征。这个系统中观众观看电视频道的复杂度可以用信息量来度量,观众对频道收视选择越一致,对系统状态进行确认所需要的信息量越小;反之,观众收视选择越分散,则对系统状态进行确认所需要的信息量越大。这个信息量的大小可以通过计算信息熵获得。以观众对不同频道的收视率转换为收视概率并计算信息熵。通过观察信息熵的趋势来评判这个系统的无序性。根据此处所定义的信息熵,广电总局可以比较简单明了的了解全国电视频道的整体有序、无序状态,从而采取适当的宏观调控措施。除此之外,信息熵在其他领域也受到了研究者的亲睐。如在学生评教结果分析,教育信息处理,电子数据取证,图书分类决策,煤炭企业经济效益评价等等研究中,信息熵都能发挥重要作用。3信息熵在科学领域的应用结合信息熵的性质,它的应用非常广泛,即使在我所研方向模拟电路设计中它也发挥着不可忽视的作用。在电子电子工艺愈来愈追求高度集成的过程中,维护的难度也相应提高,当一个系统出现故障的时候,进行有效且较为精准的故障诊断及其重要。尤其对于模拟电路,限于其复杂、非线性、易产生误差、容差等特性,故障诊断无疑成为了困扰着集成电路工业发展的一个“瓶颈”。而将信息熵应用于模拟电路故障诊断可以取得不错的效果,成为研究热点。其理论主要应用在对故障电路特征的提取中。其中,长春理工大学的王庆元就用香农熵对电路故障状态的不确定性进行描述,将测量前后电路的熵值变化量作为电路故障状态的诊断信息量,并以诊断信息量为依据,采用粒子群优化算法来进行电路故障状态的最佳特征子集的选取[2]。结果表明利用该方法所获得的特征子集携带电路故障信息最多,可以充分反映电路的各类故障状态,进行有效的故障隔离。在故障特征提取的过程中,我们的目的是找到一个相同容量下能够含有最大的利于进行3故障分类的信息的特征集合,即含有最大诊断信息量的特征集合。一个特征集合的诊断信息量可以定义为在该特征集合上对电路进行测量前后的电路状态的不确定性的变化[4]。所以我们要引用信息熵的概念来计算出这个电路在测量前和测量后电路故障状态的不确定性,即要计算出测点的先验熵以及后验熵。特征集合的诊断信息量反映了其所携带诊断信息量的多少,可以作为选择最优特征集合(即特征提取)的重要依据。事实上,在特征提取中,我们需要做的就是要找到I(X)(先验熵减去后验熵)的最优解,就可在全体特征集合中寻找到具有最大诊断信息量的最优特征子集。他所用到的基于信息熵的特征提取方法在其他研究中也有很大的应用价值。如,文献[3]燕山大学的谢平、周志丰在掌纹的特征提取中,将小波图像分析与信息熵理论相结进行特征提取,结果证明好于传统方法。中北大学潘铭志针对小口径火炮高速自动机的在线监测与故障诊断,建立了基于信息熵小波能量熵、小波奇异谱熵、小波时间熵,实现对信号的多层次特征提取。西南交通大学的筱玲、何正友、钱清泉在超高压输电线路的故障诊断中应用了信息熵理论进行特征提取,并在后续的诊断中验证了它的有效性和准确度。王振海利用基于图像NMI不变特征结合信息熵理论进行图像的特征提取,提出了一种基于内容的图像检索方法,经验证该方法具有较好的实用性。特征选择是基于具有最小冗余性(特征间的互信息量最小)和最大相关性(特征与类别关联度最大),那么是否可以用于视频图像的压缩算法中降低冗余度以提高传输效率呢?在信息通信尤其无线通信领域,应用信息熵理论的特征提取是不是能够有效提高滤波器的滤波性能?因为噪声与传送信息的信号可以近似的认为是不相关,即互信息量很小,所以我们也许可以在信息发送端提取出一个关于信息的特征,然后在接收端应用此特征模型来滤除噪声。另外,对于多频传输的信道,我们要设置一个滤波器滤出一个特定频率的信号,那么利用由发送端得到的特征模型以及基于最大相关性和最小互信息量的原理就可以滤出频率相关性最大的那个信号。在加密解密领域,信息熵有没有可利用的价值?同时,信息熵是系统整体性的一种度量,在混沌时间序列的分析中起着重要作用。混沌时间序列的判定、分析与预测都是在重构相空间中进行的因此相空间重构是分析混沌动力学系统的第一步。华南理工大学的张春涛在文献[5]中提出4了一种基于信息熵模型的相空间重构方法。利用信息熵优化重构参数,使建立在重构相空间上预测模型能获得更多的信息量,从而使得系统内部运动规律更容易显现。这种方法相对于传统的方法有优良的保持原动力系统整体的特性的优势。在信息安全领域,我们常常受到木马程度的困扰,而用传统的协议分析手段无法进行有效检测。用信息熵统计的会话分布规律并布局在网络端口处,通过判断端口数据是否服从已确定的正态分布实现检测木马程序[6]。这种方法的检测效果很好,且在网络环境中有良好的实时性。由此我们也可以想到,在图像、视频、文字的加密置乱中,信息熵也可以用来有效检测效果从而评估算法的优劣。还有很多学者研究了信息熵在基因调控网络构建,农业技术扩散,工程造价风险分析,泥沙研究,建筑工程管理等等具体问题中的应用,并取得了一定的研究成果。4总结通过上面这些基于信息熵的应用,我们可以发现,在系统性、整体性、随机性的问题上,信息熵有着广泛的应用价值。在包括生命科学在内的自然科学乃至社会科学的各个领域,存在着大量的不同层次、不同类别的随机事件的集合,而每一种集合都对应有相应的不确定性(或称为无序性、混乱度、无规律性等等),所有这些不确定性都可使用信息熵这个统一的概念来描述,从而使该随机事件集合的某种规律性描述实现定量化。因此,可以把信息熵引申应用到对事物集合中一些相互对立性质的量度,判断事物集合中的有序与无序、确定性与随机性、组织性与散漫性、规则性与杂乱性、简并性与多样性,并对其相互对立的概念进行量度。虽然信息熵的应用不断的拓宽,但在个体的、少数的特性研究中,信息熵显然意义并不大,当然也没有这个必要。信息无所不在,无序是世界的本质特征,我相信结合两者的信息熵的价值无可估量,远远不止于现有的研究成果。这需要更多的人学习了解信息熵,利用这个有效的工具去研究解决自己学科中的问题。5参考文献[1]徐娟娟,刘同明.基于决策树的电视节目收视率预测模型[J].软件时空.2007,9.[2]王庆元.模拟电路故障中基于信息熵的特征提取方法.长春理工大学硕士论文.2012,6.[3]谢平,周忐丰.基于小波变换和信息熵的掌纹特征提取方法[J].计算机系统应用.2008,2.[4]LXu,PYan,TChang.BestFirstStrategyforFeatureSelection[A].Procof9thInt'lConfonPatternRecognition[C].[5]张春涛,马千里,彭宏.基于信息熵优化相空间重构参数的混沌时间序列预测[J].物理学报.2010,59(11):7623-7630.[6]陈利,张利,班晓芳,梁杰.基于信息熵的加密会话检测方法[J].计算机科学.2015,42(1):142-143.

1 / 5
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功