信息论与编码在现实中的运用

lizhihao27
1 ℃
2020-03-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

信息论与编码在现实中的运用之从信息论的观点来看学习中文与英文的难易比较学院：电气学院专业：通信工程姓名：孙大山学号：1043031420教师：王忠【摘要】当今世界是一个充满信息的世界，没有信息的世界是混乱的世界。因而信息十分重要，随着社会信息化进程的加速，人们对信息的依赖程度会越来越高。为此，有关信息研究的科学——信息论也就应运而生，其中研究信息论的佼佼者与先驱便是香农，他为信息论的发展做出了巨大贡献。为此，信息论也叫做香农信息论。信息论自诞生现在不到60年的时间，在人类科学史上是短暂的，但他的发展对学术界与人类社会的影响是相当广泛的。信息在信息化程度越来越高的现代社会将起到越来越重要的作用，是比物质和能量更为宝贵的资源。全面掌握，理解运用它，有效的利用信息，更能为人类服务。就如，在日常学习英文与中文中。【关键词】信息、香农信息论、学习中文、学习英文1、信息论的发展过程一般认为信息论的创始人是香农和维纳，但由于香农的贡献更大，所以更多人认为香农更合适。•维纳，美国数学家，控制论的创始人。1894年11月26日生于密苏里州的哥伦比亚，1964年3月18日卒于斯德哥尔摩。•维纳在其50年的科学生涯中，先后涉足哲学、数学、物理学和工程学，最后转向生物学，并且在各个领域中都取得了丰硕的成果，称得上是恩格斯颂扬过的、本世纪多才多艺和学识渊博的科学巨人。他一生发表论文240多篇，著作14本，自传两本《昔日神童》和《我是一个数学家》。•维纳的主要成果有八个方面：建立维纳测度、引进巴拿赫—维纳空间、位势理论、发展调和分析、发现维纳—霍普夫方法、提出维纳滤波理论、开创维纳信息论、创立控制论。2、目前的发展香农信息论：信息概念的深化；网络信息理论和多重相关信源编码理论的发展和应用；通信网的一般信息理论研究；信息率失真理论的发展及其在数据压缩和图像处理中的应用；信息论在大规模集成电路中的应用；磁记录信道的研究等。纠错码理论：在工程方面应用及最优编码方法研究。维纳信息论：对量子检测和估计理论、非参数检测和估计理论以及非线性检测与估计理论的研究。3、信息论研究的问题：信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论将信息的传递作为一种统计现象来考虑，给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传输定理、信源－信道隔离定理相互联系。香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《AMathematicalTheoryofCommunication》（通信的数学理论）作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特和拉尔夫·哈特利先前的成果。在该文中，香农给出了信息熵（以下简称为“熵”）的定义：香农（1916.4.30—2001.2.26美国数学家、信息论的创始人）H=-∑pilogpii这一定义可以用来推算传递经二进制编码后的原信息所需的信道带宽。熵度量的是消息中所含的信息量，其中去除了由消息的固有结构所决定的部分，比如，语言结构的冗余性以及语言中字母、词的使用频度等统计特性。信息论中熵的概念与物理学中的热力学熵有着紧密的联系。玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。4、现实运用：○1在上述中我们已经知道熵度量的是消息中所含的信息量，其中去除了由消息的固有结构所决定的部分，比如，语言结构的冗余性以及语言中字母、词的使用频度等统计特性。信息论中熵的概念与物理学中的热力学熵有着紧密的联系。○2为此我们就可以抓住语言结构的冗余性以及语言中字母、词的使用频度等统计特性。使用香农信息论的信息量等观点，来研究一下中文与英文的信息量，从而比较出学习这两种语言的难易程度。○3众所周知，学习英语比学习中文容易，这不是没有科学依据的，从信息论的角度来看：信源符号的相关性与提供的平均信息量把多符号离散信源都用马尔可夫信源来逼近，则记忆长度不同，熵值就不同，意味着平均每发一个符号就有不同的信息量。log2n=H0≥H1≥H2≥…≥Hm≥H∞所以信源的记忆长度越长，熵值越小。当信源符号间彼此没有任何依赖关系且呈等概率分布时，信源熵达到最大值。即信源符号的相关性越强，提供的平均信息量越小。○4自然语言信源：•可以简单地将自然语信源定义为以人类的自然语言作为输出消息的信源。•自然语言又可以分为书面语言和声音语言两大类–书面语言由一个个文字符号构成，是一种典型的离散信源，–也是信息论中首先讨论和研究最多的信源，–以英文和中文为例讨论书面语言，–声音语言的信源放在连续信源中讨论。•英文信源–先将英文看成仅由26个字母和空格构成，即暂不考虑标点符号及其它。–英文中字母的组合构成单词，单词的组合构成句子，句子的组合构成段落和文章。–在某一个统计集合中能得出其字母、单词、句子的分布概率。–通过大量统计可以得到26个字母和空格的出现概率，它构成了英文字母和空格的信源空间。–仅仅按照表中的出现概率随机构成的一串字母序列通常并不能构成英文单词，。–其构成还有许多语法和修辞方面的制约，这种制约在数学关系上的反映就是其关联性。•中文信源，通常指汉字–由字组词、由词组句、由句成文的本质与英文一样–中文与英文的重要区别是每个单字都有明确的意义，而且数量巨大•收入《辞海》的汉字有1.5万左右，•收入《康熙字典》、《汉语大字典》分别超过了4万个和6万个。–要给出汉字的信源空间，须对大量的汉字文献进行统计•新华社曾对2亿左右的汉字作了统计，得出了1850个汉字的使用率为98%•当被统计的数量趋于无穷时，每个汉字的使用频率应该趋于平稳。○5可以用符号的联合概率或条件概率来描述自然语信源的关联性。–对于英文，可以将包含K个字母的单词看成是具有K个字母的符号序列，或称为K重符号序列，将其作为一个整体消息，其联合概率就已考虑了字母与字母间的关联性了。–也可以把由汉字组成的中文词汇作为符号序列。–还可以将句子、段落甚至整篇文章分别作为符号序列来考虑，用联合概率来描述。•有了符号或符号序列的信源空间就可以度量它们出现时所给出的信息量，并可以计算它们的信源熵。•但无论是符号概率还是符号序列的联合概率都具有先验概率的性质，只能描述静态的情形，不能描述动态的过程。•条件概率描述了符号间的记忆特性，但它同时给出了符号间的转移特性，故也称之为转移概率。–以用第一个字母为T来构成3个字母的英文单词为例，第二个字母为H的概率可以用条件概率P(H|T)来表示，第三个字母为E的概率可以用条件概率P(E|TH)来表示，其它各种可能的组合也都可用其条件概率来表示。○6用转移概率来描述的信源就是一种典型的马尔可夫信源。*把英语看成是离散无记忆信源•英语字母26个，加上一个空格，共27个符号。•英语信源的最大熵(等概率)H0=log227=4.76(比特/符号)•英语字母并非等概率出现，字母之间有严格的依赖关系。表2是对27个符号出现的概率统计结果。符号概率符号概率符号概率空格0.2S0.052Y,W0.012E0.105H0.047G0.011T0.072D0.035B0.010500.0645L0.029V0.008A0.063C0.023K0.003N0.055F,U0.0225X0.002I0.055M0.021J,Q0.001R0.054P0.0175Z0.001如果不考虑符号间的依赖关系，近似认为信源是离散无记忆的，则按表2的概率分布，随机地选择英语字母并排列起来，得到一个输出序列：•AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_PORE_SETRYGAIETRWCO_EHDUARU_EUEU_C_FT_NSREM_DIY_EESE_F_O_SRIS_R_UNNASHOR…•这个序列看起来有点像英语，但不是。实际英语的某个字母出现后，后面的字母并非完全随机出现，而是满足一定关系的条件概率分布。例如T后面出现H,R的可能性较大，出现J,K,M,N的可能性极小，而根本不会出现Q,F,X。即英语字母之间有强烈的依赖性。上述序列仅考虑了字母出现的概率，忽略了依赖关系。*把英语看成马尔可夫信源为了进一步逼近实际情况，可把英语信源近似看做1阶，2阶，…∞阶马尔可夫信源，它们的熵为:H2=3.32(比特/符号)H3=3.1(比特/符号)•若把英语信源近似成2阶马尔可夫信源，可得到某个输出序列：•IANKS_CAN_OU_ANG_RLER_THTTED_OF_TO_SHOR_OF_TO_HAVEMEM_A_I_MAND_AND_BUT_WHISS_ITABLY_THERVEREER…○6•这个序列中被空格分开的两字母或三字母，组成的大都是有意义的英语单词，而四个以上字母组成的“单词”，很难从英语词典中查到。因为该序列仅考虑了3个以下字母之间的依赖关系。实际英语字母之间的关系延伸到更多的符号，单词之间也有依赖关系。•有依赖关系的字母数越多，即马尔可夫信源的阶数越高，输出的序列就越接近于实际情况。当依赖关系延伸到无穷远时，信源输出的就是真正的英语，此时可求出马尔可夫的极限熵H∞=1.4(比特/符号)。○7信源冗余度定义及意义•信源熵的相对率η：为了衡量符号间的相互依赖程度，定义信源实际的信息熵与同样符号数的最大熵的比值为信源熵的相对率：η=H∞/H0•信源冗余度ξ：1减去信源熵的相对率η，即ξ=1-η=(H0-H∞)/H0•信息结构/信息变差I0∞：I0∞=H0-H∞。•信源的实际熵应为H∞，但H∞很难得到，于是用H0来表达信源。两者之差代表了语言结构确定的信息。I0∞越大，冗余度越大。冗余度是用来衡量符号间的依赖程度。英语信源冗余度为ξ=(4.76-1.4)/4.76=0.715、结论从上述讨论中可以看出：•英文的冗余度是很大的，因为语言本身有很多固定的约束，它对于信息传输是“多余”。因此从信息传输的角度才把它定义为“冗余”。•中文冗余度的统计比英文要复杂得多，中文的实际熵也比英文要难统计得多。–中文的最大熵是一个变量；–每一个单字都具有明确的意义，再由字组词，字词之间的相关性千变万化。–以《辞海》（上海，1989年版）收集的大约15000汉字为信源符号消息，则中文的最大信源熵为Hmax≈lb15000≈13.9（比特/汉字）从此可以看出学习汉语比英语难，因为其包含的熵大，平均信息量也就大，人们要掌握的东西也就多冗余度大的消息抗干扰能力强。能通过前后字之间的关联纠正错误。•听母语广播和听外语广播的对比说明：听外语费劲是英语冗余度不够造成的。因此，英语听力要过关，除了多听多练以外，其实并无多少捷径可走。参考资料：《信息论与编码》,陈运,周亮，陈新，电子工业出版社，2008信息论基础（ElementsofInformationTheory,英文影印）,ThomasM.Cover,JoyA.Thomas,清华大学出版社，2003信息论与编码理论(TheTheoryofInformationandCoding,英文影印版)(第2版),RobertJ.McEliece,电子工业出版社,2005.31