自然语言理解与全信息理论方法论的探讨及应用钟义信北京邮电大学智能研究中心yxzhong@ieee.orgNLP-NLUNLP:对自然语言所进行的任何有意义的操作。NLU:为了理解自然语言而进行的各种操作。NLP是实现NLU的手段,NLU是进行NLP的目的。为何要特别关注NLU问题?社会全球化:人-人多语言沟通先进生产力:人-机自然语言沟通NLP/NLU:方法论的困惑(1)理性主义(规则方法)基本信念:“有限语言规则覆盖无限语言现象”。然而,(1)语言现象无限丰富和动态开放,“规则有限性和封闭性”受到质疑;有限性与可实现性(2)随着规则数量增多,可能经常产生规则之间的矛盾冲突(3)人工提取规则费时费事,机器提取规则的质量还难以保证NLP-NLU:方法论的困惑(2)经验主义(统计方法):基本信念:“多者为真”然而,(1)统计特性的假设(符号独立或Markov阶数固定)在实际语言现象中难以成立,先天不足(2)何谓“足够大”?即使语料库的规模很大,往往也难以保证语料统计结构的遍历性(数据稀疏)(3)统计方法本身的“统计平均性质”,不保证实际结果的正确性;“多者为真”信念受到挑战出路:优势互补理想的东西都不现实;现实的东西都不理想。理性主义和经验主义虽然在理想条件下都有无穷的威力,但都受到实际条件的限制,不可能包打天下理性主义和经验主义恰具互补特性,于是出路只有互相结合,实现优势互补。问题:怎样互补?语言学规则框架,统计学处理手段;底层统计,高层理解;多层嵌套,互动互补。科学方法论的变迁全信息:主体关于“事物运动状态及其变化方式”的表述,包括“状态-方式”的形式、内容和价值的表述。现代科学:信息科学、系统科学、认知科学、智能科学,…现代科学方法论特点:(1)信号与信息,(2)形式与内容(3)客观与主观,(4)确定与不定(4)分解与综合,(6)局部与整体现代科学方法论意义:二元科学三元科学;物质结构能量转换信息机制分解分析方法分合互动方法系统:相互作用的要素的有机整体;整体大于部分和自然语言是认识论信息(而不是本体论信息)的载体。因此,对自然语言的理解应是对它所载荷的认识论信息的理解。认识论信息是形式-内容-价值三位一体。因此,理解信息需要利用全信息理论。(ComprehensiveInformationTheory)Shannon信息论是全信息理论的特例,它主要适用于通信等场合。自然语言理解与全信息Shannon信息的概念Shannon信息论(MathematicalTheoryofCommunication)(;)()(|)IXYHXHXYYXD()lognnnHXpp信息论的信息概念:消除随机波形不定型的东西。是随机型的语法信息信息论在解决通信问题方面是完美的(Perfect)理论;但在解决智能问题方面却无能为力(Problematic)。语法信息、语义信息、语用信息的三位一体。符号主体客体含义效用语义信息语法信息语用信息形式详见《信息科学原理》,第三版,2002年.全信息的基本概念语义信息与语用信息语义信息涉及事物和公共主体语用信息才关注效用主体语义信息不能代替语用信息语法信息只涉及事物本身语法信息参量:Certainty(C)语义信息参量:LogicTruth(T)语用信息参量:Utility(U)全信息的表示Xx1x2xnxNCc1c2cncNTt1t2tntNUu1u2unuN状态矢量肯定度真实度效用度……………………全信息的度量I(T;X)=log2+{tlogt+(1-t)log(1-t)}1/Nn=1NnnnnI(U;X)=log2+{ulogu+(1-u)log(1-u)}1/Nn=1NnnnnI(C;X)=logN+clogcnnn=1N=log2+(1/N)Nn=1[clogc+(1-c)log(1-c)]nnnnifXisrandom/Incidental;IfXisfuzzyinnature.自然语言理解的层次理解语法信息(理解结构):浅层次理解语法-语义信息(理解结构-内容):中层次理解语法-语义-语用信息(理解结构-内容-价值):深层次理解全信息的最小单位是语句;准确的理解往往要涉及更大的范围:语段,语篇。全信息自然语言理解方法论模型预处理语用分析语义分析语法分析全信息库合法?有用?真实?+++YYYNNN人工建构机器学习后处理模型说明宏观框架的完备性:理性主义--语法信息分析--语义信息分析--语用信息分析微观实现的灵活性:经验主义/理性主义--可用统计学方法(如VSM)--可用规则推理方法--可用混合方法理性主义与经验主义:优势互补}三位一体需要注意的问题根据问题确定理解深度全信息与特征矢量全信息辞典与Ontology应用举例:信息内容安全监控(CICS)预处理后处理语用分析语义分析语法分析全信息库合法句?要过滤?相关类?+++YYYNNN人工创建机器学习应用举例Internet搜索引擎摘要分类安全分析对话翻译检索全信息自然语言理解方法论信息-知识-智能转换理论知识管理谢谢!