第七章信息组织中的自然语言应用第一节自然语言在信息组织中的应用概述本节内容一.自然语言的演化与发展二.自然语言的优缺点三.自然语言与自然语言处理一、自然语言的演化与发展•检索语言–广义而言,检索语言包括受控语言(人工语言)和自然语言语言两类语言系统。–狭义而言,检索语言包括规范的受控语言。检索语言的演化与发展•前信息检索阶段的自然语言–原生态的自然语言是前信息检索阶段的原始的“检索语言”•规范的受控语言–如分类表、标题表、单元词表、叙词表、分类主题一体化词表•受控语言向自然语言“回归”–自然语言的应用是以计算机为前提的;–在对词汇控制的科学性上、规范化程度上以及方法等方面的进步,使自然语言成为现代信息检索,尤其是网络信息检索的主流保障语言。一、自然语言的演化与发展检索系统中检索语言的应用变化•基于印刷型文献的手工检索–以受控语言(分类法、主题法)为主•基于数据库的计算机检索–受控语言和自然语言结合•基于网络的信息检索–以自然语言为主一、自然语言的演化与发展二、自然语言的优缺点•优点(VS受控语言)•缺点(VS受控语言)•结论优点•可以降低标引难度及成本,从而提高标引速度;•采用用户熟悉的自然语言,符合用户检索习惯,减少了概念转换中产生的失真现象,专指度强;•由于自然语言标引检索多采用自动处理方式,省略了编制词表和词汇的智力负担;•操作简单方便,灵活,比较适合没有专业知识的广大网络用户使用等。二、自然语言的优缺点缺点•由于自然语言对标引用词不加严格控制,必然会形成非关键性词语的大量出现,影响检准率的提高;•由于不能反映概念词间的一一对应关系,也不能反映概念关系的隐含性,无法排除同义词(漏检)、近义词、多义词(误检)等词间的模糊现象,势必也会直接影响到检全率的提高。二、自然语言的优缺点结论•自然语言和受控语言都有各自独特的优点和缺点,不能简单彼此替代,而应当相互补充、交融。•针对上述自然语言及其检索中存在的这些问题–一方面要依靠计算机技术和自然语言处理技术的突破发展;–另一方面受控语言的基本原理――对词汇的控制,是永远不会被省略的,变化的只是词汇控制的方式、方法和手段。二、自然语言的优缺点三、自然语言与自然语言处理•(一)自然语言处理•(二)自然语言在信息组织和检索中的应用(一)自然语言处理•自然语言处理是自然语言得以应用所要解决的首要的核心问题。•自然语言处理是人工智能领域的一个重要分支,它主要研究计算机对输入的自然语言文本的分析、理解和生成,旨在建立人与计算机之间友好的交流通道,实现更高层次的信息交互。•自然语言处理(naturallanguageprocessing,简称NLP)是实现自然语言理解的核心基础,是语言信息处理的一个重要分支。•自然语言处理追求的目标是计算机是如何来理解一个句子和领会一个文档所要表述的意思。三、自然语言与自然语言处理Cont.•由于自然语言十分复杂,人是如何理解语言的,也还是个谜,因此给“理解”下一个定义极其困难。–从信息处理的角度看,语言既然是信息的载体,如果计算机实现了机器翻译、自动文摘以及人机会话等语言信息处理功能,则认为计算机具备了理解自然语言的能力。•自然语言处理的核心技术主要是解决自然语言的歧义问题。–关键问题:如何建立大规模知识库。三、自然语言与自然语言处理语言学上对语言的层次划分•第一层次–语音和文字,即基本语言信号的构成;•第二层次–词法和句法(合称“语法”),即语言基本运用单位的构成和组合的形式规律;•第三层次–语义,即语言所要表达的概念结构;•第四层次–语用,即语言与语言使用环境的相互作用。三、自然语言与自然语言处理自然语言处理研究内容的基础部分•语法分析(SyntacticUnderstanding)•语义分析(SemanticUnderstanding)•语用分析(PragmaticUnderstanding)例如:“汤姆给了玛丽一本大书。”三、自然语言与自然语言处理语法层分析根据语言的语法,单词可以组成不同的词组,词组可以包含不同的角色。单词角色汤姆人名给动词玛丽人名一冠词大的形容词书名词三、自然语言与自然语言处理等级表示语法结构三、自然语言与自然语言处理语义层分析语义结构(句子各个部分之间的联系)三、自然语言与自然语言处理知识装饰下的丰富的语法结构三、自然语言与自然语言处理扩展的语义结构三、自然语言与自然语言处理计算机产生的语义结构三、自然语言与自然语言处理语境层分析•例1:“Couldyouturnthelighton?”“语境语义”--“Pressthelightswitch.”“句子的语义”--“Areyoucapableofachievingtoincreasetheamountoflight?”。(句子脱离语言环境,本身的所表示的语义)三、自然语言与自然语言处理•例2:“Itisdarkinhere.”语境语义--“Lightisweakhere.”句子语义--“Pressthelightswitch.”三、自然语言与自然语言处理语义和语境含义之间的匹配三、自然语言与自然语言处理(二)自然语言在信息组织和检索中的应用•自然语言检索,从技术上讲,就是将自然语言处理技术应用于信息检索系统的信息的组织、标引和输出。•具体地,汉语自动分词和自动标引、单汉字标引、自动文摘、全文检索等都是自然语言在信息组织和检索中的具体应用。–汉语的机械分词法、单汉字标引(未介入自然语言理解的成份)–基于理解的自动标引技术、自动文摘技术(应用了自然语言理解技术)三、自然语言与自然语言处理小结•自然语言的演化•自然语言与受控语言的优缺点•自然语言理解•自然语言在信息组织和检索中的具体应用有哪些?第二节自动分词与自然语言标引第七章信息组织中的自然语言本节内容汉语分词一.汉语分词及其障碍概述二.汉语分词方法三.汉语分词系统演示四.汉语分词系统测评自然语言标引一.自由标引二.自动标引三.单汉字索引与全文索引汉语分词一、汉语分词及其障碍概述•(一)汉语的语言特点•(二)汉语切分中的难点•(三)汉语分词方法(一)汉语的语言特点•汉语属于黏着性语言,较之于属于屈折型语言的西语系(如英语、法语、德语等)语言,词与词之间缺乏任何形式上的标志;•汉语特有的书写形式、灵活多变的构词方式以及不同的分词形式代表着不同含义•克服制约中文信息处理发展的最大瓶颈–“英语文本的信息处理天然地就在词平面上。而汉语文本起步是在字平面上,落后英文一个层次。这一个层次的差异是本质上的、全局性的,如果解决不好,中文信息处理将在整体上永远困顿于低水平,无法向高级形态发展”汉语切分中的难点•汉字之间存在着不同的组词方式;–如“发展中国家兔的饲养”一句,现有的汉语词就可能导致有两组语词分隔结果:发展中国家/兔/的/饲养,发展/中国/家兔/的/饲养。•从标引的角度分析,交集型的标引词汇难以处理。–如,“并行程序设计语言”,其标引词应为,并行程序设计/程序设计语言,而不应从任一处简单分开。•汉语虚词众多,而且绝大多数汉字当与不同的汉字组词时,其词可能为关键词,也可能为非用词。–如,“非”与“家”、“常”、“洲”分别组成不同意义的词“是非”、“非常”(非用词)和“非用词”(关键词)。•新词的频繁出现也给汉语分词增添了难度。(二)汉语自动分词的困难•分词歧义•未登录词识别1.分词歧义的类型•交集型歧义如果AB和BC都是词典中的词,那么如果待切分字串中包含“ABC”这个子串,就必然会造成两种可能的切分:“AB/C/”和“A/BC/”。这种类型的歧义就是交集型歧义。比如“网球场”就可能造成交集型歧义(网球/场/:网/球场/)。•组合型歧义如果AB和A、B都是词典中的词,那么如果待切分字串中包含AB这个子串,就必然会造成两种可能的切分:AB/和A/B/。这种类型的歧义就是组合型歧义。比如个人就可能造成组合型歧义((我)个人/:(三)个/人/)。分词歧义2.汉语真实文本中的分词歧义情况•真歧义–确实能在真实语料中发现多种切分形式–比如“应用于”、“地面积”•伪歧义–虽然有多种切分可能性,但在真实语料中往往取其中一种切分形式–比如“挨批评”、“市政府”分词歧义汉语真实文本中的分词歧义情况(续)•材料一:孙茂松等1999–一个1亿字真实汉语语料库中抽取出的前4,619个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20%,其中4279个属伪歧义(占92.63%,如“和软件”、“充分发挥”、“情不自禁地”),覆盖率高达53.35%。•材料二:刘开瑛2000,第4章–78248个交集型歧义字段中,伪歧义:94%真歧义:6%分词歧义•分词歧义的四个层级(何克抗等1991,50883字语料)–词法歧义:84.1%(“用方块图形式加以描述”)–句法歧义:10.8%(“他一阵风似的跑了”)–语义歧义:3.4%(“学生会写文章”)–语用歧义:1.7%(“美国会采取措施制裁伊拉克”)基于句法和语义处理技术的歧义分析精度的上限(语义级理想切分精度1/6250)所谓切分精度,即指错误率汉语真实文本中的分词歧义情况(续)分词歧义3.切分歧义的解决策略•汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义(约占全部歧义的85%以上)和组合型歧义。只有向分词系统提供进一步的语法、语义知识才有可能作出正确的决策。•排除歧义常常用词频、词长、词间关系等信息–比如“真正在”中,“真”作为单字词的频率大大低于“在”作为单字词的频率,即“在”常常单独使用而“真”作为单字词使用的可能性较小,所以应切成“真正/在”。•有时切分歧义发生在一小段文字中,但为了排除歧义,需要看较长的一段文字。–如学生会既可能是一个名词,指一种学生组织,也可能是学生/会,其中会为可能或能够的意思。在“学生会主席”中只能是前者,在学生会去中只能是后者,在“学生会组织义演活动”中歧义仍然排除不了,则需要看更多的语境信息。分词歧义1.未登录词(unknownword)•中外的人名,地名–“雪村”,“老张”,“莎士比亚”,“叙利亚”;•中外组织机构单位名称和商品品牌名–希望电脑,国际乒联,非常可乐;•专业领域的大量术语–线性回归,韦特比算法;•新词语,缩略语–“卡拉OK”,“E时代”,“打假”;“超女”、“非典”、“去离子水”、“酱紫”•汉语重叠形式、离合词的分析–看看家家打听打听高高兴兴乐呵呵看一看看了看黑不溜逑古里古怪–游了一会儿泳发理了没有担什么心未登陆词2.未登录词识别•“于大海发明爱尔肤护肤液”需要切分成“于大海/发明/爱尔肤/护肤液”,并需要识别出“于大海”是人名,“爱尔肤”是商标名,“护肤液”是术语名词。•如“斯普林菲尔德是伊里诺州首府”,“丹增嘉措70多岁了”,其中的美国地名、藏族人名都需识别。•比如,一个分词系统若不做中外人名识别,分词后进行词频统计,可能会发现“张”、“王”、“李”、“刘”、“尔”、“斯”的频率比“却”、“如”、“你”的频率还要高,用这样的统计结果做汉语处理,其效果肯定有问题。未登陆词3.识别未登录词的策略•尽可能多地收集词汇,以降低碰到未登录词的机会;•通过构词规则和上下文特征规则来识别;“雪村先生创作了很多歌曲”•通过统计的方法来猜测经过一般的分词过程后剩下的“连续单字词碎片”是人名、地名等的可能性,从而识别出未登录词。未登陆词二、汉语分词方法•(一)基于词典匹配的分词方法•(二)基于理解的分词方法•(三)基于统计的分词方法(一)基于词典匹配的分词方法•这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。•分类:–按照扫描方向的不同:正向匹配和逆向匹配–按照不同长度优先匹配的情况:最大匹配和最小匹配;–按照是否与词性标注过程相结合:单纯分词方法和分词与标注的一体化方法。•常用的几种机械分词方法如下:–正向最大匹配(MM)–逆向最大匹配(RMM)–最少切分(使每一句中切出的词数最小)–双向匹配法。(MM+RMM)机械分