计算语言学与中文信息处理研究近年来的发展综述

youyouyime
1 ℃
2020-07-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

计算语言学与中文信息处理研究近年来的发展综述（2004——2008）詹卫东北京大学中文系北京大学计算语言学教育部重点实验室1引言一般来说，年鉴的内容中不少属于“记账式”的，即把近些年本领域出版的有影响的文献，发生过的重要事件等分类罗列。这种方式对于比较传统的、相对成熟的学科，不失为一种稳妥的做法。但对于新兴的交叉边缘学科，以这种方式完成的年鉴可能有一定的局限。因为多数读者往往是从自己所在的学科背景出发来了解交叉学科中的研究状况，如果仅仅罗列事实，而不对事实背后的学术理路加以分析和评论，可能难以帮助读者真正全面地认识一个新兴的交叉学科中已经完成的研究工作的价值，因而也难以把握该学科未来的发展方向。如果真是这样的话，也就达不到为一个学科整理出版年鉴的目的了。计算语言学与中文信息处理，正是这样一个涉及到计算机科学、语言学、文字学、数学、逻辑、认知科学等多个学科的交叉研究领域1。本文打算在整理近年来该领域中的重要事实的同时，对研究工作中表现出的宏观上的突出特点加以分析和评论，希望由此可以对该领域未来的学术发展方向有更为清晰的认识。这样，有可能帮助不同学科背景（尤其是语言学背景）的研究人员参与这一交叉学科的探索时更好地进行研究工作的定位。基于上述的指导思想。下文将分为四节来综述2004——2008年这一领域的研究状况。第二节是概貌性的描述。先从不同角度勾勒对计算语言学与中文信息处理这一领域的宏观认识，为之后的内容阐述提供一个合适的逻辑框架。然后对这五年本领域的大环境做概要的描述（以一些重要学术活动为主）。第三节是从信息处理的不同对象和不同层级的角度，说明这一领域在2004——2008年取得的技术层面的进展。第四节则是从学术内在的发展理路，特别是研究方法的角度，对这一学科近年来的发展特点加以分析和评论。第五节是结语。简要回顾这一领域的发展历史，并对未来的发展趋势提出我们的看法。以上第二、三节侧重对客观事实的描述，第四节侧重主观评论。希望本文这种“客观与主观兼顾，务实和务虚并重”的安排，对跨学科背景的读者，更主要的是语言学背景的读者，能有一定的参考价值。2概貌：从整体和外部环境角度看计算语言学与中文信息处理2.1对计算语言学与中文信息处理的整体格局的认识为了更好地概括说明计算语言学与中文信息处理这一领域近年来的理论研究以及应用状况，本文首先为这一领域勾勒一个相对全面的框架（表1和图1）。然后再针对这个框架中一些更值得重点关注的部分展开来加以分析和讨论。1根据中国国家标准《学科分类与代码表》（GB/T13745—1992），一级学科“语言学”下的二级学科“应用语言学”里包含有三级学科“计算语言学”（740.3550）。一级学科“计算机科学技术”下的二级学科“人工智能”里包含有三级学科“自然语言处理”（520.2020）和“机器翻译”（520.2030）。从学术界的实际生态情况来看，人们一般不大去区分“计算语言学”“自然语言处理”“机器翻译”“中文信息处理”等不同名称所指的研究范围。使用不同的名称，往往被看作是对同一个对象的不同侧面的强调。本文也采取这种宽泛的方式。表1：根据符号性质的差异对中文信息处理的对象进行分类对象任务对象书面文本[视觉符号]口语语音[听觉符号]处理符号的意义文本理解文本生成⎥⎦⎤⎢⎣⎡……问答系统文本摘要信息检索机器翻译语音识别语音合成⎥⎦⎤⎢⎣⎡……口语问答口语翻译处理符号的形式汉字输入、存储、输出篇章版式分解与生成语音信号采集、波形特征抽取、波形生成图1：根据语言单位性质的差异对中文信息处理的对象和技术层级进行分类服务平台层：应用系统层：核心技术层：基础资源层：表1中的虚线表示不同的子领域有时候会发生相互作用，因而不同领域之间的界限并不总是截然分开的。图1可以看作是对表1中“符号的意义处理”这个层次的展开（“符号的形式处理”技术相对成熟且已经得到广泛应用，因此本文描述从简）。图1中提及的大多数概念都是针对书面文本信息处理的，但关于“基础资源”“核心技术”“应用系统”“服务平台”的层级划分，同样适用于口语语音信息处理的情况。本文第三节的综述基本是按照表1和图1这种认识框架出发来观察和描述计算语言学和中文信息处理近年来在技术层面所取得的进步。下面图2是从计算语言学的内在学术理路，即理论和方法的角度，来划分这一领域内的不同研究工作。本文第四节的综述就是取的这种认识角度，来考察和反思计算语言学近年来对语言知识的表示方式和知识的获取方式所发生的显著变化。图2：围绕“语言知识”看中文信息处理的研究内容语言知识的表示（方法）语言知识的获取（方法）语言知识的应用（方法）语料库词库规则库字库机器翻译信息检索信息提取文本校对问答系统语音库………………多语信息服务系统，智能终端……………………词切分标注词义消歧句法分析对齐技术索引检索2.22004——2008年中文信息处理大环境述要伴随着我国整体国力的增强，中文在世界上的影响力与日俱增，计算技术水平的提高和互联网应用的迅猛发展，2004——2008年间计算语言学与中文信息处理在国内迎来了一个非常好的发展环境。这可以从下面三方面的情况得到充分说明。（一）发展中文信息处理技术的重要性被提升到国家科技发展战略的高度2005年年底的《瞭望新闻周刊》介绍了中国国家科技部对未来十年科技突破口的研究成果《中国技术前瞻报告》2，其中把“中文信息处理”列入信息领域下的一大突破方向。没过多久，2006年年初国务院发布的长达70页的《国家中长期科学和技术发展规划纲要（2006━2020年）》3中，列出了未来15年中国重点选择的前沿技术共八大方面，22项技术，其中“中文信息处理”明确列入了第二大方面“信息技术”的“智能感知技术”4中。上述从国家战略角度做出的定位，直接的效果就是政府对自然语言（中文信息）处理技术相关课题的大力度支持。国家重大基础研究发展规划（通称973计划）、国家自然科学基金（NSF）、国家高技术发展规划（通称863计划）等都设立了重点支持这一领域的研究课题。其中863的“十一五”计划重点项目“中文为核心的多语言处理技术”（2006-2010）总经费达到7000万元。与此同时，在2008年北京举办奥运会这一重要历史事件作为中文信息处理大规模应用舞台的契机下，多项跨语言信息处理技术获得立项资助。使得中文信息处理研究人员比以往任何时候都有了更好的条件，来对这一领域的问题，从基础到应用，展开多层次的广泛而深入的研究。这种大形势的变化也很快在信息科学领域的高层次学术出版物上得到了反映。中国计算机学会主编《2008中国计算机科学技术发展报告》中，对计算语言学、机器翻译设置了专题介绍[文献36，61]；《中国计算机学会通讯》2008年第2期刊登了一期“中文信息处理”专辑[文献40]。这些都说明信息科学界对中文信息处理的重视程度比以往有了显著提升。（二）公开的技术评测及多层面的学术会议提供了更广泛的学术交流平台由于自然语言信息处理任务本身的复杂性，对于各种理论方法在处理性能上的优劣，纯理论的论争很难给出有实质说服力的结论。此外，自然语言信息处理涉及的数据量非常大，不同的方法要进行比较，就需要在相同的大规模数据上进行可重复的测试。基于这两方面的原因，技术评测一直都是自然语言处理领域发展的重要推动力量。对此国际计算语言学界一直都对自然语言信息处理各项技术的公开评测给予非常高的重视5[文献38]，而国内以往的重视程度应该说是不够的。不过。这种情况在2004——2008年期间有了显著改观。可以从两个方面的表现来说明这种变化。一是国际上有关中文信息处理的评测增多，同时国内研究人员参与的热情提高，并在一些项目上取得了较好的名次。有的研究单位在多次参加国际评测中，取得了明显的进步。国际计算语言学会（ACL）下辖的汉语处理任务特殊兴趣小组（简称SIGHAN）从20032参见新华网报道：。3参见中国政府门户网站：。4“智能感知技术”重点研究基于生物特征、以自然语言和动态图像的理解为基础的“以人为中心”的智能信息处理和控制技术，中文信息处理；研究生物特征识别、智能交通等相关领域的系统技术。5国际上目前已经有一大批有广泛影响力的定期举办的公开评测，涉及到自然语言信息处理的诸多子领域，这些评测往往能够极大地激发一个领域的技术创新。比如美国国防部高级计划研究署（DARPA）支持的“机器翻译语言信息识别、抽取及摘要”项目（TIDES）从2002年开始实施的“机器翻译评测”，在国际自然语言处理学界引发了一轮统计机器翻译的研究热潮（参见下文的分析）。再比如美国标准技术研究院（NIST）从1992年就开始组织的“文本检索评测”（TREC），到2008年已举办17届。会议的连续性和规模都能反映该项评测在本领域的影响力。读者可以从TREC网站上了解，2004年的时候TREC的规模就达到参赛单位超过100个，评测子任务为7个，其中Terabyte子任务的数据量为2500万网页文档（460GB）。参见。年开始，举办针对中文分词的专项评测（SIGHANChineseWordSegmentationBakeoff），从2003年有12家单位参加第1届Sighan中文分词评测（bakeoff-2003）6到2007年第4届评测时有42家单位参加。该项评测的影响力逐年扩大，而且对中文分词技术水平的提高起到了极大的推动作用（参见下文3.1分析）。表2：第1——4届Sighan中文信息处理评测参赛单位及比赛项目简表年份参赛单位数量测试语料库数量比赛项目提交结果数量2003124分词382005234分词1302006365分词、命名实体识别144（101/43）2007427分词、命名实体识别、词性标注263（166/33/64）在2006年Sighan中文分词评测中，北京大学机器感知国家实验室采用最大熵模型，在微软研究院语料库上的封闭测试（MSRA-C，有22家单位提交结果）中取得了第一名的成绩7（精确率0.961，召回率0.964，综合得分，即F值为0.963）8。中科院计算所在美国NIST举办的第一届机器翻译评测中就参加了比赛。不过当时的基于规则的机器翻译系统的成绩很不理想。在训练语料不受限9的4个参赛系统中名列最后。但是，到了2006年，计算所的统计机器翻译系统取得了受限语料汉英项目的第5名（共24个参赛单位）的成绩，BLEU-4的得分为0.2913（第1名分数为0.3393）。短短4年时间，使得中国机器翻译技术基本上跻身于国际一流水平的行列中。二是国内的评测活动无论从质量还是从规模上都有了很大提升，并参照国际评测的办法，将评测活动和技术研讨会结合起来，使得通过技术评测推动学术研究更加有效。国内中文信息处理相关的技术评测从1991年开始，主要由“863计划”智能机主题专家组负责组织实施，直到2005年，共举办了8届评测。2005年之后，“863计划”暂停了对中文信息处理评测的直接支持。中文信息处理的相关评测开始以“民间”形式，由某个领域的骨干单位发起和倡导，并联合多家相关单位来组织实施。这方面成功的例子比如全国统计机器翻译评测及研讨会，从2005年开始，到2008年连续举办了4届。很好地推动了统计机器翻译研究在中国的开展。这类评测及相关研讨会很快得到了中文信息学会的支持，在学会的帮助下，之后陆续形成“中文信息学会系列评测”会议。尤其是对一些正在成为研究热点的自然语言处理子领域，这样的评测对形成更好的研究方向有非常积极的意义。比如美国的TREC会议在2006年新增了“博客检索评测任务”，具体任务是在博客（约30GB，320万篇数据量）中检索带有观点的文章。亚洲语言信息检索评测会议（NTGIR）也在2006