计算语言学研究的历史和现状冯志伟一计算语言学的性质计算语言学是一门边缘学科•计算语言学(computationallinguistics)是用计算机研究和处理自然语言的一门新兴的边缘学科。•由于计算语言学的研究对象是自然语言,因此,语言学家把它算为语言学的一个分支;•由于计算语言学要采用先进的计算机科学技术来研究和处理自然语言,因此,计算机科学家把它算为计算机科学的一个分支;•由于计算语言学要研究自然语言的形式结构和自然语言处理的算法,因此,数学家把它算为应用数学的一个分支。•这种情况说明,计算语言学不是一门单纯的学科,而是一门边缘性学科。自然语言处理的过程一般地说,计算机对自然语言的研究和处理应当经过如下4个过程:•从语言学的角度提出自然语言处理的问题和理论(linguisticproblem);•把需要研究的语言学问题加以形式化(linguisticformalism),使之能以一定的数学形式或者接近于数学的形式,严格而规整地表示出来;•把这种严格而规整的数学形式表示为算法(algorithm),使之在计算上形式化(computationalformalism);•根据算法编写计算机程序,使之在计算机上加以实现(computerimplementation)。理论和方法•上述的第一、第二个过程属于计算语言学的理论部分;•第三和第四个过程属于计算语言学的方法部分。•我们有时把第三和第四个过程叫做自然语言的计算机处理(NaturalLanguageProcessingbyComputer),简称自然语言处理(NaturalLanguageProcessing)。更新知识•我们希望计算语言学研究人员同时具备语言学、数学和计算机科学的知识,成为文理兼通、博学多识的人才。•对于不可能同时具备语言学、数学和计算机科学知识的研究人员,至少对于自己原来所学的专业是精研通达的内行,对于另外两个专业不是似懂非懂的外行,这样,才有可能有效地从事计算语言学研究。•因此,我们应该提倡计算语言学的研究人员不断地进行更新知识的再学习。“活到老,学到老”,对于计算语言学研究人员来说,决不是一句装扮门面的空话,而应该成为身体力行的座右铭。二计算语言学的萌芽期萌芽期、发展期和繁荣期•同其他任何学科一样,作为一门新兴边缘科学的计算语言学是在一定的社会历史条件下应时代的要求而逐渐成长起来的,计算语言学的成长历程可以分为萌芽期、发展期和繁荣期3个时期。“巴比塔”•人类对于计算语言学的研究早在“计算语言学”这个名称出现之前就开始了。人类历史上最早的计算语言学研究就是机器翻译(machinetranslation)。•圣经《创世纪》中说,古代人类说的原是一种统一的语言,交流思想非常方便,劳动效率也很高,他们曾经想建立一座高达天庭的通天塔,叫做“巴比塔”,来显示他们的丰功伟绩。建造巴比塔的壮举震惊了上帝,上帝便施伎俩,让不同的人说不同的语言,使人们难于交流思想,无法协调工作,以此来惩罚异想天开的巴比塔建造者。结果,巴比塔没有建成,而语言的不同,却成为人们相互交往的极大障碍。这样的传说当然是不可信的,但是,语言的障碍却时时刻刻在困扰着人们。巴比塔“普遍语言”的运动•在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。•笛卡儿(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。•在17世纪中叶,贝克(CaveBeck)、基尔施(AthanasiusKircher)和贝希尔(JohannJoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动,一些人试图在逻辑原则和图形符号的基础上,创造出一种无歧义的语言,这样一来,人们就不必再由于误解而产生交际方面的困惑了。维尔金斯•维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(AnEssaytowardsaRealCharacterandPhilosophicalLanguage,1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。数字语法•1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)曾经提出过一种数字语法(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译”(德文是einmechanischesUebersetzen)这个术语。用数学方法研究语言的先驱•1847年,俄国数学家B.Buljakovski认为可以用概率论方法来进行语法、词源和语言历史比较的研究。•1851年,英国数学家A.DeMorgen把词长作为文章风格的一个特征进行统计研究。•1894年,瑞士语言学家DeSaussure指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来,他在1916年出版的《普通语言学教程》中又指出,语言好比一个几何系统,它可以归结为一些待证的定理。•1898年,德国学者F.W.Kaeding统计了德语词汇的在文本中的出现频率,编制了世界上第一部频率词典《德语频率词典》。用数学方法研究语言的先驱•1904年,波兰语言学家BaudouindeCourtenay指出,语言学家不仅应当掌握初等数学,而且还要掌握高等数学,他表示坚信,语言学将日益接近精密科学,语言学将根据数学的模式,更多地扩展量的概念,发展新的演绎思想的方法。•1933年,美国语言学家L.Bloomfield提出一个著名的论点:“数学只不过是语言所能达到的最高境界”。用数学方法研究语言的先驱•1935年,加拿大学者E.VarderBeke提出了词的分布率的概念,并以之作为词典选词的主要标准。•1944年,英国数学家G.U.尤勒G.U.Yule发表了《文学词语的统计分析》一书,大规模地使用概率和统计的方法来研究词汇。•这些事实说明,关于语言计算的思想和研究是源远流长的。•四项基础性的研究有四项基础性的研究特别值得注意:•一项是Markov关于马尔可夫模型的研究,•一项是Turing关于算法计算模型的研究,•一项是Shannon关于概率和信息论模型的研究,•一项是Chomsky关于形式语言理论的研究。A.Markov的研究•早在1913年,俄罗斯著名数学家A.Markov(马尔可夫)就注意到俄罗斯诗人普希金的叙事长诗《欧根·奥涅金》中语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例,来研究随机过程的数学理论,提出了马尔可夫链(MarkovChain)的思想,他的这个开创性的成果用法文发表在俄罗斯皇家科学院的通报上[A.A.Markov,Essaid’unerecherchestatistiquesurletexteduroman“OugeneOnegin”illustrantlaliaisondesepreuveenchain,Bulletindel’AcademieImpérialedesSciencesdeSt-Pétersbourg,7,153-162.]。•后来A.Markov的这一思想发展成为在计算语言学中广为使用的马尔可夫模型(Markovmodel),是当代计算语言学最重要的理论支柱之一。Markov《欧根·奥涅金》A.Markov的研究•Markov把《欧根·奥涅金》中的连续字母加以分类,把元音记为V,把辅音记为C,然后,以连续字母为统计单元进行计算,研究元音和辅音字母出现概率之间的相互影响。由于当时还没有计算机,也没有大规模的语料库,所以,Markov只得使用手工查频的方法,统计了由元音和辅音字母组成的三字母序列在《欧根·奥涅金》中的出现次数,得到了俄语的元辅音序列表(其中N表示字母序列的记数,即CountNumber)。A.Markov的研究A.Markov的研究•从这个表中可以看出,在统计文本的总字母出现次数(包括元音和辅音)为20000次,其中,元音字母出现8038次,辅音字母出现11362次;当元音字母之后为元音字母时,字母序列VV出现1044次;当元音字母之后出现辅音时,字母序列VC出现7534次;当字母序列VV之后为元音字母时,字母序列VVV出现115次;当字母序列VV之后为辅音字母时,字母序列VVC出现989次;......等等。•根据上表中的数据,可以计算出有关元音字母和辅音字母出现的概率。A.Markov的研究•上面的现象可以概括成随机过程加以研究。•随机过程有两层含义:第一,它是一个时间的函数,随着时间的改变而改变;第二,每个时刻上的函数值是不确定的,是随机的,也就是说,每一时刻上的函数值按照一定的概率而分布。•在我们写文章或讲话的时候,每一个字母(或音素)的出现随着时间的改变而改变,是时间的函数,而在每一时刻上出现什么字母(或音素)则有一定的概率性,是随机的,因此,我们可以把语言的使用看成一个随机过程。•在这个随机过程中,所出现的语言符号是随机试验的结局,语言就是一系列具有不同随机试验结局的链。Turing的研究•在计算机出现以前,英国数学家A.M.Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。•Turing的研究•1936年,Turing向伦敦权威的数学杂志投了一篇论文,题为《论可计算数及其在判定问题中的应用》。在这篇开创性的论文中,Turing给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(TuringMachine)的数学模型。“图灵机”不是一种具体的机器,而是一种抽象的数学模型,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。1950年10月,Turing在《机器能思维吗》一文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。”图灵测试(TuringTest)图灵测试•图灵采用“问”与“答”模式,即观察者通过控制打字机向两个测试对象通话,其中一个是人,另一个是机器。要求观察者不断提出各种问题,从而辨别回答者是人还是机器。图灵还为这项测试亲自拟定了几个示范性问题:问:请给我写出有关“第四号桥”主题的十四行诗。答:不要问我这道题,我从来不会写诗。问:34957加70764等于多少?答:(停30秒后)105721图灵测试•问:你会下国际象棋吗?答:是的。问:我在我的K1处有棋子K;你仅在K6处有棋子K,在R1处有棋子R。现在轮到你走,你应该下那步棋?答:(停15秒钟后)棋子R走到R8处,将军!图灵测试•图灵指出:“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,以至提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。”•从表面上看,要使机器回答按一定范围提出的问题似乎没有什么困难,可以通过编制特殊的程序来实现。然而,如果提问者并不遵循常规标准,编制回答的程序是极其困难的事情。图灵测试•问:你会下国际象棋吗?答:是的。问:你会下国际象棋吗?答:是的。问:请再次回答,你会下国际象棋吗?答:是的。•你多半会想到,面前的这位是一部笨机器。图灵测试•问:你会下国际象棋吗?答:是的。问:你会下国际象棋吗?答:是的,我不是已经说过了吗?问:请再次回答,你会下国际象棋吗?答:你烦不烦,干嘛老提同样的问题。•你面前的这位测试对象,大概是人而不是机器。图灵测试•上述两种对话的区别在于,第一种可明显地感到回答者是从知识库里提取简单的答案,第二种则具有分析综合的能力,回答者知道观察者在反复提出同样的问