第六讲计算语言学•什么是计算语言学?•请举出你概念里计算语言学研究的大致内容.•一、计算语言学的定义•二、萌芽初创(语言翻译问题、语言与数学)•三、计算语言学的分类•四、计算语言学的特点•五、汉字的信息处理•六、词语的信息处理•七、机器翻译•各类定义:•社会的需求和技术的进步,推动着古老的语言学和新兴的计算机科学相接合,产生了一门交叉学科———计算语言学。它为计算机处理语言信息(包括语言中信息成分的发现和提取,语言数据的存储、加工和传输,语言翻译和理解)提供理论模型、计算方法和实现技术。•——俞士汶一、计算语言学的定义•计算语言学是一个横跨语言学、数学、计算机科学的交叉学科。——冯志伟计算语言学数学计算机语言学•计算语言学(ComputationalLinguistics)指的是这样一门学科,它通过建立形式化的数学模型,/来分析、处理自然语言,/并在计算机上用程序来实现分析和处理的过程,/从而达到以机器来模拟人的部分乃至全部语言能力的目的。•——百度百科/詹卫东计算语言学的定义:是利用计算计研究和处理自然语言的学科。•狭义:指的是通过建立形式化的计算模型,用计算机理解、分析、处理自然语言的学科。•广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。•例1:中国《红楼梦》的作者:前八十回和后四十回是不是一个人。•例2:方言亲属关系的计量二、计算语言学的萌芽初创:语言学自己的准备:•1、《圣经·创世纪》中“巴比塔”的传说。《旧约·创世纪》第11章讲述了“通天塔”的故事。很久很久以前,天下的人都居住在一个叫做古巴比伦的地方,那时候人们都使用同一种语言。后来,古巴比伦人计划修建一座塔,塔顶要高耸入云,直达天庭,以显示人们的团结和力量。塔越建越高,惊动了天庭的耶和华。他想,现在天下的人都是一个民族,都说一种语言,他们团结一致,什么奇迹都可以创造,那神还怎么去统治人类?于是上帝便决定要惩罚惩罚人类。他施魔法变乱了人们的口音,使他们无法沟通,高塔因此无法继续建造下去。最后,上帝还把人类驱散到地球的各个角落。•2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无歧义的语言。十七世纪的普遍语言文字运动席卷西欧,吸引了各国学者,但最为投入的似乎是英国人。伦敦皇家学会在成立初期,主要致力于普遍语言文字的讨论,并资助威尔金斯出版《论一种真实字符和一种哲学语言》(1668)。牛顿对语言问题也颇感兴趣,在皇家学会《哲学汇刊》上发表过两篇语音学论文。•语言学的应用——翻译•计算语言学的研究首先是从机器翻译开始的。•3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。•语言学与计算机的结合•1、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。•2、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。•3、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。•理解自然语言使计算机具有听说读写的能力语音识别与合成,机器翻译,自然语言人际借口,情报检索,自动文摘,信息抽取,语料库建设•4、计算语言学的进一步发展•音字转换:语音识别、拼音输入•自动文摘:自动给出一篇或多篇文章的摘要•信息检索:在海量的信息准确找到你所需要的信息•信息过滤:信息过滤是大规模内容处理的另一种典型应用。它是对陆续到达的信息进行过滤操作,将符合用户需求的信息保留,将不符合用户需求的信息过滤掉。通常可分为不良信息过滤和个性化信息过滤:不良信息过滤一般指过滤掉暴力反动色情等信息;个性化信息过滤类似于信息检索,帮助用户返回感兴趣的东西。语言学与数学•1847年,俄国数学家B.Buljakovski认为可以用概率论方法来进行语法、词源和语言历史比较的研究。•1851年,英国数学家A.DeMorgen把词长作为文章风格的一个特征进行统计研究。•1894年,瑞士语言学家DeSaussure指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来,他在1916年出版的《普通语言学教程》中又指出,语言好比一个几何系统,它可以归结为一些待证的定理。•1898年,德国学者F.W.Kaeding统计了德语词汇的在文本中的出现频率,编制了世界上一部频率词典《德语频率词典》。•1904年,波兰语言学家BaudouinDeCourtenay指出,语言学家不仅应当掌握初等数学,而且还要掌握高等数学。他表示坚信,语言学将日益接近精密科学,并将根据数学的模式,更多地扩展量的概念,发展新的演绎思想的方法。•1933年,美国语言学家L.Bloomfield提出一个著名的论点:“数学只不过是语言所能达到的最高境界。”•1935年,加拿大学者E.VarderBeke提出了词的分布率的概念,并以之作为词典选词的主要标准。•1944年,英国数学家G.U.Yule发表了《文学词语的统计分析》一书,大规模地使用概率和统计的方法来研究词汇。•计算语言学的标志性事件:•1962美国计算语言学会成立,每年举行一次年会,出版季刊《美国计算语言学杂志》(InternationalJournalofComputationalLinguistics)•1965年在美国纽约成立国际计算语言学委员会,每两年召开一次学术研讨会。•中国:我国的中文信息学会成立于1981年,出版季刊《中文信息学报》,隶属于中文信息学会的计算语言学专业委员会1987年6月成立,1988年6月在北京举行了,首届计算语言学学术会议。三、计算语言学的学科分类•计算语音学•计算词汇学•计算语法学•计算语义学•语料库语言学•(一)计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。•语音识别(speechrecognition):机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。•一般来说,完整的语音识别要经历三个步骤:•(1)语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。•(2)声学模型与模式匹配(识别算法):将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。•(3)计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。•语音合成(speechsynthesis):将可视的文本信息转化为可听的语音信息。•哑人的手语——语音•iphone4S•(二)计算词汇学:研究如何用计算机处理自然语言的词汇,建立语言词汇库,术语数据库等机器可读词典。机读词典的规模及词条的详尽程度将成为衡量一个语言信息处理系统质量的决定性因素。•(三)计算语法学:研究如何用计算机来分析自然语言的语法。这种研究在计算语言学中叫做自动语法分析(parsing)。(四)计算语义学:如何利用计算机来分析自然语言的语义。优选语义学指的是用于自动翻译的一种语义学理论,英国人工智能专家Y.A.威尔克斯于1974年提出。语义单位有5种:义素;义式;裸模板;模板;超模板。•义素是最基本的语义单位,由义素构成义式,用以描写单词的语义;由义式构成裸模板及模板,用以描写简单句的语义;再由超模板描写更大的文句或段落的语义。威尔克斯确定了80个义素,分为5组:•①语义实体:如MAN(人类),STUFF(物质),THING(物体),PART(事物的部分),FOLK(人类的群体),STATE(存在的物质),BEAST(兽类)等等。•②动作:如FORCE(强迫),CAUSE(引起),FLOW(流动),PICK(挑选),BE(存在)等等。•③性状:如KIND(性质),HOW(动作的方式)等等。•④种类:如CONT(容器),THRU(孔)等等。•⑤格:如TO(方向),SOUR(来源),GOAL(目标),LOCA(位置),SUBJ(施事),OBJE(受事),IN(包含),POSS(领属)等等。(五)语料库语言学:语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。语料库语言学(corpuslinguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。•北京大学《人民日报》标注语料库:•北京语言大学的语料库:•清华大学的汉语均衡语料库TH-ACorpus:•山西大学的语料库:•台湾中研院的语料库:•现代汉语平衡语料库:•或~tibe/2-words/modern-words/或•近代汉语标记语料库:•古汉语语料库:•或或~tibe/2-words/old-words/•台湾南岛语典藏:•闽南语典藏:•汉籍电子文献:~tdbproj/handy1/•或•香港城市大学的LIVAC共时语料库:•或•浙江师范大学的历史文献语料库:•中国科学院计算所的双语语料库:•中文语言资源联盟:四、计算语言学的特点•(一)元语言的形式化•1、对象语言、元语言:对象语言指的是人们要研究的那种语言。元语言指的是人们描述对象语言的那种语言。•从交际的角度来看,对象语言一般是人类正在使用的自然语言,也可以是死语言,元语言一般是人类正在使用的自然语言;•从人机交流的角度讲,对象语言一般是类正在使用的自然语言,也可以是死语言,元语言一般是人工语言。•2、元语言为什么要形式化?•自然语言太复杂了,这是自然语言做语言的最大缺陷。•计算语言学研究的重要内容:•如何设计元语言才能更好地描述或叙述对象语言里的规律而且计算机能够读懂。•计算语言学要考虑:•一是技术上的需要,便于在计算机上实现。•二是语言描述的需要,能精确深入地描述语言规律。•(二)具有可操作性:•操作性——描述性•语言研究的可操作性:告诉人们怎样从一个现成的句子(这时你并不懂这个句子的具体含义)变出他的句法结