数字化技术在少数民族语言研究中的关键技术与应用评述前沿少数民族语言文字不仅是少数民族生产生活的交流工具,更是民族文化的重要内容和载体.随着社会开放程度的不断提高,民族语言文字的使用有衰退的趋势,一些使用人口比较少的民族语言已经处于濒临状态,民族语言文字的消亡,直接危及民族文化的繁荣和发展,抢救和保护民族语言文字资源,是繁荣和发展民族文化的重要前提,而且刻不容缓.随着计算机和网络技术以及数字化的普及和应用,为抢救和保护少数民族语言文字资源提供了重要的科技手段,将少数民族语言文字引入计算机和互联网,将有效提升少数民族语言文字学习、应用和研究水平,实现各民族语言文字和平等权利,使少数民族在科技领域不被边缘化,从而促进各民族语言文字的繁荣和发展,维护民族平等团结,巩固边疆繁荣稳定.本文主要介绍数字化技术在少数民族语言研究中的应用。例如少数民族语言输入法包括编码字符集、输入技术、字形描述与生成、存储、编辑、排版、字频统计等,同时语言信息处理技术包括机器翻译、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及文字识别和语音识别等应用领域。1数字化技术在少数民族语言保护方面的优点随着科技的进步和计算机技术的发展,尤其是数字摄影、三维信息获取、虚拟现实、多媒体与宽带网络技术研究与应用的发展,为少数民族语言的保护提供了一种可靠且有效的方法———数字化保护[2]。数字化技术在少数民族语言保护的本质是以记录保存的方式对少数民族语言进行保护。通过对其相关的文字、图像、声音、视频及三维数据信息进行数字化保存、组织和存储来实现对其的保护。数字化保护所得的资料主要是硬盘或者光盘,它有以下几个优点:①几乎不占用物理空间;②可以方便灵活地进行图文声像与数字信息的双向转换;③可以方便自如地对资料进行修改、编辑、排序、移位、备份、删除和增补;④可以高速、便捷地通过网络进行传输;⑤可以方便、迅速地进行检索、调用。所以语言便于实现数据化、网络化,而且可以用来兴建具有互动性与开放性的大型图、文、声、像数字博物馆,并通过互联网的方式实现全球资源共享。2少数民族语言的输入法2.1编码编码就是在认知上是解释传入的刺激的一种基本知觉的过程。技术上来说,这是一个复杂的、多阶段的转换过程,从较为客观的感觉输入(例如光、声)到主观上有意义的体验。2.1.1字符编码字符编码、字集码是字符集由编码组成。编码是指将某一字符序列对应到一指定集合中某一东西(例如可能显示为一种自然数序列,交流所用的字母表或者字音表),再将其对应到另一个给定的集合中的其它东西,如一个自然数序列、8位字节或者电脉冲,以便于文本在计算机中存储和通过通信网络的发送。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号编号,并用7位元的二进制来表示这个整数。通常会额外使用一个扩充的位元,以便于以8位字节的方式存储。在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显,于是人们开发了许多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系统而不是临时的方法实现这些字符的编码。2.1.2简单字符集按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因,MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。2.1.3现代编码模型由统一码和通用字符集所构成的现代字符编码模型则没有跟从简单字符集的观点。它们将字符编码的概念分为:有哪些字符、它们的编号、这些编号如何编码成一系列的“码元”(有限大小的数字)以及最后这些单元如何组成八位字节流。区分这些概念的核心思想是建立一个能够用不同方法来编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集”和“字符编码”更为精确的术语表示。2.2少数民族语言的输入技术中文输入技术是指将中文输入计算机等电子设备的技术,它是中文信息处理技术的一个重要组成部分。(1)电脑键盘输入:也称中文输入法,是最常见的输入手段。(2)语音输入:使用语音识别技术,对语音进行智能识别的方法。语音输入入门难度低,但输入速度不高,且受到环境噪音影响很大。目前语音识别没有完全成熟,针对特定人的语音还需要进行计算机“训练”。比较著名的方案有IBM的ViaVoice。(3)手写输入:对笔迹进行智能识别的技术,一般使用专用手写板进行输入,也可利用鼠标、触摸屏输入。手写输入技术已经非常成熟,从早期要求宋体、楷体独立笔画输入,发展到行书及部分草书的连笔识别。输入速度中等,识别率95%甚至更高。(4)光学字符识别:对印刷体进行光学扫描后进行智能识别的技术。输入速度高,识别率98%以上,技术成熟。现在的系统一般能恢复版面信息和字体信息,并能对中英文混排有较好的处理。2.3存储与排版(1)少数民族语言存储与汉语存储相同,我们在存储技术上可以参考汉语存储方式与技术。(2)排版是指将文字、图片、图形等可视化信息元素在版面布局上调整位置、大小,使版面布局条理化的过程。按照稿本把铅字、图版等排在一起拼成书报的版子,以供印刷。在少数民族语言排版方面我们可以借助一些,例如方正的排版。3语言信息处理技术3.1机器翻译机器翻译是我国最早开始研究的自然语言处理应用系统,已经走过了近半个世纪的历程。近年来在吸收国外研究成果和技术的同时,结合中文信息处理的实际,在专题研究和实用系统开发等方面都有新的进展[1]。3.1.1基于规则的方法和基于语料库的方法研制实用机器翻译系统的方法有两种:基于规则的和基于语料库的。前一种方法通过对语言现象的综合和认识,总结规律,得到语法、语义等规则,机器翻译系统运用这些规则分析源语言,形成一种确定的内部表示形式,再把它转换成相应的目标语结构,最后生成目标语译文。第二种方法又可以分成基于语料统计的方法和基于实例类比的方法两种。前者在大规模语料库的支持下,用统计学的方法建立语言模型,计算语言翻译概率模型的参数,根据翻译模型完成翻译过程。后者也要建立大规模的双语语料库,分别存放各种翻译单元的大量实例及其对应的译文,翻译时,系统先在语料库中寻找与源语翻译单元类似的实例,然后模仿实例从源语的翻译单元构造目标语的译文。多年来基于规则的方法一直是我国机器翻译研究的主流。九十年代以后,基于语料库的方法开始得到重视,建立了用于机器翻译的双语语料库,进行了基于语料统计或基于实例类比的机器翻译实验[1]。3.1.2机器翻译中的专题研究一个机器翻译系统至少要涉及自然语言的两个语种,既要分析源语言,又要生成目标语言,还可能需要处理两种语言的对比差异。因此机器翻译十分需要语言学研究的支持,需要结合机器翻译应用的实际,研究语法、语义等问题。另外还要求翻译系统采用的语法体系具有上下文相关分析和处理的能力,这是机器翻译中最难解决的问题之一[1]。机器翻译的另一类专题研究是知识处理问题,主要有以下几项内容。第一项是机器翻译所需的知识及其形式化表示。机器翻译需要的首先是语言学知识,包括词法知识、语法知识、和词汇信息,除此之外还需要日常知识、社会、文化、历史背景知识和各种专门领域的知识。所有这些不同类型的知识要在计算机中用统一的方式表示出来,并且可以进行有效的操作。第二项是知识的获取问题,指用计算机辅助人来总结、归纳机器翻译所需要的知识,用规范的格式表示获取的知识,自动检测新知识与原有知识的一致性,并且能够根据译文校正的反馈信息使已有的知识不断完善。第三项是知识的管理和维护问题,要随着知识数量的增加,发现隐含、冗余、非一致性、非完全性等问题,对知识库进行调整和优化,提高信息的有效性。算法设计和软件实现是机器翻译的又一类专题研究,主要包括词法分析算法的设计和实现、句法分析器的设计和实现、转换与生成算法的设计和实现,以及用户环境的设计和实现。算法和软件使语言学理论和语言模型在计算机上得以实现,它们能够支持机器翻译规则的操作,检验理论和方法的可行性,促进与机器翻译有关的语言研究。3.1.3应用型机器翻译系统的研制机器翻译研究的最终目标是提供高质量的实用翻译系统,因此研制应用型的系统始终是机器翻译领域的主流工作。在我国研制的系统中,参与翻译的语言对大多是英汉和汉英。尤其是英译汉系统,投入的力量最多,实用的机器翻译产品也大多是英汉翻译系统。九十年代前期曾经出现了数家机器翻译系统同现市场,用户的期望值被商业化行为提得过高的现象。到了九十年代末,能够继续留在市场上的系统已经不多了。人们也逐渐用更客观和科学的态度对待机器翻译系统的翻译能力和应用目标,认识到机器翻译实际上还是一个不成熟的研究领域。近年来,研究人员根据机器翻译的难点、现有的研制水平和技术发展的可行性,提出了以下几个观点,试图为机器翻译系统的应用定位:(1)按不同的需求调整机器翻译译文质量的接受标准。如果以浏览(获取信息)为目的,那么译文质量不大高也往往可以接受;如果以辅助翻译为目的,那么按整句当中的翻译单位(词语或词组)提供可选的译文,也可以接受;如果以发表或出版(传播信息)为目的,就需要译文达到准确和可读的标准。(2)使机器翻译系统受限。所谓受限,一方面指特定的用户(如某个公司),另一方面指特定的待翻译文本(如天气预报、产品技术手册等)。这样能够使系统的词典、规则和实例更有针对性,减少翻译中的各种歧义。(3)在翻译过程中采用人机交互的方式。包括译前编辑、翻译过程中的提问和人工干预、以及译后编辑等。(4)把机器翻译的阶段性结果与语言信息处理的其他应用目标结合起来。譬如跨语言的文本信息检索和信息提取。近几年涉及中国少数民族语言的机器翻译研究和开发工作也有一定进展,已有英蒙和汉蒙机器翻译系统、汉维—维汉机器辅助翻译系统正在实验当中。3.2文本信息处理文本信息处理系统可以帮助人们在大量的文献资料中迅速获得所需要的信息。其中信息检索、信息提取、信息过滤和文本分类成为近几年投入研究最多的文本信息处理应用技术。目前的文本信息处理系统大多采用统计语言模型和语言浅层分析规则的策略,这样就避开了自然语言理解当中难以解决的问题,把一些相对成熟的语言分析技术应用到语言工程当中。所以比起机器翻译来,文本信息处理虽然起步要晚许多年,却取得了快得多的研究进展和应用效果。早期的文本信息检索(InformationRetrieval,简称IR)系统是基于自由关键字和布尔模型的,语言处理技术的含量不高,虽然实用,但检索效果并不很理想。近年发展起来的基于自然语言处理的文本检索技术,已经达到了能够处理大规模开放文本的实用程度。其中采用的语言处理技术有:自动分词,词频统计,识别“有效词”和“停用词”,识别复合短语、专有名词和未定义词,在此基础上用概率统计的方法计算文本的类别特征值,判断检索结果的相关程度。同时,文本自动分类和自动文摘技术也被引入到检索系统里,以提高检索的效率和准确度。文本信息提取与文本信息检索的不同之处是,它的目标不是提供用户感兴趣的文档,而是提供结构化的信息,譬如数据库。因此,文本信息提取系统要在更多的自然语言处理技术支持下,把需要的信息从文本中提取出来,再用某种结构化的形式组织起来,提供给用户(人或计算机系统)使用。语言自动分析的研究是信息提取技术的基础。在现有的自然语言处理技术中,从词汇分析、浅层句法分析、语义分析,到同指分析、概念结构、语用过滤,都可以应用在信息提取系统中。譬如,对专有名词的提取大多采用词汇分析和浅层句法分析技术;识别句型(如SVO)或条目之间的关系需要语义分析和同指分析;概念分析和语用过滤可以用来处理事件框架内部有关信息的关联和整合[4]。信息过滤是根据用户的需求用计算机从动态变化的信息流中自动检索出符合要求的信息,多用于互联网上的信息内容安全领域。3.3语音识别语音识别技术,也被称为自动语音识别(英语:AutomaticSpeechRecognition,ASR),其目