藏文信息处理技术的研究现状与展望

ytuld
11 ℃
2016-10-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1藏文信息处理技术的研究现状与展望*1陈玉忠俞士汶（北京大学计算语言学研究所100871）[摘要]本文主要对国内开展藏文信息处理以来的相关研究工作进行了介绍和评价。在此基础上对藏文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进藏文信息处理技术的发展。通过对藏文操作系统、藏文信息技术标准、藏语信息处理、综合应用等四个方面的历史和现状的介绍和评价，使我们得出如下的初步结论：目前状况下要加速藏文信息处理的发展，应重点开展藏文信息技术标准制定、藏文操作系统研制、藏文资源建设和人才培养工作，尤其是要把藏文操作系统的研制工作作为头等大事来抓。[关键词]藏文信息处理操作系统标准[中图分类号]TP391;H2[文献标识号]A[文章编号]1、引言藏文已有近1400的历史，作为藏文化最主要和最基本的载体，用藏文记载的经典文献、古籍著述和译作浩如烟海。在国内用藏文记载的文献数量仅次于汉文历史文献，是中华民族文化遗产宝库中一颗璀璨的明珠。藏文自创制以来，无论过去作为藏民族传承佛教文化的主要工具，还是现在作为藏区传播科技知识的主要工具，甚至将来作为信息化社会中一个民族的主要标识符，其独特的人类文化价值和仍在广大藏区所发挥的巨大作用是不可估量的。自从人类进入以计算机和网络为主体的信息时代，古老的藏文字正面临着一场“生死存亡”的考验——即能否跨入信息时代。藏文字一旦不能跨入信息时代，她必将失去语言文化载体的基本功能和作用，就会被这个时代无情地抛弃。纵观国内外语言文字信息处理技术的发展历史和现状，我们可以清楚地看到，古老的藏文字能否跨入信息时代的关键就是能不能解决好藏文信息处理技术问题。因此，藏文信息处理是直接关系着藏文命运的一件大事，其重要意义是不言而喻的。鉴于目前几乎看不到反映藏文信息处理技术最新进展的综述性文章，相关领域的研究进展只是散见于各专业文献中。而另外一方面，新加入到这一领域的研究人员又非常渴望对藏文信息处理技术的现状能有个比较全面的了解，以便于开展各自的研究工作。此外，国家有关部门在宏观决策时也希望能有这方面的资料作为参考。因此，在这样一个背景下，对藏文信息处理技术的发2展现状做一个全面的考察是非常必要和及时的。由于藏文的故乡在中国，在这方面所作的研究和取得的成果也以国内居多，同时限于资料和篇幅，文章基本没有涉及国外学者在这方面的研究工作。文章的安排大致如下：第二部分对藏文信息处理中经常用到的几个术语进行了界定。第三部分首先把藏文信息处理划分为四个方面，以此为线索分别就其发展历史和现状作了一番简要的介绍，并说明了发展现状与实际需求之间的差距。第四部分我们在寻找现阶段差距的过程中提出了藏文信息处理中应重点关注的几个问题，并结合现状和发展趋势提出了我们的一些看法。1本文主要对国内开展藏文信息处理工作以来的相关研究工作进行了介绍和评价。由于一方面受篇幅限制，另一方面占有的相关资料不全，再加之个人视野有限，有的重要研究工作文中没有提及势必难免，而对提及的研究工作评价不当或与实际工作有所出入也是很有可能的。疏漏有误之处恳请专家学者指正。本文写作过程中，得到李保利同学的诸多帮助，特此致谢。2、几个关键术语的界定在进入本文正题之前，首先花点笔墨对本文中用到的几个关键术语作出界定是很有必要的。这一方面有利于我们在清晰的背景下对所谈及的问题进行描述，另一方面便于在确定的层面上对相关问题展开讨论。首当其冲的就是我们用惯了的“中文信息处理”。“中文”是中国语言文字的简称，它包括汉文和中国境内其他少数民族的语言文字[1]。很显然，“中文信息处理”自然包括汉文信息处理和中国境内其他少数民族语言文字的信息处理。由于汉族是我国的主体民族，汉语又是国家法定的唯一官方语言，加之中文信息处理又以汉语信息处理为中心，因此，很多研究者经常用“中文信息处理”来特指汉语信息处理。我们认为这种称谓是不妥当的，也是不可取的。首先，这样容易产生误解，很容易使不了解具体情况的国内同胞和国外友人产生在中国只存在汉语信息处理的错觉；其次，这样不利于计算语言学术语的命名和规范，且不说“中文”二字的所指非常明确（中国语言文字或中国文字），如果以“中文信息处理”替代汉语信息处理，那么，汉文信息处理和少数民族语言文字信息处理的总称又是什么呢？除了“中文信息处理”之外我们很难再找到一个比它更贴切的术语。因此，我们认为这种称谓是不科学的也是不可取的。我们的定义是：中文信息处理是利用计算机对中国语言文字信息（包括书面语的和口头的）进行处理2[2]，包括汉文信息处理和藏文、蒙文以及维文等我国少数民族语言文字的信息处理。那么，“藏文信息处理”、“藏语信息处理”和“藏字信息处理”之间又是什么关系？各自又包括哪些具体研究课题呢？相关概念本文参照文献[3]和[4]中的描述性定义来进行说明。“藏文信3息处理”可划分为“藏语信息处理”和“藏字信息处理”两个层次。藏字信息处理层面包括操作系统以及编码字符集、输入技术、字形描述与生成、存储、编辑、排版、字频统计和藏字属性库等课题；藏语信息处理层面包括机器翻译、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及藏文文字识别和语音识别的后处理等等。两者之间也有交叉，藏语信息处理要以藏字信息处理的实现为基础。要提高藏字信息处理的智能水平，又要借助藏语信息处理的成果。3、藏文信息处理的历史和现状实现计算机语言文字信息处理必须依赖稳定的文字处理平台、统一的规范标准和可靠的语言知识资源，三者相辅相成、缺一不可。二十多年来，藏文信息处理在各个方面得到了长足的发展，取得了不少成绩。本节的介绍和讨论将主要围绕藏文操作系统、藏文信息技术标准、藏语信息处理、综合应用等四个方面来展开。鉴于藏文操作系统、藏文字符编码标准和藏语信息处理在藏文信息处理中又居于核心地位，为了使论述的主题更加集中和明确，对这三个方面的发展历史和研究现状作了重点介绍。3．1、藏文操作系统3．1．1、基于DOS的藏文字处理技术探索2这一定义与文献[2]中的定义的主要区别在于本定义包含了我国少数民族语言文字。国内藏文信息处理的研究工作是从20世纪80年代初的字处理研究起步的[5]。最早见诸报道的是张连生于1981年用计算机进行的藏文词汇排序工作[6]。当时由于没有藏文操作系统，他使用英文操作系统，采用于道泉先生提出的以数码代替藏文的编码方案[7]，使用COBOL语言实现了一个藏文排序软件。此后，张连生于1983年在美国伊利诺斯大学利用PLATO计算机上的一个应用软件TUTOR，采用李方桂先生提出的罗马转写方案为藏文输入编码方案，并通过TUTOR软件提供的图形叠加功能完成藏文字符显示，实现了一个集输入、显示和打印功能为一体的藏文字处理系统3[8]1984年上海教育学院物理系俞乐等人在VICTOR9000微机上利用BASIC语言实现了一个具有输入、显示和打印功能的藏文字处理系统，并用BASIC编写了藏文报表软件[9]。在此前后，甘肃省计算中心胡彦发等人和西北民族学院合作也在WANGVS/80机上，用扩展BASIC语言实现了一个藏文的字处理系统ZWCL，他们还配套编写了藏文文献联机检索系统[10]。航天部710所罗圣仪等人在微机PC-8001和IBM-PC上实现了一个藏文字处理系统[11]。该系统利用TLLP字符写入程序实现，并采用了一种藏文辅音字母和元音字母用拉丁转写、上下加字采用数字代码的编码方案。4上述几个系统代表了这一时期藏文操作系统的发展水平。可以看到，当时的研究工作主要围绕藏文字处理系统在应用层面的基本实现方法展开。就字处理系统而言，在实现技术上尚有许多欠缺。具体表现在以下几个方面：（1）这些藏文字处理系统都是利用BASIC语言、TOTOR软件等在应用软件层面实现的，而不是在操作系统层面实现的。因此，在这些系统下无法利用英文各类应用软件和编程语言；（2）都是单一文种（藏字）处理系统，无法与英文或汉文系统兼容；（3）还没有统一的相关技术标准（包括内部交换码、字符集等）可参照，因而也无法实现各系统间的相互兼容；（4）系统的藏文字符集普遍偏小或不全，基本不具备梵音藏文字符的处理能力；（5）输入编码或采用拉丁转写或使用数字替代，输入繁琐且不便于记忆。当然，这一时期的探索工作也是非常有价值的，它为后来藏文基本字符集的确定、系统平台的开发积累了经验，提前作了技术上的储备工作。更加难能可贵的是，在当时的技术条件下有些科研人员还在语言信息处理层面进行了有益的探索[7][9][10]。3．1．2、基于DOS的藏文操作系统开发1980年代中期，以CCDOS为代表的汉字信息处理技术极大地推动了与汉英文兼容的藏文操作系统的发展。1986年青海省药品检验所俞汝龙、青海师范大学赵晨星、青海民族学院毛继祖、熊涛等人与北京有线电厂合作，在CCDOS2.13下开发了与汉英文兼容的藏文操作系统TCDOS[12]。后来在TCDOS基础上，熊涛等人与西北民族学院于洪志等人合作开发了可挂接在WPS下的藏文轻印刷系统—兰海藏文系统[13]。在此前后，四川大学彭寿全等人开发了一个与汉英文兼容的藏文操作系统[14]。南京新技术研究所于江苏、葛小冲等人也开发了一个与汉英文兼容的藏文操作系统ZWDOS[15]。1992年10月，西藏大学尼玛扎西等人研究开发的《TCE藏汉英文信息处理系统》通过了西藏自治区的审定[16]。这些研究促成了国内藏文信息处理领域内具有划时代意义和产生了深远影响的两个与汉英文全兼容的实用化的藏文操作系统的诞生。其中之一是北大方正藏文系统，另一个则是华光藏文系统。在罗圣仪等人的研究基础上，中国藏学研究中心和航天部710所于1988年8月推出了3因为此类软件不具备系统一级的藏字支持功能，指称上为了与实际操作系统有所区别，在此我们暂称为字处理系统。藏文字处理及激光编辑排版印刷系统[17]，该系统后来与潍坊华光合作开发出了书林藏文排版和激光照排系统（简称华光藏文系统）。中国计算机软件与技术服务总公司、民族印刷厂、北京大学计算机研究所、中国民族语文翻译中心在华光藏文系统的基础上，于1990年底联合推出5了北大方正藏文书报版系统（简称北大方正藏文系统）。以上两个系统的藏文编码虽然没有相关国家标准可依，但由于这两个系统的编码有完整的对应关系，而且在国内外有着广泛的用户群，自然成为了国内事实上的“标准”系统。此后在很长一段时期内，这两个系统一直是国内藏文信息处理研究领域的基本平台。事实上，时至今日它们仍占据着广大藏区90%以上的书版、报版印刷市场，也是大多数藏文信息处理研究者的首选基本平台。这一时期在国家的大力支持下，在国内各主要研究单位和企业的通力协作下，基于DOS的藏文操作系统基本上与汉文操作系统同步实现了本地化工作。3．1．3、基于WINDOWS的藏文字处理软件研究进入90年代中期以来，随着软硬件技术的飞速发展，基于图形界面的WINDOWS操作系统逐步替代了基于字符界面的DOS操作系统而成为了微机操作系统的主流。因此，基于图形界面的藏文WINDOWS操作系统的研制和开发便成为了这一时期藏字信息处理的核心任务之一。根据实现技术难度和相应功能的不同，藏文WINDOWS操作系统的开发有三种可选模式：一是直接在应用层面开发；二是挂接在现有汉英文WINDOWS系统下实现；三是系统内核一级实现藏化。由于WINDOWS系统结构庞杂，没有公开的系统内核代码可参照，加之产品更新换代速度极快，一般研究单位在系统一级实现藏化基本上是不可能的。因此，实际上可选的开发模式只有前两种。北大方正1997年推出了基于WIN31的藏文维思彩色印刷系统，但藏文的输入、编辑过程仍需切换到DOS环境下进行；西北民族学院信息所于洪志、戴玉刚等人于2000年实现了一个基于WINDOWS的藏文字处理软件4，即同元藏文字处理软件[18]，其主要实现技术是通过WORDAPI的动态链接库WLL嵌入藏文输入法，并在WINDOWS下挂接一个TRUETYPE字库实现。在此前后，青海师范大学也采用类似的技术开发了一个基于WINDOWS的藏文字处理软件—班智达藏文字处理软件[19]，并在