少数民族语言文字的信息化建设

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1少数民族语言文字的信息化建设摘要:标准化是规范化的发展和升华,是对规范化成果的凝练和概括,是语言规范化走向深入的标志。少数民族语文的规范化、标准化是我国民族语文现代化工作的重要组成部分。建设稳定的操作平台是实现少数民族语文信息化的又一大基础工程。少数民族语文的规范化、标准化是我国民族语文现代化工作的重要组成部分。在中华人民共和国建立初期,就展开了民族语言文字调查。在此基础上,为一些民族语言确立了标准音,为10个无文字的民族创制了14种新文字,为文字不完善的民族改进了8种文字。这些工作不仅为民族语文规范化和标准化确立了基点和方向,也为民族语文的信息化准备了基础性工作。1965年,国家测绘局和中国文字改革委员会发布了《少数民族地名汉语拼音字母音译转写法》,这是我国少数民族语言文字第一个标准文本,为少数民族语言地名标准化工作提供了工具和依据。1984年10月,全国首届少数民族语言文字信息处理学术研讨会在呼和浩特举行,会议涉及蒙、藏、维、哈、朝、壮等6种少数民族语文信息的计算机处理,这次会议的召开标志着少数民族语文信息化正式拉开了序幕。此后连续召开了多次学术会议,极大地促进了少数民族语文信息化学术研究和技术的发展。1991年,国务院下发了《国务院批转国家民委关于进一2步做好少数民族语言文字工作报告的通知》,明确将“搞好民族语文的规范化、标准化和信息处理”作为民族语文的一项重要任务。此后我国少数民族语文规范化、标准化、信息化进入了一个蓬勃发展时期。1995年,全国术语标准化技术委员会少数民族语特别分委会在北京成立,随后在其下成立了蒙古、藏、朝鲜和新疆少数民族语4个术语工作委员会,负责整个少数民族和各有关民族语文的标准化工作,为我国少数民族语文标准化搭建了一个工作平台。1998年7月,由国家民委文化宣传司语文室和中国社会科学院民族研究所联合主办的全国民族语文现代化规划会议在北京召开,主题是民族语文现代化整体规划。会议形成了《全国民族语文现代化规划会议纪要》,对我国少数民族语文信息化产生了深远的影响。2002年9月,为落实中央领导的批示,教育部、国家民委、信息产业部、科技部、国家标准化管理委员会等部委组成联合调研组,赴西藏、内蒙等地区,对民族地区信息化建设情况进行实地调研。在调研和广泛征求意见的基础上,国家民委、教育部起草了《民族语文信息化总体规划》(征求意见稿)。2004年4月,国家民委文化宣传司和中国科学院自动化研究所,在北京联合召开中国少数民族语言信息技术与资源3库建设学术研讨会。少数民族语文信息化得到了国家有关部门的关注和支持。国家民委、教育部、信息产业部、中央统战部、科技部、国家标准委等机构领导出席了会议。同年11月,全国语言文字标准化技术委员会少数民族语言文字分技术委员会成立并召开第一次工作会议。大家就教育部、国家语委制定的“民族语言文字规范标准建设与信息化课题指南”进行了认真的讨论,达成了建立民族语文信息处理的统一平台、突出规范标准研制、抓好民族语文资源库建设等共识。2005年7月,时值中国中文信息学会民族语言文字信息专业委员会成立20周年,在青海召开了规模空前的“第十届全国少数民族语言文字信息处理学术研讨会”,会议论题非常广泛,包含了各种民族语文编码字符集标准、输入输出设计、多文种网络应用与信息发布技术、多文种全文检索与跨语言信息检索技术、电子词典研制、民族文字文本处理和机器翻译、电子出版等等内容。同年7月,教育部语言文字信息管理司在乌鲁木齐召开了“中国民族语言文字规范标准建设及信息化工作会议”。会议认为当前要大力加强民族语文规范标准建设;确保因特网上民族语文数据的传输、共享与信息安全;要集中力量加快民文基础软件、通用软件的研发和统一平台的建设;要支持民族语文的资源库建设,有计划、分步骤地建设多文种的多种资源库。这次会议完全是政4府主导的推进少数民族语文信息化的会议,它的召开意味着中国少数民族语文信息化工作进入了一个崭新的阶段,表明中国政府对民族语文信息化工作的支持进入落实和实施阶段,也反映了民族语言文字标准化和信息处理研究进入了新的领域和阶段。下面从标准、操作平台和资源库建设以及少数民族文网络应用等方面简述我国少数民族语文标准化和信息化的基本情况。一少数民族语文规范标准建设状况标准化是规范化的发展和升华,是对规范化成果的凝练和概括,是语言规范化走向深入的标志。民族语文标准主要包括两类:一是民族语文及其衍生的标准;另一类是涉及民族语文信息处理、交换、管理等的技术标准。前一类标准使用范围比较广泛,既可以用于一般的社会生活,也可以用于计算机;后一类标准主要用于计算机信息处理中。(一)一般的语言文字标准一般的语言文字标准(或者称本体标准)的制定先于面向信息处理的标准,它一开始主要是为了解决现实生活中语文的不规范问题。信息化时代来临后,又赋予了它新功能,成为人机两用标准。少数民族语文第一个标准是1965年发布的《少数民族语地名拼音字母音译转写法》,不但为我国少数民族语言地名标准化提供了工具和依据,而且也成为少5数民族语地名标准化纲领性的文件。在此基础上,在少数民族语地名方面形成了一系列的标准。主要包括蒙古语地名译音规则(CHIV-801--1982)、维吾尔语地名译音规则(CHIV-802--1982)、藏语(拉萨语)地名译音规则(CHIV-803--1982)、哈萨克语地名译音规则(CHIV-804--1987)、柯尔克孜语地名汉字译音规则(ZBA79002—1990改为CH/T4012--1999);藏语(安多语)地名译音规则(ZBA79003—1990改为CH/T4013--1999)、藏语(德格话)地名汉字译音规则(CH4001--1991)、黎语地名汉字译音规则(CH4002--1991)、凉山彝语地名汉字译音规则(CH4003--1993)、德宏傣语地名汉字译音规则(CH4006--1998)、西双版纳傣语地名汉字译音规则(改为CH4014--1999)。此外还有一些标准也涉及到了少数民族语地名标准问题,如《中华人民共和国国家地图及英文版地名拼写规则》,就规定了汉语、少数民族语地名的拼写规则等。这些地名标准极大地提高了我国少数民族语地名标准化水平,促进了我国民族语地名的规范化。国家语委2004年发布的《民族语言文字规范标准建设与信息化课题指南》中,对少数民族人名、地名汉字音译和拉丁化转写、术语规范等给予了重点资助,资助项目包括《少数民族人名拉丁字母转写规范》、《少数民族人名汉字音译转写规范》、《少数民族地名拉丁字母转写规范》、《民族语术语6标准化工作的一般原则和方法》、《民族语术语缩略语书写的一般原则与方法》。其中《少数民族人名汉字音译转写规范》涉及到维吾尔、哈萨克、藏、蒙古、彝、傣等族的人名规范。从资助项目看,少数民族语术语标准呈现出两个倾向,一是注重一般原则与方法的规范标准建设,仅在宏观层面上为各种具体语言标准的制定提供指导;二是注意与以前规范标准的互补和衔接,过去大多是地名标准,这一次主要是人名、教材术语以及其他术语的标准建设。这些标准研制出来后,我国少数民族语的术语标准将形成了一个相对完整的体系。在长期实践和大量工作的基础上,一些民族语还发布了地方标准或具有地方标准性质的规定,以促进规范化和标准化建设,如蒙古语相继发布《关于蒙古语语文标点符号的规定》、《关于试行蒙古语文缩写和略写法的通知》、《确立蒙古语术语标准化工作的一般原则与方法》、《确立蒙古语辞书编纂的一般原则与方法》、《确立蒙古语缩略语书写的一般原则与方法》等;维吾尔语发布了《维吾尔人名汉字音译转写规则》;朝鲜语审核制定了《朝鲜语规范原则》、《汉朝自然科学名词术语统一案》、《朝鲜语术语数据库的一般原则与方法》和《朝鲜语术语标准化工作原则与方法》等。此外还有一些通用标准也涉及到了少数民族语标准化,如《中国各民族名称的罗马字母拼写法和代码》、《中华人民共和国国家地图及英文版地名拼写规则》,这些地名标准极7大地提高了我国少数民族语地名标准化水平,促进了我国民族语地名的规范化。《中国人名汉语拼音字母拼写法》也规定了少数民族人名的汉语字母拼音写法等。(二)面向信息处理的少数民族语文标准我国民族文字编码标准的研制始于20世纪80年代,迄今已有多种传统通用民族文字编码字符集、字型、键盘国际标准、国家标准和地方标准。1987年,原国家技术监督局发布了内蒙古民语委、内蒙古计算中心等单位联合制定的《信息处理交换用蒙古文七位和八位编码图形字符集》(GB8045-87),这是我国第一个民族文字编码标准。此后又制定了《信息处理交换用蒙古文字符集键盘字母区的布局》(GB8046-87)、《信息交换用蒙古文16×12、16×8、16×4点阵字模集》(GB7422.1-87)、《信息交换用蒙古文16×12、16×8、16×4点阵数据集》(GB7422.2-87)、《信息处理用蒙古文24点阵字模集及数据集》(GB12051-89)等标准,这些成果在当时的技术和设备环境下,为研发、应用工作做出了突出的贡献,先后获得了省部级科技进步奖。1994年我国开始制定ISO/IEO10646多文种平面上的蒙古文国际编码标准。经过专家多次论证,提出了一套以蒙古文字母为基础的《蒙文编码方案》,包括蒙古文、托忒蒙古文、满文、锡伯文统一的编码方案。这套方案2000年得到了国际标准化组织的通过和Unix技术委员会的认可。2003年发布的Unix4.0中收入8蒙古文、托忒蒙古文、满文名义字符和控制符号155个,编码空间为U1800-18AF。此外《蒙古文拉丁转写方案》国际标准也正在研制之中。2006年6月,全国信息技术标准化委员会成立了蒙古文信息技术国家标准工作组,标志着我国蒙古文信息技术国家标准的制定有了自己的平台。维、哈、柯三种文字都是以阿拉伯文为基础的拼音文字,大部分字母是共同的,所以在计算机处理这些文字时大都统一做在一个系统上,使系统具有同时处理这三种文字的功能。1989年,原国家技术监督局发布了新疆大学和新疆语委牵头制订的国家标准《信息处理-信息交换用维吾尔文编码图形字符集》(GB12050-1989)。20世纪90年代初,新疆民语委牵头组织有关单位的专家起草和制定了计算机信息处理维、哈、柯、锡伯等文种的三项国家标准,成为各类相关民文软件开发共同遵循的标准。2005年4月,新疆质量技术监督局、区信息化办公室发布了《信息交换用维吾尔文、哈萨克文、柯尔克孜文编码字符集、基本集与扩展集》、《信息交换用维吾尔文、哈萨克文、柯尔克孜文字体字形》、《信息交换用维吾尔文界面信息常用术语》3项地方标准。这三项标准的发布对解决维、哈、柯文计算机编码不全、字体字型标准不一致、不统一,界面术语翻译不准确、不规范,软件之间互不兼容、互不支持等问题起到很大的作用,还将有效地解决当前新疆民族语文信息处理技术应用、推广、发展及实9现产业化的问题。1989年原国家技术监督局发布了延边电子信息中心起草的《信息交换用朝鲜文字编码字符集》(GB12052-1989)国家标准,共收入朝鲜文字符5300个。为实现朝鲜语信息处理国际化目标,该中心积极同朝鲜的计算机中心、韩国国语信息学会、延边朝鲜语研究所联合,完成了三国通用的《国际标准信息技术用语词典(1-25)》编译工作。现已在朝鲜语字母排序、键盘排序安排等方面取得了突破性进展。1991年,原国家技术监督局发布了四川省民委、民语委组织西南民族学院等单位根据规范彝文研制的《信息交换用彝文编码字符集》(GB1314-1991)、《信息交换用彝文15×16点阵字模集及数据集》(GB13135-1991)两个国家标准。1995年又发布了《信息交换用彝文24×24点阵字模集及数据集》标准。1993年,四川省民委、民语委和西南民族大学完成了《通用多八位彝文编码字符集》国际标准方案,并向国际标准化组织提交了关于将彝文编码到ISO/IEC10646的提案,经过六年的积极争取,1997年第33次ISO/IECJTCI/SC2/WG2会议决定接受中国彝文方案中的1165个彝文字符和57个彝文部首的

1 / 25
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功