大陆中文数字化工作进展

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大陆中文数字化工作进展中文数字化论坛2004-02-23•香港大陆中文数字化工作进展在中文数字化领域进行一系列研究、开发和标准化工作•各种政府项目的资助、支持•经济发展的推动•相关研究机构和企业的共同努力技术及应用标准两岸四地“中文域名协调会”成立•统一两岸四地的中文技术标准不论以简体还是繁体键入的中文域名,均可以访问到两岸四地相对应的网站•大大方便了两岸四地用户使用互联网《中国语言通用音标符号集》已经制定完成•即将提交ISO/IECJTC1/WG2讨论大型数字化应用工程公安部“第二代居民身份证工作已经启动•带有IC芯片存储持证人的姓名、住址、年龄等数字化信息初步确定在IC卡中采用GB13000-2003=ISO/IEC10646-2003•系统开发与发证工作正在紧张进行•几个试点城市将在今年上半年开始换发“二代居民身份证”试点城市已经开始受理“二代证”的申请北京市也将发行带有IC芯片的“市民卡”出版界数字化建设蓬勃发展新闻出版总署组织“出版用汉字大字符集”科研项目上海世纪出版集团主持开发“辞书编纂平台”商务印书馆的“辞书语料库及编纂系统”已初具规模中华书局的“中华古籍语料库”也已经起步中国大百科全书出版社正进行“中国百科术语数据库三期工程——跨介质出版制作发布系统及学术著作网络出版发布系统”的开发建设出版界数字化建设蓬勃发展(续)相继开展或正在酝酿一系列古籍数字化项目•中国基本古籍光盘库•清史•地方志•历代石刻史料汇编•儒藏四川辞书出版社正在进行《汉语大字典》新版的编撰、出版工作•在编纂方式上,电子化水平大大提升数字图书馆建设深入发展迈过了基于扫描图像的初级阶段•国家图书馆一方面在进行数字馆系统的建设另一方面开展数字图书馆的内容建设,将大批馆藏图书数字化•北京市在“数字北京”工程中将进行数字图书馆、数字博物馆等项目大量馆藏珍品、孤本善本将被数字化通过数字图书馆、数字博物馆向公众开放数字图书馆建设深入发展(续)基于Unicode/XML/DublinCore的示范性、探索性、专题性数字图书馆初具规模、正在完善、扩充•两岸四地《孙中山数字图书馆》•山东省馆《齐鲁文化数字图书馆》•文化部民间民族文艺资源数据库•北京大学北京历史地理数字资料库(香港大学合作)•中医研究院中医资源数字化资料库数字化工具得到应用一些公司相继推出数字化工具•北大方正的“Apabi”•书同文的“数码翰林”•清华同方的“TPi”,等等在电子出版、数字图书馆领域得到应用汉语基础资源库建设针对现代汉语,建立了基于XML语言的统一语料标注体系和中文信息处理基础资源库•863项目资助北京大学、清华大学、国家语委语用所和中科院软件所•加工程度由浅入深,标注颗粒度由粗到细基于互联网的超大规模动态语言资料库超大规模通用平衡语料库大规模汉英平行语料库大规模汉语基本标注语料库汉语概念词典和义项标注语料库汉语句法树库,等等汉语基础资源库建设(续)许多高校和科研机构也各自开发了一批内容各异、加工标注程度不同的汉语语料库建立了“中文语料库联盟CLDC(ChineseLinguisticDataConsortium)”•973项目的资助•旨在语料库资源共享计算语言学研究十分活跃相关的学术会议较多突破性的成果不多•从事计算语言学研究的主要是计算机软件技术及相关领域的研究人员•与语言学家结合不够紧密少数民族语言文字数字化有很大进展少数民族语言文字处理技术研发受到政府的重视•国家科技计划对少数民族语言文字信息处理技术予以重点资助863计划(科技部)中小企业基金(科技部)电子发展基金(信息产业部),等等•正在制定国际标准框架下的藏文大字符集编码国家标准和字形国家标准•八思巴文字符集国际标准已完成提案•西双版纳傣文编码字符集国际标准已经完成提交ISO/IECJTC1/WG2表决•新疆维吾尔自治区政府启动《维哈克文标准化》项目对已经收入的ISO/IEC10646.1:2000中的阿拉伯文字符定义与维吾尔、哈萨克、柯尔克孜文字符的对应关系,提出希望在ISO/IEC10646.1:2000增补8个维、哈、柯文名义字符•用于维哈克多语种处理•蒙文、彝文、傣文、藏文基于ISO/IEC10646的应用开发都有不同程度的进展谢谢各位

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功