古文字的字形整理 及其编码的原则

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

古文字的字形整理及其编码的原则王宁北京师范大学民俗典籍文字研究中心古文字进入计算机的必要性•80年代以来中国内地大量出土的文字,一部分已经进入今文字阶段,另一部分属于古文字。这一部分古4文字由于是考古发掘的成果,历史时代确定,无需辨伪,充实了从宋代就开始搜集的金石文字,掀起了世界性的中国古文字热。•新出土的古文字,不仅使汉字史的研究发生了很大的变化,也不仅对人类学、历史学、文化学、古地理学、历史语言学……起了新的推动作用,而且由于这部分文字所具有的十分典型的表意文字特点,以及所含有的文化内涵,被不断引进文化教育领域,迅速走向普及,成为世界各国了解中国文化的一个重要窗口,因此,已经在印刷品和影视传媒中频频出现。我们统计了2000年国内的8种重要的报纸和在国际上销量排前10位的普及刊物,其中的文章已经采用或需要采用古文字原形的地方有561处,涉及334个字形。•古文字进入计算机已经势在必行,科学整理字形,解决编码问题,是古文字信息处理的前提。古文字字形整理与编码对信息处理的重要作用由于造字技术的发展,已经有不少单位创建了某种字体的古文字原形字库。拥有古文字字库后,遇到的最大难题是如何将需要的字形及时找到,以便提供给其他专业领域和普及层面在创建文本时任意调用。现有的GB13000.1字符集不可能与已经出土的古文字一一对应,即将出台的超大字符集仍然不够与各种形制和各时代的古文字对应。古文字的调出只有依靠自己的编码,要想作好编码,字形的整理必须先行。新出土的古文字加上原有的古文字,有些已经编成字表形式或加上解释编成诂林形式,但是,它们的字形整理还不能符合信息处理的需要。更达不到国际化的要求。古文字不能作为某种字体与现代汉字对应职能与现代汉字不对应辖——暴爆曝蟯——景影闲——窒钟——化——(变)化、(教)化不同形•形体与现代汉字不对应癝眤堡狈辫•字样繁多难以穷尽“酉”在甲文中的字样约有24种•未识字只有字形而无音义古文字字库的两种类型•古文字字库可以有两种类型:(1)指称型古文字字库。这种字库的功用,是在创建某些文本时,出于讲述或引用的需要,在行文中提到某个或某几个古文字时,能够把这些个古文字插到文本里去。(2)全原形古文字字库。这种字库的最高要求是要在计算机里再现一切现有的古文字实用文本中的字样。后一种要以前一种为基础。•创建一种指称型历史字体的字库,要求字形准和全,一般采用从古文字实用文本中选择字形,即使重新写字模,也要以选择好的字形为依据。字形选择必须整理文本用字。古文字字形整理和编码的单位•字系:同时代、同形制全部的字符群•字组:同一字系中记词职能相同(音义相同)的多个字形的群体•字种:记词职能相同、结构(构意)相同的多个字形的群体。同一字组中不同的字种互为异构字•字样:同一字种中仅仅写法不同的个体。同一字种中不同的字样互为异写字指称型古文字字库搜集字种,全原形古文字字库搜集字样。古文字编码应当以字种为单位为编码进行的古文字字形整理古文字字形整理的主要任务是认同与优选:•分别已识字与未识字•对已识字的职能认同(类聚字组),在同一字组的字种在排序时应当邻近,并优选领字字种,置于前列,作为本组字的信息代称•对字种的形体认同(类聚字样),优选主形,作为本字种的信息代称,同一字样应视为一个字,坚持同码•指称型古文字字库只保留主形字样,全原形古文字字库字组中的其他字样与主形认同。“酉”的甲骨文异形字样一般应选择上面列举字形的6或7作主形“齿”的甲骨文异形字样齒:一般应选择上面列举字形的8作主形隹:“隹”的甲骨文异形字样一般应选择上面列举字形的8作主形字种的划分以甲骨文为例,在字组中选择的字种数:一1元3天4史2上2帝6旁3下2示3福6祭3祀4古文字编码的有利条件•古文字字库的作用有两个层面:第一,给专业人员研究和贮存文字使用;第二,供普及领域指称。后者用量不大,可以单独处理。主要考虑专业人员使用,编码在易学性上可以放宽。•他不需要通篇连续采用来创建长篇文本,在快速性上可以放宽;因而在码长(码元可以多一些)的设计上可以不必过于拘泥。•古文字信息量大、形体的参照系多,为其设计形码的区别因素多于现代汉字。古文字编码可使用的区别因素•已识字与未识字首先分开。后者无法设置音码,应考虑基础部件的作用。•基础构件中成字构件可以采用读音(一般与《说文》小篆认同来确定);非字构件只能利用线条类型。例如:小篆可分:横、竖、左斜、右斜、弧、曲、折、封八类。•小篆结构图式共146种,再次归纳为基本图式12种,可以套用。•重码率:甲骨文经过处理可降低到1.9,但每码带动字样数平均7.4个,最多39个。古文字字形部件的拆分与归纳•已识字的拆分和归纳均采用依理操作•未识字的拆分和归纳均采用依形操作•甲骨文已识字基础部件拆分归纳为基础构件后,能覆盖未识字构件的89·43%古文字编码的难点•甲骨文包括未识字只有三千多个,字量更大的字系重码率及带字的字数都会增加,需要再做一定的技术处理。•编码是依字系分层面编制的,各层面各体制的字系最好进行历时认同,不要各行其是,但是,这一点做起来难题很多,目前只能采用分别编码。•古文字字库的排序一般采用与《说文》小篆一致,利用《说文》部首,其实削足适屦,需要考虑新的、科学的、易于操作的排序原则。谢谢!

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功