甲骨文缀合

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

甲骨文字形动态描述库及其字形生成技术研究2012.11.4安阳师范学院栗青生甲骨文数字化工作简介甲骨文缀合——图像处理(中美联合智能信息处理实验室)甲骨文编码——字形描述库(数字化甲骨文工程技术研究中心)甲骨文考释——图文资料库(中文信息处理实验室)甲骨文数字化工作简介主要内容1、甲骨文数字化问题2、甲骨文字形动态描述库3、字形生成技术4、应用展望1、甲骨文数字化问题甲骨文数字化问题•多年来,在甲骨文数字化过程中,一直存在两个难以解决的问题:一是甲骨文难以定形,即甲骨文不像现代汉字,很难确定每一个甲骨文字的字形结构和类型;二是甲骨文字难以输入计算机。•由于过度“规范化”,其中很多字形已经脱离了原始字形所表达的意义,有的还存在着部件结构和位置的错误2、甲骨文字形动态描述库例如:甲骨文合集中的第29529和27667片,如果不利用拼合区的两个残字来缀合,很难说明这两片原来是在一起的。举例3、利用汉字字形描述库进行残字缀合和识别字形描述库的由来•源于对我国古代文化的深入研究。三千多年前,商朝人就知道借助动物的骨头(龟甲)来计算(占卜)未来,到了周朝,演绎出了举世闻名的“易经”。•龟甲本身不能计算未来,但通过人工在甲骨上进行凿洞和灼烧的方法使龟甲产生不同的纹理,可以判断未来的天气状况,我外星人的数学悖论惊人相似。•数学悖论:悖论的故事说,外星人可以只在铁棍上划一道痕,就可以记录全人类的知识信息——怎么做到的呢?理论上可以用【无理数】来进行无限的数据存储。划痕的长度比例是一个无理数:0.21873619876538173591873561835……由于无理数的小数点后数位容量是无限的,故可以用于编码存储无限量的信息。关于字形描述库•字形描述库是根据文字计算的需求,按照文字的表征特性,对文字特征进行可行性编辑和编码后形成的新的数据表,从而依据新的数据表对字形进行一系列计算的过程。•目前,我们已经建立了甲骨文字形动态描述库、小篆字形动态描述库和部分现代汉字的动态描述库和汉字字库的区别(以甲骨文为例)甲骨文拓片字库制作系统字库编码方案字形采集轮廓提取字形编辑字模生成文字编码字形输入甲骨文拓片特征提取算法字形采集骨架抽取DDLJCR字库特征库字形生成•字库的形成及使用•字形描述库的形成及使用甲骨文字形动态描述库•是我们最早建立的动态描述库使用这一描述库我们开发了甲骨文图文编辑系统,开发了甲骨文特征输入方法,并生成了刀体甲骨文,软件笔体甲骨文和曲线体甲骨文等数十种字形,三体甲骨文三体甲骨文•刀体•软笔体•曲线体甲骨文字形描述库的建立汉字字形描述库的建立规则:(1)汉字描述库由汉字向量组成。(2)库中的每一个字向量由点集和关系组成,其中:字、点集和关系的表达式是:字:=P(i),Q其中:P(i)表示特征点元向量集,汉字笔画的起始、交叉、拐点等都可以成为特征点元向量Q表示特征点元向量集之间的关系,特征点关系有两种,一是包含(B),二是连接(J)。笔段:当且仅当P(i)非空,且特征点元向量之间是包含关系.笔元:当且仅当P(i)非空,且特征点元向量之间是连接关系。特别地,i=2时笔元是特殊笔元,称孤立笔元。举例如图所示的前两个笔元•第一个笔元:特征点元向量集为{p1,p2,p3,p4,p5,B},有四个笔段。•第二个笔元:特征点元向量集为{p6,p7,p8,p9,p10,B}有四个笔段。•……P1P2P3P4P5P6P7P8P9P10笔元的逆向工程——笔画的再生•由笔画抽象成笔元从而生成的字形描述库,在应用过程中可以通过笔画的再生动态生成汉字库、错字库和其它字形库。•甲骨文笔元的再生过程示意图4、应用展望使用字形描述库对甲骨文字进行建模从而实现甲骨文字形的缀合字形动态描述残字特征分析、特征匹配、分类、识别输出残字字形建模系统应用一:甲骨文字形查询系统输入残字的特征值查找相似甲骨文,进而查询对应甲骨文拓片。错字的动态生成和建模•由笔画抽象成笔元从而生成的字形描述库,在应用过程中可以根据需要动态生成汉字库、错字库和其它字形库。应用三:文字缀合游戏谢谢!请各位专家提出宝贵意见

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功