第11讲印刷体汉字的分类和识别

guyu82
5 ℃
2015-12-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第8讲印刷体汉字的分类和识别要点:印刷体汉字的分类印刷体汉字的识别课堂练习课后练习印刷体汉字的分类印刷体汉字分类的必要性印刷体汉字分类的基本要求印刷体汉字分类举例印刷体汉字分类的方法返回印刷体汉字分类的必要性由于汉字数量大，如果不对汉字分类而直接识别，一方面识别效果不会好，另一方面计算量往往会很大。汉字识别通常都要对汉字做一级或多级分类，然后再细分判别，从而大大提高识别效率。返回印刷体汉字分类的基本要求粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类，然后再细分。粗分类的正确与否会影响到后面的识别。粗分类的速度要快。这要求分类的算法简单，同时要求分在各个类别中的汉字的数目比较平均，从而提高分类的效率。返回印刷体汉字分类举例在下图中，“3”所代表的文字不仅在类别A中，也可能同时在类别C中。在细分判别A和C类中的文字时应同时考虑“3”所代表的文字。返回印刷体汉字分类的方法采用复合特征的分类多级分类返回采用复合特征的分类选用N种具有互补特征作为类特征在学习阶段，对训练样本进行N次互不相关的分类，然后组合N次分类结果，完成特征空间的划分。分类时，根据待分字的特征进行N次分类，组合分类结果求得子类。返回多级分类学习阶段，对训练样本进行多级分类，每一级分类是在上级分类基础上进行的；分类时重复上述多级分类过程。树分类是一种典型的多级分类，具有效率高的特点，但是汉字字数多会造成分类树结构庞大，使得分类不够稳定。返回印刷体汉字的识别在选取特征之后，需要选择或寻找适当的判别准则来判断待识字的特征与哪一个类别的特征最近。常用准则有两类：（1）基于距离的识别准则（2）基于相似度的识别准则返回基于距离的识别准则距离的数学定义常用距离距离计算举例:例1，例2返回距离的数学定义距离是满足如下三条公理的二元函数：（1）非负性：d(x,y)0，当且仅当y=x时，等号成立;（2）对称性：d(x,y)=d(y,x)；（3）三角不等式：d(x,y)d(x,z)+d(z,y)返回常用距离曼哈顿街区距离,欧氏距离切比雪夫(Chebychev)距离s阶闵可夫斯基（Minkowski）距离马氏(Mahalanobis)距离,Camberra距离编辑距离和演化距离返回曼哈顿街区距离又称为分量绝对值求和距离。返回Niiiyxd1),(yx欧氏距离返回2121),(Niiiyxdyx切比雪夫(Chebychev)距离又称为分量绝对值最大距离。返回iiiyxdmax),(yxs阶闵可夫斯基距离（Minkowski）距离。返回ssNiiiyxd11),(yx马氏(Mahalanobis)距离是一个正定矩阵。返回211)]()[(),(yxyxyxTdCamberra距离返回)00,,(,),(1iiiiNiiiiiyxyxyxyxdyx编辑距离和演化距离通过“替换”、“删除”和“插入”三种操作，把字符串a=a1a2…am变成b=b1b2…bn所需的最小操作次数，称为a和b的编辑距离。由于“替换”、“删除”和“插入”可以解释为基因序列的三种演化操作，因此编辑距离又称为演化距离。返回编辑距离Ed的计算方法a=a1a2…am,b=b1b2…bn返回xi=a1a2…ai,yj=b1b2…bj“-”表示删除或插入,Ed(a,b)=Ed(xm,yn)bababadadyxEdbdyxEdbadyxEdyxEdijijjijijiji,0,1),(,),(),(),(),(),(),(min),(1111iyxEdjyxEdij),(,),(00距离计算举例计算下面“汉”和“字”点阵之间的几种距离距离计算结果曼哈顿街区距离=70欧氏距离=8.3666切比雪夫距离=1s阶闵可夫斯基距离=Camberra距离=70返回70s70距离计算举例计算下面序列之间的编辑距离:ab和acacb和abac和abcabcc和cbaa距离计算结果ab和ac的编辑距离=1acb和ab的编辑距离=1ac和abc的编辑距离=1abcc和cbaa的编辑距离=3返回基于相似度的识别准则相似度的数学定义常用相似度相似度计算举例返回相似度的数学定义相似度是满足如下三个条件的二元函数：1.非负性：2.自大性：3.对称性：返回0),(yx),(),(yxxx),(),(xyyx常用相似度距离相似度，角度相似系数相关系数，指数相似系数非负特征相似度，二值特征相似度返回距离相似度f是单调减函数。返回))((),(12niiiyxfyx角度相似系数返回yyxxyxyxyxyxyxTTTT)(),cos(),(相关系数返回)]())(()[()()(),(yyyyxxxxyyxxyxTTT指数相似系数返回])(43exp[1),(122niiiiyxnyx非负特征相似度返回iiiiiiyxyxyx),max(),min(),(iiiiiiyxyxyx)(21),min(),(iiiiiiyxyxyx),min(),(二值特征相似度二值特征向量的分量只能取值0或1。二值特征分量有四种基本匹配二值特征向量有四种匹配特征数二值特征向量有五种常用相似度返回四种基本匹配设二值特征向量x和y的第i个分量为xi和yi，如果xi=1且yi=1，则称xi和yi(1-1)匹配；如果xi=1且yi=0，则称xi和yi(1-0)匹配；如果xi=0且yi=1，则称xi和yi(0-1)匹配；如果xi=0且yi=0，则称xi和yi(0-0)匹配；返回四种匹配特征数(1-1)匹配特征数：(0-1)匹配特征数：(1-0)匹配特征数：(0-0)匹配特征数：所选特征总数n=a+b+c+e返回iiiyxaiiiyxb)1(iiiyxc)1(iiiyxe)1)(1(五种常用相似度Tanimoto系数Rao系数简单匹配系数Dice系数Kulzinsky系数返回Tanimoto系数表示二值特征向量x和y共同具有的特征总数和分别具有的特征种类总数之比。返回yxyyxxyxyxTTTTcbaa),(Rao系数表示二值特征向量x和y共同具有的特征总数和所选特征总数之比。返回necbaasTyxyx),(简单匹配系数表示二值特征向量x和y同时具有或不具有的特征总数和所选特征总数之比。返回neas),(yxDice系数返回yyxxyxyxTTTcbaa222),(Kulzinsky系数表示二值特征向量x和y共同具有的特征总数和单独具有的特征总数之比。返回yxyyxxyxyxTTTTcba2),(相似度计算举例计算“汉”和“字”点阵向量的角度相似性以及5种二值特征相似度。相似度计算结果角度相似系数=0.327165Tanimoto系数=0.195402Rao系数=0.066406简单匹配系数=0.726563Dice系数=0.326923Kulzinsky系数=0.242857返回课堂练习1.计算abc和cacbc之间的编辑距离；2.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之间的曼哈顿街区距离、切比雪夫距离和3阶闵可夫斯基距离；3.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角度相似系数。返回编辑距离的计算返回Ed(0,0)=0Ed(1,0)=1Ed(2,0)=2Ed(3,0)=3Ed(4,0)=4Ed(5,0)=5Ed(0,1)=1Ed(1,1)=1Ed(2,1)=1Ed(3,1)=2Ed(4,1)=3Ed(5,1)=4Ed(0,2)=2Ed(1,2)=2Ed(2,2)=2Ed(3,2)=2Ed(4,2)=2Ed(5,2)=3Ed(0,3)=3Ed(1,3)=2Ed(2,3)=3Ed(3,3)=2Ed(4,3)=3Ed(5,3)=2cacbccbacbacbcac课后练习编程计算任意两个序列之间的编辑距离，并针对下面两组序列：aaabbbcccdddeee，eeedddcccbbbaaaliyujian和个人姓名的小写汉语拼音(不含空格)在结果中给出所需的插入、删除及替换次数。有兴趣还可随机选择一些其他字符序列对程序性能进行测试和分析。返回