1基于多层次信息的连续手写中文的自适应分割方法AdaptiveCharacterExtractionfromContinuousHandwritingChineseTextBasedonMultilevelConstrains张习文,高秀娟,戴国忠ZhangXiwen,GaoXiujuan,DaiGuozhong中国科学院软件研究所,人机交互技术与智能信息处理实验室,北京,100080LaboratoryofHuman-ComputerInteractionandIntelligentInformationProcessing,InstituteofSoftware,theChineseAcademyofSciences,Beijing100080摘要:单字提取是连续手写中文识别的前提。本文给出了一种基于多层次信息的自适应单字提取方法。以候选单字个数与字宽度方差之比为处理满意度。以行笔划为处理单元,先根据候选单字最小包围矩形的水平间距构建多层次树表示,然后对最满意层中的每个候选单字进行多层次分析和自适应处理。如果候选单字的宽度大于或小于字宽度的较大值或较小值,则遍历其下层子节点或上层父节点,进行候选单字的分裂或合并,选择提高满意度的候选单字,同时更新字宽度阈值。测试结果表明该方法对连续手写中文具有较好的分割效果。AbstractItisprerequisitetoextractcharacterfromthecontinuoushandwritingChinesetextforitsrecognition.ThepaperproposesanovelapproachtoadaptivelyextractingcharacterfromthecontinuoushandwritingChinesetextbasedonmultilevelconstrains.Itaimstoextractmorecharacterswithsmallercharacterwidthstandarddeviation.Thesegmentationisfeedintostrokesbyline.Atreeisconstructedtorepresentthemultilevelcombinationofalineofstrokesaccordingtogapsbetweenstrokesorcandidatecharacters.Thecandidatecharacterssharedthesamelevel,withthemostsatisfactorycandidatecharacters,arerefinedtobemergedorsplitunderconstrainsofcandidatecharactersoftheirlowerlevelsorupperlevelsinthestroketree.Ifonecandidatecharacter’swidthexceedsorislessthanthebiggercharacterwidththresholdorthesmallerone,thecandidatecharacterwillbesplitormerged.Thecandidatecharactersareidentifiedasthecorrectonesiftheyincreasethesatisfactionofthesegmentationresult.Thecharacterwidththresholdsareupdatedtogetherwithcharacterextraction.ManyapplicationsshowthattheapproachiseffectiveandrobustforcharacterextractionfromcontinuoushandwritingChinesetext.关键词:连续手写中文,单字提取,树表示KeywordscontinuoushandwritingChinesetext,characterextraction,treerepresentation中图法分类号:TP391作者简介:张习文,生于1971年,男,辽宁大连人,副研究员,主要研究方向为连续手写中文处理、多通道融合、模式识别等。通讯地址:北京市海淀区中关村南四街四号,中科院软件所人机交互技术与智能信息处理实验室4号楼305室邮编:100080联系电话:010-62540434E-mail:zxw@iel_mail.iscas.ac.cn高秀娟,生于1977年,女,河北遵化人,实习研究员,主要研究方向为笔交互、模式识别、人工智能2等。戴国忠,生于1944年,男,江苏无锡人,研究员,博士生导师,主要研究领域为人机交互技术,计算机图形学等。1引言就文本输入计算机而言,手写输入比键盘输入更符合人的纸笔写作习惯,更能保证自然、流畅的连续书写方式。电子笔等手写设备日趋成熟[1],已经积累了大量亟待识别的手写字符。单字提取是连续手写中文识别不可逾越的必要前提。根据错误提取的单字并不能够获得正确的单字识别结果。单字识别错误可以通过识别结果上下文处理[2,3]得以自动校正,却无法修正单字提取错误。因此,为了获得更好的连续手写中文识别,单字提取必须具有很高的正确率。汉字可以分解为偏旁部首,而偏旁部首又可以分解为笔划。在构成偏旁部首时,笔划具有多种组成关系,例如,孤立关系,交叉关系,相交关系,相连关系等。在构成汉字时,偏旁部首也有多种组成关系,例如,上下关系,上中下关系,左右关系,左中右关系,半包围关系,全包围关系等。在手写汉字中,笔划、偏旁部首存在一定的随意性,字宽度和字间距都会有所变化,单字的笔划、偏旁部首可能离得较远,而邻接汉字则可能离得较近。中文不仅包括复杂的汉字,还包括标点、符号、数字、字母、单词等。这些都给手写中文分割带来了很大困难。现有单字提取方法对笔划多层次信息的利用还远远不够,使得处理结果难尽人意。一行笔划在字宽度、字间距上分别具有较高的一致性。因此,本文以行笔划为处理单元。行笔划可以根据候选单字间距构建多层次的树表示,单字提取与同层邻接候选单字、上下层相关候选单字都有关联。笔划树为单字提取提供了多层次信息。因而,针对连续手写中文分割,本文提出了一种基于多层次信息的自适应单字提取方法。2相关工作回顾连续手写中文是由手写笔划组成的。一个手写笔划可能包含多个汉字笔划。手写笔划是指手写笔从落下到抬起所记录的点坐标和其它信息。同汉字相比,标点、符号、数字、字母包含很少的笔划,结构简单。日文、朝鲜文虽然与汉字有较多相似之处,都是多笔划结构,但数量较少,结构较简单。根据利用的信息,现有单字提取方法(包括汉字、日文、朝鲜文、单词、字母、数字等)可以分为三种:(1)基于候选单字间距的方法C.Hong等[4]先采用若干字间距阈值进行连续手写中文分割,获得多个分割结果,然后根据字间距方差从中选取最佳两组结果,在不提高字间距方差的前提下,合并邻近的候选单字,分裂较宽的候选单字,最后利用识别结果提取单字。候选单字间距是最小包围矩形的水平距离。LinYuTseng等[5]也采用了最小包围矩形计算字间距,先根据汉字结构知识初步合并笔划,最后利用动态规划方法进一步合并候选单字。该方法能够处理多数情况下的重叠、粘连单字,但有时难以正确提取偏旁部首距离较远的单字、离得较近的邻接单字。赵宇明等[6]也采用了最小包围矩形计算字间距,根据汉字笔划的结构知识逐步合并笔划,从而提取单个汉字。该方法也可以部分地解决粘连汉字的单字提取问题。后两种方法设置了较多经验阈值,例如,字宽度阈值,两个最小包围矩形重叠部分与较小最小包围矩形面积之比的阈值,因而自适应性较低。(2)基于候选单字时间间隔和空间距离融合信息的方法PatrickChiu等[7]为构建多行笔划的多层次树表示提出了笔划距离,它融合了笔划的时间间隔和空间距离(包括x、y两个方向的距离)。该方法逐步合并距离最近的候选单字,形成树的不同层。该文处理日文和数字,只是给出了笔划的树表示,却没有涉及如何从中自动提取单字(数字、日文)。(3)基于识别结果的方法C.Hong等[4]先根据候选单字间距提取单字,然后再加上候选单字识别结果构建候选单字网格,最后根据候选单字识别得分、语言模型得分从候选单字网格中搜索最佳路径,获取单字提取结果。该文并没有给出语言模型得分计算方法和候选单字搜索方法。3上述第三种方法在单字提取中引入了候选单字识别结果信息,利用了候选单字识别得分和语言模型得分,而这要求识别器、语言模型具有很高的性能,单字识别错误、句子理解误差都会造成单字提取错误。该方法虽然利用了多个层次信息进行单字提取,但并不充分,只是构建了五个层次,对自适应性考虑得也较少。其余方法只是利用了单层次信息进行单字提取。由于汉字结构的复杂性、中文手写的随意性,仅根据单层次信息难以判定单字提取结果的正误,还必须综合多层次信息。因此,本文提出了基于多层次信息的自适应单字提取方法。在单字提取中,将行笔划构建为多层次树表示,单字提取不仅与同层邻接候选单字有关,而且与上下层相关候选单字也有关,从而较大地提高了单字提取的正确率。3基于候选单字间距构建行笔划的多层次树表示时间上较近的笔划在空间上也较近。而空间上较近的笔划在时间上不一定较近。单字是要求其笔划在空间上较近的,而不必是时间上较近。但笔划空间较近则隐含了时间较近。因此,本文只利用候选单字空间间距进行单字提取。如果某个笔划与下一个笔划的水平间距很大,接近于已有笔划的宽度,则该笔划为当前行的最后一个笔划,从而可以提取该行笔划。构建行笔划树表示是根据候选单字间距进行的。根据单字的空间表示方法,单字(笔划)间距计算方法可以分为4种[8]:(1)单字最小包围矩形之间的水平距离RDH,(2)单字凸包之间的距离CHD,(3)单字笔划之间的水平距离strDH,(4)单字笔划之间的距离strD。本文根据候选单字最小包围矩形的水平间距构建行笔划的树表示,该间距具有较好的单字提取效果,3.2节给出了选择依据。3.1构建行笔划的树表示笔划树的初始层是由笔划构成的,是树的叶子节点。笔划树是自下而上构建的。笔划树的新一层是根据最高层的最小字间距minG构建的。合并字间距不大于minG的邻接候选单字,生成笔划树的新节点,形成笔划树的新一层。重复上述过程,直到最高层只有一个候选单字为止。该算法的具体步骤如下所示。步骤1.每个笔划作为一个候选单字,构建笔划树的初始层。步骤2.如果笔划树最高层只有一个候选单字,则转到步骤7。步骤3.计算笔划树最高层的最小字间距minG。步骤4.取出笔划树最高层的候选单字i,以候选单字i生成笔划树节点iN,iN的层索引为笔划树的总层数。步骤5.While(1iN与iN的字间距不大于minG){1iN合并进iN,增加iN的子节点索引,并设定该子节点的父节点索引。i=i+1。}步骤6.返回步骤3。步骤7.结束行笔划树表示的构建。图1.a为一行连续手写中文,包括汉字、标点。图1.b为该行笔划的多层次树表示。a一行连续手写中文4b行笔划的多层次树表示c单字提取过程d待分裂子节点及其重组结果e单字提取结果图1基于笔划树的单字提取行笔划树包含了不同字间距的候选单字提取结果,也包含了邻接层候选单字之间的关联。根据笔划树可以进行自下而上的层次关联,获得从笔划、偏旁部首到候选单字的合并;反之,也可以进行自上而下的层次关联,获得从候选单字到偏旁部首、笔划的拆分。3.2字间距计算方法的选择字间距计算方法直接影响单字提取的质量和速度。如果笔划树中不存在正确的单字,则仅依靠树遍历是不能提取正确的单字。字间距计算方法决定了笔划树的候选单字总数tN和正确单字数cN,相同的正确单字计为一个。如果笔划树具有较少的候选单字和较多的正确单字,则表明所采用的字间距计算方法具有较好的性能。因而,字间距计算方法优先级tcNNP/。大量实验数据表明单字最小包围矩形水平距离的字间距计算方法能够为本文所提出的