万罡周洞汝崔永毅傅华胜(武汉大学计算机信息学院,武汉#=!)摘要文章对三种文字分割算法,包括基于阈值的二值化算法、基于分裂/合并的算法和基于纹理的算法,进行了分析、实验与评价,最后提出一种边缘检测——投影——局部区域二值化的文字分割算法,并给出与前面一些算法的比较。关键词文字分割阈值分裂/合并边缘检测文章编号0!6##06(!#)!60#6#文献标识码?中图分类号@A#B0!#$%&’()*+,&-.(/&01)2!),/)’3.&’.’4.,.3+5.$)&63’73’,8(&’,-#9#.:&’,%.;##3=()’,(C)D’:,&)+,.EF.&DG,):*H-)+H),IG8’+J+-K):;-,L,IG8’+#=!)*=-3?:%+,8-;,8);-;,,8:))M-EE):)+,’5(.:-,8&.E,)N,;)(&)+,’,-.+,-+H5GM-+(,8:);8.5M6O’;)M’5(.:-,8&,;D5-,,-+(/&):(-+(O’;)M’5(.:-,8&’+M,)N,G:)O’;)M’5(.:-,8&,’:)’+’5LP)M’+M)K’5G)M,,8)+,,8)’G,8.:;O:-+(’+)EE-H-)+,,)N,;)(&)+,’,-.+’5(.:-,8&’;E.55.Q,E-:;,,’+)M()M),)H,-.+RD:.S)H,-.+O’;)M&),8.M-;G;)M,.(),,)N,:)(-.+;,;)H.+M,,)N,:)(-.+;’:);)(&)+,)MOL,8:);8.5M6O’;)M&),8.M$@)%A&-$=:@)N,;)(&)+,’,-.+,@8:);8.5M,*D5-,,-+(/&):(-+(,TM()M),)H,-.+文字分割的本质是图像分割(%&’()*)(&)+,’,-.+)。图像分割是计算机视觉领域中极为重要的内容之一,是实现自动图像分析时首先需要完成的操作。它是根据图像的某些特征或特征集合的相似性准则,对图像像素进行分组聚类,把图像平面划分为一系列“有意义”的区域,使其后的图像分析、识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。尽管对图像分割算法的研究已有几十年的历史,依据各种理论,至今已提出了上千种类型的分割算法,但是它们大都是针对具体问题的,目前还没有通用的分割理论和算法。下面将对三种文字分割算法,包括基于阈值的二值化算法、基于分裂/合并的算法和基于纹理的算法,进行分析、实验与评价,并提出一种边缘检测——投影——局部区域二值化的文字分割算法。有关,则所得的阈值是与坐标相关的(即动态阈值,前两种阈值对应可称为固定阈值)。以上对阈值分割方法的分类思想是通用的。近年来,许多取阈值分割方法借用了神经网络、模糊数学、遗传算法、信息论等工具,但这些方法仍可归纳到以上三种方法类型中。0$0阈值的灰度图像二值化在利用单阈值方法来分割灰度图像时一般都对图像有一定的假设。最常用的模型可描述如下:假设图像由具有单峰灰度分布的目标和背景组成,且目标和背景象素在灰度值上有很大的差别。对于这类图像,它们的灰度直方图基本上可看作是由分别对应目标和背景的两个单峰直方图混合而成,可以把双峰之间的谷点作为阈值!,对图象作以下二值化处理:’(#,$)3!0若%(#,$)!!(!若%(#,$)!0基于阈值的二值化算法在基于阈值的灰度图像分割算法中,确定阈值是关键。阈值一般可写成如下形式:对于某些新闻视频中的标题新闻、影视片名或演员表等它们的背景一般比较简单,可以采用单阈值分割方法。但是,大多数视频中的文字都有较复杂的背景,反映在其灰度直方图上!!1#,$,%(#,$),&(#,$)2(0)将出现多个峰谷,此时若采用单阈值的分割方法则无法将文字其中%(#,$)是在象素点(#,$)对处的灰度值,&(#,$)是该点邻域的某种局部性质。换句话说,!在一般情况下可以是(#,$),%(#,$)和&(#,$)的函数。借助式(0),可以将阈值分割方法分成如下三类:(0)如果仅根据%(#,$)来选取阈值,所得的阈值仅与各个图像象素的本身性质相关(即全局阈值);(!)如果阈值是根据%(#,$)和&(#,$)来选取的,所得的阈值就是与(局部)区域性质相关的(即局部阈值)。(#)如果阈值除根据%(#,$)和&(#,$)来选取外,还与(#,$)从背景中分离出来。为此,作者尝试采用多阈值方法将所有的峰都分离出来,如果灰度图像中的文字所占的象素的灰度值相近且与图像中其他目标的灰度值不同,则必然有一个被分离出来的峰对应于图像中的文字目标。基于局部阈值的二值化算法0$!基于局部阈值的方法通过定义考察点的领域,并由邻域计算模板来实现考察点灰度与邻域点的比较,较全局阈值方法有更广泛的应用。其中典型的局部比较方法有4’&)5678’.算法和9):+;)+算法等。与4’&)5678’.算法相比,9):+;)+算法的作者简介:万罡,男,0B=U年生,湖北荆州人,硕士研究生,主要研究方向:图形图像处理及多媒体技术。周洞汝,0B#B年生,教授,博士生导师,主要研究方向:图形图象视频压缩,V%*应用技术等。/$(!,)%$12!345+(!,),,*).36-+(!,),,*)9ABCD!视频压缩标准的低级(相当于EF或9ABCD/,#1!2!GG)。通过分析大量这种视频源中的字符(德文、英文等西欧字符)可以发现,它们的高度绝大多数在/H1像素之间,为了增强鲁棒性,可以将最小尺寸定为1个像素,最大尺寸定为I或J个像素。采用了尺寸限制的措施后,大块的非文字区域基本已经没有了,但仍然有一些小的区域无法去除。为了进一步去除这些非文字的小块区域,:46-+,;6+-&4,)和,4-=)?@+,采用了以下两种方法:(/)填充率(6KKL4M)’,)和宽高比(N6O)&D)’D&+6%&),4)6’)限制:对英文等西欧语言,填充率和宽高比都只能针对单词而不能针对单个字符。因为对单个字符而言,填充率和宽高比的差(#)&’(),*(’&’(),*(’(!)如果+(!,)-$(!,),则.(!,)7/,否则.(!,)7/另外,上海交大的叶芗芸等针对*+,-(+-算法的伪影现象还提出了一种改进措施,其基本思想是对阈值曲面进行光滑处理。然而,基于局部阈值的二值化算法同样只对简单背景之上的文字分割比较有效,往往用于扫描文档的二值化或车辆牌照识别中的字符分割。总之,对于复杂背景之上的文字分割,单纯采用阈值分割的方法是无法实现的。然而,实验中发现,仅对划定的某块文字区域采用基于阈值(特别是局部阈值)的二值化算法的效果还是比较好的。这是因为就文字所在的局部区域而言,其背景相对简单,文字与背景的差别较大,分割环境与车辆牌照识别中的字符分割相当。因此,作者提出这样一个思想:首先通过某种算法确定各行文字所在的区域,然后采用基于局部阈值的二值化算法对各个文字区域进行分割。相邻大区,就应计算几次/0,选择其中/0为最小者与1小区合并。别太大,如“F”、“K”与“N”、“3”等。因此,要采用这项过滤方法,必须首先确定单词(P’,O()所处的区域。由于每个单词的各个字符之间的间距比较小,可以设想,如果将单个字符的各个像素按照一定的半径加宽,每个单词的各个字符所占的区域会发生连接,从而形成一个区域,将区域划定在一个矩形中,则称为一个*K’M=。一旦*K’M=确定,填充率和宽高比限制的实现就比较简单了,主要的问题只是如何确定合适的填充率和宽高比。在:46-+,;6+-&4,)和,4-=)?@+,针对德文、英文的实验中,!基于分裂8合并算法的文字分割德国94--&+63大学的:46-+,;6+-&4,)和,4-=)?@+,基于分裂8合并算法实验对视频帧中的文字进行分割。出于处理上的方便和速度上的原因,他们首先将原始视频帧灰度化,如图/所示,然后采用分裂8合并算法对灰度图像进行分割处理。这里采用标准的分裂和合并准则,即:小区内各象元之最大灰度与最小灰度之差小于门限值$就合并,而一区内最大最小灰取:$#Q76KKL4M)’,Q7$JQN6O)&D)’D&+6%&),4)6’Q7I(!)对比度分析(E’-),4()4-4KR(6()::46-+,;6+-&4,)和,4-=)?@+,认为,通常视频帧中的后期文本与其背景或其自身的阴影的灰度有较大区别。因此,可以通过对比度分析来进一步去除一些较小的非文本区域。具体实现采用以下步骤:首先通过一个取较大阈值的坎尼(E4--R)边缘检测算子检出强边缘,然后对边缘进行加宽,如果前一步骤中分割出来的区域与加宽的边缘不相交则将该区域去除。通过实验来看,第一种方法的效果比较明显。因此,这两种方法可以同时采用,也可以只采用第一种方法。上述算法和实验主要是针对德文等西欧语言。作者采用同样的方法对复杂背景之上的汉字分割进行了实验,虽然文字所处的区域基本已经分割出来,但是分割效果并不理想,有许多笔划丢失。通过仔细分析和多次实验,作者认为造成分割效果不好的主要原因有以下几点:(/)德文、英文等西欧文字由字母组成,而每个字母的笔划都是连通的,即通过分裂8合并算法后,每个字母都将形成一个独立的区域。而汉字是由偏旁部首组成,大部分的汉字都有不连接的笔划,例如“心”、“小”、“汉”等等。这些小的笔划在经过分裂8合并算法后,会形成许多非常小的区域,这些小区域在经度之差大于该门限就应分裂。图!是采用分裂8合并算法$7#)分割后的图像。(取图/原始帧的灰度化图像过尺寸限制后往往会被去除或与周围的大区(背景区域)合并,因此造成笔划的丢失。图!采用分裂8合并算法分割后的图像/S!#$!计算机工程与应用对象的。然而,汉语的句子中字或词组之间并没有如英文单词之间一样的较大间距。而且,视频流中的汉字往往都是单句,很少出现标点符号。对汉字来说,按前面的方法划定的%&’()是以句子为单位的。因此,填充率和宽高比的限制必须根据汉字的特点重新设定。#基于纹理的文字分割美国*+,,+(-.,/00,大学的12(0’34.,5$*+67+0-+和89:;+39*$52,/7+6采用纹理分割算法对复杂背景之上的文字分割进行了研究。该方法主要包括以下几个步骤:()纹理分割(=/0.3/?/@7/60+02’6):这里采用的是标准的多通道滤波的纹理分割方法。为了检测不同尺度的文字,输入图像采用金字塔结构,共A个,每上层的图像的各个方向的(+)垂直方向边缘检测尺度是下层的,最下层为原始图像。A个图像分别经过A个!二阶导数的高斯滤波器(尺度!B,!!,!),每一个滤波器的输出都经过一个非线性变换=+6-(!)(B$!C),像素的特征向量由A个输出图像中该点的能量估计组成。对特征向量级进行分类后,若某一类特征向量的中心靠近向量空间原点(,$,),则标记为背景,反之则标记为文字。(!)文字区域划定(D-2EF/6/3+02’6):划定文字所处区域。这一步骤采用聚类和区域尺度限制的方法确定文字区域。(#)文字区域内的阈值分割和文字识别。从以上步骤可以看出,这一方法的主要原理是利用文字与背景的不同纹理表现将文字区域从背景中分离出来。然而,纹理分割的复杂度和计算量比较大,而且该方法采用了A个滤波器,文字区域划定部分也设计得相当复杂,因此在检测和提取的效率上可能会存在问题。(H)水平方向边缘检测对包含文字的视频帧进行垂直和水平方向的边缘检测图#G$!文字区域提取这一步骤的目的是获得每行文字所处的矩形区域。首先试图采用聚类的方法,但实际效果并不理想,且速度较慢。经过多次分析和实验,作者找到了一种行之有效且速度较快的方法——投影法。由于视频流中的文字基本上是横排的,因此,如果将图像向水平方向((轴),投影必然会在对应行的范围出现很陡的峰值。各峰的宽度等于对应每行文字的高度。将每行文字的对应(轴范围内的像素向垂直方向()轴)投影又可以获G基于边缘检测的视频文字区域分割考虑用边缘检测来进行视频文字分割主要基于这样的设想:后期文本的灰度与背景一般有较大的区别,而无论