一种基于内容的广告垃圾图像过滤方法目录论题意义及其必要性过滤原理与实现方法实验和结果分析论题意义及其必要性垃圾邮件问题日益严重:2005年7月,中国互联网络信息中心(CNNIC)发布的《第十六次中国互联网发展状况统计报告》显示,中国网民平均每周收到14.5封电子邮件,其中垃圾邮件占了9.3封,垃圾邮件数量已经大大超过了正常邮件数量。基于文本过滤方法的局限性:第一、基于文本的过滤受到文本语言种类的限制;第二、垃圾邮件发送者(spamer)经常使用各种各样的骗术来迷惑基于文本的垃圾邮件过滤器,比如将文字页面转换为图像;有数据显示,包含图像的垃圾邮件占所有垃圾邮件的25%。可见,这种欺骗手段已经被垃圾邮件制作者们频繁利用,如果没有找到可行的解决办法,这个数字还会上升。第三、随着因特网的范围和容量不断增长,邮件包含越来越多的多媒体信息。一些广告垃圾图片的示例目录论题意义及其必要性过滤原理与实现方法实验和结果分析过滤的原理任何广告都需要用文字来传播某种信息。也就是说,广告垃圾图像的文字区域特征具有普遍性。本文正是利用广告垃圾图像的文字区域特征来进行广告垃圾图像过滤。基本步骤:1.提取图像的边缘信息,并把边缘信息做二值化处理;2.将二值化边缘图像进行膨胀处理,使相邻的字符连通起来,并把膨胀处理后的所有连通区域作为候选文字区域记录下来;3.利用文字区域的特征从候选文字区域中筛选出正确的文字区域;4.根据得到的文字区域的数量和面积等特征对图像进行分类,把广告垃圾图像和合法图像区分开来。彩色边缘提取由于广告图像中的文本与背景有较强的对比度,表现为在文本与背景的交界处,存在十分明显的高频区域,因此可以用提取边缘的方法来大致估计出文本可能存在的区域。由于广告垃圾图像大多为彩色图像,所以本文采用张引等提出的彩色图像边缘提取算子来提取边缘,利用彩色三分量的彩色边缘提取算法,充分利用了全面的色彩信息,效果优于传统的灰度边缘提取算法。边缘提取的具体做法如下:已知输入图像f的RGB值,其中象素(i,j)的RGB分量分别为R(i,j),G(i,j),B(i,j)。要计算图像f的边缘图像Edge。Eud(i1,j1;i2,j2)定义为像素点(i1,j1)与(i2,j2)之间的彩色值欧氏距离。原图与边缘图像(a)原图(b)边缘图像边缘图像二值化阈值选取方法:首先计算边缘图像Edge的归一化灰度直方图h(i):其中,ni是图像Edge中灰度值为i的象素的个数,N是图像象素总数。因为文字区域边缘十分明显,所以本文认为文字区域边缘的灰度级一般比较高。于是需要找到一个灰度级k作为阈值,把灰度大于k的边缘象素点保留,灰度小于k的边缘象素点忽略。令;eh(k)表示保留的边缘象素数占图像总象素数的比例;找到一个尽可能大的灰度级k使得eh(k)大于阈值TH1;如果此时k小于下限TH2,则把TH2作为二值化的阈值,否则把k作为二值化的阈值。在实验中,我们取TH1=0.2,TH2=120(认为文字区域边缘的灰度级不应低于120)。二值化边缘图像(c)二值化边缘图像候选文本区域提取从二值边缘图像中可以看出,由于文字的分布比较集中,所以文字附近的边缘比较丰富,而且属于同一文字区域的文字边缘具有较小的距离。对于水平方向的文本行来说,可以用水平膨胀的方法将相邻的边缘连起来,形成连通的区域,从而在空间位置上将可能含有文本的区域检测出来。膨胀方法:设f为二值图像,B为结构元素,二值形态和(膨胀)定义如下:其中表示以(x,y)为原点,形状与结构元素B相同的区域。膨胀运算具有扩大图像的作用,膨胀可以看作是将图像f中的每一个点(x,y)扩大为。本文使用的结构元素B是一条N个象素的水平线段。其中N由图像的宽度决定,因为较宽的图像里的文字的横向间隔也会较宽。本文中取N=imageWidth/250+1;其中imageWidth为图像宽度。把膨胀操作后所得的连通区域所在的最小的矩形区域记录为候选的文字区域。膨胀边缘图像(d)膨胀边缘图像文本区域筛选本文根据文字区域的视觉特征定义了若干约束条件,满足所有约束条件的候选文字区域被认为是文字区域。本文中使用的约束条件有:(1)文字区域包含的边缘信息丰富,因此连通区域的象素总数占连通区域所在矩形的象素总数的比例应该大于某个阈值。(2)文字高度不能太小,否则人眼将无法看清;也不会太大,应在某一范围内。(3)因为每个文字区域都是同行的几个字符粘连而形成的区域,所以文字区域的宽高比应当大于某一阈值。(4)文字区域中存在一组连续的,边缘信息相当丰富的行。要求这段区域的高度占文字区域高度的一定比例,并且这段区域中的每一行的白点数目大于某一阈值。(5)如果两个候选文字区域具有包含关系或具有大部分重叠的关系,则保留面积较大的区域。按照上述准则,可以除掉候选文字区域中的虚假文字区域,得到了相对准确的文字区域。下页的图(e)为文字区域的提取结果,识别出的文字区域用红色边框标出。文字区域的提取结果(e)文字区域的提取结果目录论题意义及其必要性过滤原理与实现方法实验和结果分析实验和结果分析实验流程如下图所示:广告垃圾图像判定条件:主要根据文字区域的数量和面积两个特征判断图像是否为广告垃圾图像。本实验设定阈值th1,th2。如果图像f的文字区域数量大于th1,或者文字区域面积占图像总面积的比例大于th2,则认为图像f为广告垃圾图像。经实验证明,th1取值6,th2取值15%可以达到较实用的效果。彩色边缘提取二值化膨胀区域增长文字区域提取约束条件区域特征计算原始图像边缘图像二值图像二值图像二值图像候选区域区域图像是否广告垃圾是否垃圾图像正常图像文字区域提取实验结果广告垃圾图像过滤实验结果本文为做广告垃圾图像过滤实验,建立了一个图像库,分别由广告垃圾图像(39帧),普通图像(1215帧)和纹理图像(598帧)等三种图像组成,下图为图像库取样。广告垃圾图像过滤实验结果实验数据表明,广告垃圾图像集合的检出率接近80%,大部分特征明显的广告垃圾图像都能被检索出来;对普通图像的误检率为3.045%,控制在可以接受的范围内;而由于纹理图像比较特殊,边缘信息丰富,产生很多疑似文本的区域,对检索造成了较大干扰,所以误检率偏高。谢谢大家!