图像处理文献综述

jiqing0201
2 ℃
2020-06-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

文献综述近年来，随着计算机视觉技术的日益发展，图像处理作为该领域的关键方向受到越来越多研究人员的关注与思考。在现在的日常生活中，由于通信设备低廉的价格和便捷的操作，人们越来越喜欢用图像和视频来进行交流和分享，消费性的电子产品在消费者中已经非常普遍，例如移动手机和数码相机等等。在这个纷繁多变的世界，每天都有数以万计的图像产生，同时信息冗余问题也随之而来。尽管在一定的程度上，内存技术的增加和网络带宽的提高解决了图像的压缩和传输问题，但是智能的图像检索和有效的数据存储，以及图像内容的提取依然没有能很好的解决。视觉注意机制可以被看做是人类对视觉信息的一个筛选过程，也就是说只有一小部分重要的信息能够被大脑进行处理。人类在观察一个场景时，他们往往会将他们的注意力集中在他们感兴趣的区域，例如拥有鲜艳的颜色，光滑的亮度，特殊的形状以及有趣的方位的区域。传统的图像处理方法是将整幅图像统一的处理，均匀的分配计算机资源；然而许多的视觉任务仅仅只关系图像中的一个或几个区域，统一的处理整幅图像很明显会浪费过多的计算机资源，减少处理的效率[1,2]。因此，在计算机视觉领域，建立具有人类视觉系统独特数据筛选能力的数学模型显得至关重要。受高效的视觉信息处理机制的启发，计算机视觉领域的显著性检测应运而生。图像显著性检测是通过建立一定的数学模型，让计算机来模拟人类的视觉系统，使得计算机能够准确高效的定位到感兴趣的区域。一般来说，一个信号的显著性可以表示为其和周围环境的差异性。正是因为这个信号和周围的其他信号的迥异性，使得视觉系统不需要对环境中的所有感兴趣的区域进行逐个的扫描，显著的目标会自动从环境中凸显出来。另外，一些心理学研究表明人类的视觉机制不仅仅是由低级的视觉信号来驱动的，基于记忆、经验等的先验知识同样能够决定场景中的不同信号的显著性，而这些先验知识往往是和一些高层次的事件以及视觉任务联系在一起的。基于当前场景的视觉显著性机制是低级的，慢速的。而基于先验知识的显著性机制通常是和高层次的任务关联在一起的，其效率通常低于由视觉信号驱动的显著性机制。人眼视觉系统通过显著性原理来处理复杂的视觉感知是不争的事实，这种显著性的处理机制使得复杂背景下的目标检测、识别有了很大程度的提升。在模式识别、计算机视觉等领域，越来越多的计算机工作者致力于开发显著性计算模型，用以简单的表达图像的主要信息。这些显著性模型的检测结果是一个显著性灰度图，其每个像素点的灰度值表示了该像素的显著性，灰度值越大，表明该像素越显著。从信息处理的方式看，显著性模型大致可以分为两类：自顶向下（任务驱动）和自底向上（数据驱动）的方法。自顶向下的显著性检测方法之所以是任务驱动，这是因为该类模型通常是和某一特定的任务相关。在同样的场景或模式下，检测到的结果因任务的不同而不同是自顶向下模型最突出的特点。例如在目标检测中，检测者需要首先告诉需要检测的目标是什么，检测到的显著性图则表示目标可能出现的位置。自顶向下的显著性检测方法的依据是：如果研究者事先知道需要检测目标的颜色、形状或者方向等特征，那么该检测算法自然会高效的检测到需要检测的目标。因此，自顶向下的算法通常需要人工标记，或是从大量的包含某种特定目标的图像中学习该类目标的特征信息，这些学习方法一般是监督的；然后求测试图像对于训练学习得到的信息的响应，从而得到测试图像的显著性图。现存的一些自顶向下的算法在某些特定的目标上取得了一定的效果，不过这些算法往往只对某些特定的目标有效，对于复杂多变的自然图像，该类算法存在很大的缺陷。自顶向下的模型是慢速的、任务驱动的，有意识的，以及封闭回路的。由于自顶向下模型的特点，其应用受到了很大的限制。相对于自顶向下的显著性模型，自底向上的模型检测到的显著性图是依据当前的图像和图像的低级特征得到的，和特定的任务没有任何的相关性，因此更具一般性，目前也是研究者们研究的重点。由于是由低级视觉信号驱动的，自底向上模型被认为是一种无意识的视觉处理过程，它和记忆没有任何的关系，信号显著性仅仅由当前的视觉信号本身所决定。在自底向上模型中，吸引我们注意的感兴趣区域一定和周围的环境有着极大的差别。因此，自底向上模型通常采用中央-周围对比算法来模拟图像显著性，该方法通过计算某一像素或区域相对于周围领域的对比度来模拟其相应的显著性。此外，一些研究者通过采用活动窗口的领域方法来提高定位目标的准确性。另一种常用的自底向上的显著性方法是信息最大化法，该方法通过心理学的研究，认为人类往往将注意力放在图像中信息量最大的位置——例如图像中央区域，从而进行有效的分析。自底向上注意模型是快速的、无意识的，以及大多数是前向反馈的。自底向上的图像显著性估计算法适用于对图像目标的模式或位置没有任何信息的情况。经过多年的研究，显著性检测已经应用于计算机视觉的许多方向。如感兴趣区域检测[3]、目标定位[4]、图像分类[5]、图像或视频分割[6]图像或视频压缩[7,8]等等。例如在文献[9]中，N.Ouerhani等人将显著性检测应用到图像压缩这个新的领域中，其目的是将图像中的显著性部分在解压缩的过程中拥有更好的重建质量。随后，Itti等人[8]提出了一种新的基于显著性的图像压缩方法，该方法对视频序列的每帧都进行显著性检测，将距离显著性区域较远的地方做模糊处理，这样就能使得显著性区域大部分保证不变，而其他区域进行高质量的压缩。RMiau和L.Itti[10]为进行目标识别，将显著性检测作为其预处理操作，然后使用生物动力系统HMAX[11]来进行目标的识别。Salah等人[12]将显著性检测和人工神经网络结合起来，用于识别人脸是手写数字。在文献[13]中，N.Ouerhani等人将显著性检测用于交通标志的识别。图像分割是将图像中的前景物体提取出来的一种技术，传统的图像分割需要人工给予交互信息，在文献[14]中，N.Ouerhani等人利用显著性检测作为人工交互信息，实现了对图像的自动分割。正是由于显著性检测的诸多重要的应用，使得大量的研究人员将极大的热情投入到显著性检测的研究中来。近年来，自底向上和自顶向下显著性模型取得了很大的发展，研究者们用不同的数学模型、思想来让计算机模拟人类视觉系统，下面就分别介绍关于自顶向下和自底向上模型的发展：自底向上的显著性检测方法：早期C.Koch等人通过研究人类视觉自底向上阶段的机制，提出了人类视觉显著性机理，希望模拟人类的视觉特点，计算出人类感兴趣的区域。这是非常有影响力的生物启发模型，但该模型仅仅停留在理论阶段，并没有通过计算机实现。Itti等人的基本模型[15]利用三个特征通道来模拟显著性。他们首先将图像用不同尺度上的的颜色、强度和方向这三个属性来表征，然后利用中心-周围算法对每个特征进行处理得到多个特征图，最后，将这些特征图经过线性迭加后得到最终的显著性图。这个模型是显著性检测方面的一个里程碑，之后的大部分模型都以其为基准。该模型也是第一次完整的实现C.Koch等人提出的显著性生物启发系统。Bruce等人[16]根据香农的自信息理论，提出了AIM（AttentionbasedonInformationMaximization）模型，研究了人眼注视行为和信息量的显著性之间的关系。他们首先基于大量的自然图像的图像块，利用独立分量分析（ICA）算法从中学习出一系列的滤波器，然后将测试图像和滤波器进行卷积，得到测试图像一系列的特征，最后根据图像对滤波器的响应计算自信息得到最终的显著性图。Harel等人[17]提出了基于图的视觉显著性（GBVS）。他们在多尺度空间下提取图像的特征图形成一个全连通的图，图像中的像素点是图的节点，两个节点之间的权重由他们特征值的相似性和空间距离共同决定。然后利用随机游走计算图像的显著性。虽然该模型对人眼关注点能较好的预测，但是具有很大的时间复杂度。Hou等人[18]提出了基于谱残余的模型，第一次在变换域的方面考虑图像的显著性。该模型首先对图像进行傅里叶变换得到图像振幅谱，接着让对数频谱通过一个领域的滤波器，并和对数频谱相减得到谱残差，最后利用傅里叶反变换结合皮平滑高斯滤波器得到最终的显著性图。该算法简单高效，其matlab核心代码只有五行。Guo等人[19]证明了用傅里叶变换的相位谱来代替振幅谱能取得更好的显著性预测效果。随后，Guo和Zhang等人[7]提出了用四元数将图像的颜色、强度和运动特征联系起来的模型——基于相位谱的四元数傅里叶变换模型，该模型可以计算时空的显著性并用于视频处理。Zhang等人[20]提出了经典SUN（SaliencyUsingNaturalstatistics）方法，改方法也是利用香农自信息理论衡量图像显著性。首先由DoG或ICA得到自然图像的一系列统计特性，然后结合贝叶斯框架得到最终的显著性图。该模型给许多模型提出了一个基本的框架。Achanta等人[21]利用图像的颜色和强度两种低级特征，实现了频率调谐的显著性区域检测算法。此方法用某个像素和整个图像的平均色的色差来直接定义显著性值。单该方法只考虑了一阶平均颜色，不足以分析复杂多变的自然图像。Cheng等人[22]提出了基于区域对比度的视觉显著性区域检测算法。该方法首先依据与其他像素的色彩差异来分配像素的显著性值，然后将图像分割成若干区域，最后利用颜色距离和空间距离的加权来定义图像最终的显著性。该算法同时考虑了全局对比度和空间相干性。作者还将得到的显著性图应用于图像分和和基于内容的图像缩放，都取得了比较好的效果。Goferman等人[23]提出了基于上下文的显著性检测模型。该模型同时对局部底线线索、全局考虑、视觉组织规划以及表层特征进行建模来突出显著性物体。Xie等人[24]通过研究图像中的低层和中层信息，结合在贝叶斯框架，提出了一种新模型。该模型采取由粗到细的策略。首先，利用角点计算得到目标的大致区域，进而计算该大致区域得到粗糙的显著性图。然后，结合这个粗糙的显著性图和由低层信息计算得到观测性似然概率，从而得到每个像素处的显著值。Mai等人[25]利用条件随机场框架，提出了一个数据驱动的显著性检测方法。该方法基于两个发现：一是不同的显著性检测方法在显著性分析中有不同的表现，二是显著性分析方法的性能随着图片的不同而变化着。因此该方法考虑不同模型之间的性能差异，以及各类模型在单类图像上的性能依赖，通过数据驱动的方法来进行显著性融合。Zhang等人[26]提出了一个基于布尔图的显著性检测模型（BMS）。该模型认为图像可以由一系列的二值图像表示，这些二值图像是通过对图像的颜色通道进行随机阈值生成。因此，该方法基于图形—背景分割的格式塔准则，通过分析布尔图的拓扑结构计算最终的显著性图。该算法在5个眼动点数据库集上都取得了比较好的效果，在显著性目标检测上也有很好的优势。Ren等人[27]提出了一个基于区域的显著性检测算法。该算法首先用自适应均值分割算法对图像进行超像素分割，并用平均颜色表示超像素；然后将超像素集合最为高斯混合模型（GMM）的输入，得到k个聚类，并计算每个聚类的紧密度作为聚类的显著性值；最后利用页排序得到最终的显著性图。自顶向下的显著性检测方法：Gao等人[28]研究发现对某些特征的边缘分布，感兴趣区域的出现对其有很大的影响，即某一类显著性信息能够很好的被某些特征表征。通过训练改感兴趣目标的这一特征，最终能够得到比较有区分度的显著性图。在文献[20]中，Zhang等人提出了基于贝叶斯框架的目标检测模型，在这个模型中，通过似然函数表征需要检测的目标。Marchessotti等人[29]通过自然图像之间的视觉相似性来模拟显著性。在该模型中，需要测试的图像是已知的，他们首先在测试数据库中选择和测试图像看起来比较相似的一些图片。然后利用Fisher核函数来训练一个简单的分类器，改分类器能够大致将前景与背景区分开。最后将该分类器运用到测试图片中，就能较好的计算得到显著性图。该模型不需指定特定的目标，但是在图片检索，尤其是相似图片的检索中，是一项非常大的挑战，同时分类器的训练需要占用大量的计算资源，使得算法的时间复杂度比较大。