基于深度卷积网络的图像超分辨率摘要:提出一种深度学习方法单一图像超分辨率(SR)。我们的方法直接学习一个端到端的低/高分辨率图像之间的映射。映射表示为卷积神经网络(CNN)的深处低分辨率图像作为输入和输出的高分辨率。我们进一步证明传统基于稀疏编码的SR方法也可以被视为一个深卷积网络。但与传统方法的是分别处理每个组件,我们的方法共同优化所有层。我们深CNN还一个轻量级的结构,展示了先进的修复质量,为达到快速的实际在线使用。我们将探讨不同的网络结构和参数设置来实现性能和速度之间权衡。此外,我们扩展我们的网络同时应对三个颜色通道,并显示更好的整体重建质量。1介绍单一图像超分辨率(SR)[20],旨在恢复高分辨率图像从一个低分辨率图像,是计算机的一个经典问题愿景。这个问题本质上是不适定的因为多样性存在对于任何给定的低分辨率的解决方案像素。换句话说,它是一个欠定的逆问题,并不是唯一的解决方案。这样的通常由约束减轻问题解空间的先验信息。学习先验,最近主要是采用最先进的方法基于实例的[46]策略。这些方法要么利用内部相似性的图像[5],[13],[16],[19],[47],或者从外部学习映射函数低收入和高分辨率的范例对[2],[4],[6],[15],[23],[25],[37],[41],[42],[47],[48],[50],[51]。外部的基于基于实例的方法可以制定通用图像超分辨率,或者可以设计合适领域特定的任务,例如,人脸幻觉[30],[50],根据训练样本提供。基于稀疏编码的方法[49],[50]老代表外部基于实例的方法之一。这涉及几个步骤的解决途径。首先,人口出现的重叠的块输入图像和预处理(如。,减去的意思是和归一化)。这些块然后编码由一个低分辨率的字典。稀疏的系数传入的高分辨率字典重建高分辨率块。重叠重建块聚合(如。通过加权平均)来产生最终的输出。这个途径通过基于最外部的实例的方法共享,特别注意学习和优化词典[2],[49]、[50]或构建有效的映射功能[25]、[41]、[42],[47]。然而,其余的途径已经很少优化或步骤考虑在一个统一的优化框架。在本文中,我们表明,上述途径相当于深卷积神经网络[27](更多细节在3.2节)。出于这事实上,我们考虑一个卷积神经网络直接学习一个端到端的低收入和之间的映射高分辨率图像。我们的方法从根本上不同于现有外部基于实例的方法,在我们这没有明确学习词典[41],[49]、[50]或繁殖[2]、[4]为建模的块空间。这些都是隐式地实现通过隐藏层。此外,块提取和聚合也制定了卷积层,所以在优化。在我们的方法中,整个SR途径完全是通过学习,很少的前/后处理。我们命名该模型超分辨率卷积神经网络(SRCNN)1。被提议的SRCNN有一些吸引人的属性。首先,它的结构是故意设计简单,然而,相比之下最先进的基于实例的方法,提供了优越的准确性。图1所示。该超分辨率卷积神经网络(SRCNN)超过双三次的基线通过几个训练迭代,并优于基于稀疏编码的方法(SC)[50]与温和培训。性能可以进一步提高更多的训练迭代。提供了更多的细节4.1.1节(Set5数据集和一个升级的因素3)。该方法提供了视觉吸引力重建图像。图1显示了一个例子的比较。第二,中等数量的滤波器和层,我们的方法实现速度快为实际在线使用即使在一个CPU。我们的方法比基于实例的数量方法,因为它是完全前馈和不需要解决优化问题上使用。第三,实验表明,修复质量网络可以进一步改善,当(i)更大和更多不同的数据集,和/或当(2)一个更大的和更深入的模型被使用。相反,更大的数据集/模型可以对现有基于实例方法的挑战。此外,该网络可以应付三个通道的彩色图像同时实现超分辨率提高性能。总的来说,本研究的贡献主要是在三个方面:1)提出了一种完全卷积神经网络图像超分辨率。网络直接学习一个端到端的高低分辨率图像之间的映射,除了优化只有很少的前/后处理。2)我们之间建立一个关系基于深度学习的SR法和传统基于稀疏编码的SR方法。这种关系为网络结构的设计提供了指导。3)我们证明深度学习是有用的经典计算机视觉的超限分辨问题,质量好,所能达到的水平速度。提出了一种初步版本的这项工作早期的[11]。目前的工作增加了初始版本在重要的方面。首先,我们改善SRCNN引入大的滤波器大小的非线性映射通过添加非线性映射层,探索更深层次的结构层。其次,我们延长SRCNN处理三个颜色通道(YCbCr或RGB同时颜色空间)。实验中,我们证明,可以提高性能相比单通道网络。第三,大量的新被添加到分析和直观的解释最初的结果。我们也扩展原始实验从Set5[2]和Set14[51]测试图像BSD200[32](200个测试图像)。此外,我们与许多最近发表的方法和确认我们的模型仍然优于现有方法不同的评价指标。2相关工作2.1图像超分辨率根据图像先验,单幅图片超分辨率算法可以分为四种类型:预测模型,基于边缘的方法,图像统计方法和基于块(或基于实例)的方法。这些方法已经彻底研究,评估在杨的工作[46]。其中,基于实例的方法实现的最先进的性能。内部基于实例的方法利用自相似性特征并生成范例块输入图像。这是Glasner首次提出的工作[16],和几个改进的变异[13],[45]提出了加快实现。外部基于实例方法学习低/高分辨率块从外部数据集之间的映射。这些研究不同于如何学习一个紧凑的字典或多个空间来联系低/高分辨率块,和如何表示计划可以进行在这样的空间。弗里曼的先驱工作等。[14],字典是直接呈现低/高分辨率块对,最近邻域(NN)的输入块是发现在低分辨率的空间,其相应的高分辨率块用于重建。Chang等。[4]引入流形嵌入技术替代最近邻域策略。在杨工作[49],[50],上述最近邻域通信的进步更复杂的稀疏编码形成。其他映射等功能内核回归,简单函数,随机森林和锚定社区回归提出了进一步提高映射精度和速度。基于稀疏编码的方法及其几种改进[41],[42]、[48]等在如今先进的几种SR方法当中。在这些方法中,块是重点优化;块提取和聚合步骤视为前/后处理和处理分别。大多数的SR算法关注灰度或单通道图像超分辨率。对于彩色图像,上述方法首先将问题转化到不同的颜色空间(YCbCr或YUV),SR只有在亮度通道。也有工作同时试图super-resolve所有渠道。例如,金和Kwon[25]和DAIetal[7]应用他们的模型到每个RGB通道和他们相结合生成最终的结果。然而,没有一个分析了SR性能不同的渠道及恢复所有三个渠道的必要性。2.2卷积神经网络卷积神经网络(CNN历经几十年[27]和cnn部分由于其成功的形象分类,最近显示出爆炸性流行[18]、[26]。他们也被成功地应用于其他计算机视觉领域,如对象检测[34]、[40]、[52],人脸识别[39]行人检测[35]。有几个因素的中央在这个进步重要性:(i)有效训练实现在现代强大的gpu[26],(ii)提出的修正的线性单元(ReLU)[33]使得收敛更快,同时还提出了好质量[26],(iii)方便地访问大量的培训数据(如ImageNet[9])用于训练更大的模型。我们的方法也受益于这些进展。2.3图像恢复深度学习有一些使用深度学习的研究图像恢复的技术。所有层的多层感知器(MLP)全(卷积)相比,适用于自然图像去噪post-deblurring去噪[36]和[3]。更多的与我们的工作密切相关,卷积神经网络应用于自然图像去噪[22]和消除嘈杂的模式(污垢/雨)[12]。这些修复或多或少是denoising-driven问题。崔等。[5]提出将auto-encoder网络嵌入超分辨概念下途径内部基于样本方法[16]。深度模型不是特别设计为一个端到端解决方案,因为每一层级联的要求独立的自相似性搜索过程和auto-encoder的优化。在相反,该SRCNN优化端到端映射。此外,SRCNN更快的速度。它不仅是一种定量方法优越,但也实际有用的。3卷积神经网络超分辨率3.1制定考虑一个低分辨率的图像,我们第一次使用双立方插值来提升它到所需的尺寸,是我们唯一perform预处理。让我们表示插值的图像作为y.我们的目标是恢复从Y图像F(Y)尽可能相似地面真理的高分辨率图像x方便演示,我们仍然叫Y“低分辨率”形象,虽然有相同的大小作为x,我们希望学习一个映射F,概念上包括三个操作:1)块提取和表示:这个操作从低分辨率图像提取(重叠)块Y和代表每个块高维向量。这些向量组成组特征图,等于数量向量的维数。2)非线性映射:此操作非线性把每个高维向量映射到另一个高维向量。每个映射向量是高分辨率的概念上的表示块。这些向量构成另一组特性地图。3)重建:此操作集合以上高分辨率patch-wise表示来生成最终的高分辨率图像。这图像将类似于地面真理X。我们将显示所有这些操作形成一个卷积神经网络。网络的概述如图2所示。接下来我们详细的定义每个操作。3.1.1块提取和表示在图像恢复(如一个受欢迎的策略。[1])人口中提取的块,然后由一组pre-trained基如PCA、DCT,哈雾等等代表他们。这个相当于卷积滤波器的图像由一组,这是一个基础。在我们的配方中,我们涉及这些基地的优化的优化网络。在形式上,第一层表示为一个操作F1F1(Y)=max(0;W1∗Y+B1);(1)W1和B1分别代表了滤波器和偏见,和“∗”表示卷积操作。这里,W1对应n1滤波器的支持cf1××f1,其中c是在输入图像通道的数量,f1是一个滤波器的空间大小。直观地说,W1将n1卷积用于图像,每个卷曲内核大小cf1××f1。输出组成n1特征图。B1是n1-dimensional向量的每个元素与一个滤波器。我们应用修正线性单元(ReLU马克斯(0,x))滤波器[33]responses4。3所示。双立方插值也是一个卷积操作,所以它可以作为卷积层制定。然而,输出的大小这一层是大于输入大小,所以有部分的跨步。来利用流行的优化实现作为cuda-convnet[26],我们排除这“层”学习。图2所示。给定一个低分辨率的图像Y,第一个卷积层SRCNN提取一组特征图。第二层地图这些特性非线性映射到高分辨率块表示。最后一层结合预测在一个空间附近生成最终的高分辨率图像F(Y)3.1.2非线性映射第一层每一个块提取一个n1-dimensional特性。在第二次手术,我们每个地图这些n1-dimensional向量n2-dimensional一个。这相当于应用n2的滤波器一个简单的空间支持1×1。这个解释是只有效期为1×1滤波器。但它很容易推广到更大的滤波器3×3或5×5。在这种情况下,非线性的映射不是在输入图像的一个块;相反,在一个3×3或5×5“块”地图的功能。的第二层是操作:F2(Y)=max(0;W2∗F1(Y)+B2):(2)这里W2包含n2滤波器的大小n1×f2×f2,和B2是n2维。每个输出的n2维向量是一个高分辨率的概念上的表示块,将用于重建。可以添加更多的卷积层增加非线性。但这可以增加模型的复杂性(n2××f2f2×n2参数一层),因此需要更多的训练时间。我们将探索更深层次的结构通过引入额外的4.3.3节中非线性映射层。3.1.3重建在传统的方法,预测重叠高分辨率块通常平均生产最后的完整图像。平均可以考虑作为一个预定义的滤波器在一组特征图(每个职位的“夷为平地”向量形式highresolution块)。出于这一点,我们定义一个卷积层产生最终的高分辨率图片:F(Y)=W3∗F2(Y)+B3:(3W3对应cn2×f3×f3滤波器的大小,和B3c-dimensional向量。如果表示的高分辨率块在图像域(即。,我们可以简单地重塑表示形成的块),我们期望的滤波器的行为像一个平均滤波器;如果表示在一些其他领域的高分辨率块(如。系数的一些基地),我们预计W3像首先投射系数上图像域,然后平均。无论哪种方式,W3一组线性滤波器。有趣的是,尽管上述三个操作出于不同的直觉,他们都导致相同的形式作为一个回旋的层。我们把所有三个操作结合在一起,形成一个卷积神经网络(图2)。在这个模