基于深度学习的目标检测研究2019年1月上面是一段实时目标识别的演示,计算机在视频流上标注出物体的类别,包括人、汽车、自行车、狗、背包、领带、椅子等。今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体,甚至可以初步理解图片或者视频中的内容,在这方面,人工智能已经达到了3岁儿童的智力水平。这是一个很了不起的成就,毕竟人工智能用了几十年的时间,就走完了人类几十万年的进化之路,并且还在加速发展。道路总是曲折的,也是有迹可循的。在尝试了其它方法之后,计算机视觉在仿生学里找到了正确的道路(至少目前看是正确的)。通过研究人类的视觉原理,计算机利用深度神经网络(DeepNeuralNetwork,NN)实现了对图片的识别,包括文字识别、物体分类、图像理解等。在这个过程中,神经元和神经网络模型、大数据技术的发展,以及处理器(尤其是GPU)强大的算力,给人工智能技术的发展提供了很大的支持。本文是一篇学习笔记,以深度优先的思路,记录了对深度学习(DeepLearning)的简单梳理,主要针对计算机视觉应用领域。一、神经网络1.1神经元和神经网络神经元是生物学概念,用数学描述就是:对多个输入进行加权求和,并经过激活函数进行非线性输出。由多个神经元作为输入节点,则构成了简单的单层神经网络(感知器),可以进行线性分类。两层神经网络则可以完成复杂一些的工作,比如解决异或问题,而且具有非常好的非线性分类效果。而多层(两层以上)神经网络,就是所谓的深度神经网络。神经网络的工作原理就是神经元的计算,一层一层的加权求和、激活,最终输出结果。深度神经网络中的参数太多(可达亿级),必须靠大量数据的训练来设置。训练的过程就好像是刚出生的婴儿,在父母一遍遍的重复中学习“这是苹果”、“那是汽车”。有人说,人工智能很傻嘛,到现在还不如三岁小孩。其实可以换个角度想:刚出生婴儿就好像是一个裸机,这是经过几十万年的进化才形成的,然后经过几年的学习,就会认识图片和文字了;而深度学习这个“裸机”用了几十年就被设计出来,并且经过几个小时的“学习”,就可以达到这个水平了。1.2BP算法神经网络的训练就是它的参数不断变化收敛的过程。像父母教婴儿识图认字一样,给神经网络看一张图并告诉它这是苹果,它就把所有参数做一些调整,使得它的计算结果比之前更接近“苹果”这个结果。经过上百万张图片的训练,它就可以达到和人差不多的识别能力,可以认出一定种类的物体。这个过程是通过反向传播(BackPropagation,BP)算法来实现的。建议仔细看一下BP算法的计算原理,以及跟踪一个简单的神经网络来体会训练的过程。1.3小结人工神经网络就是根据人的神经元模型而构建的一个感知算法,利用大量的神经元组合对人的认知行为进行拟合。目前我们仍然无法精确的知道它为什么能工作、如何工作,如同我们仍然无法精确知道人的大脑是如何工作一样。在摸索过程中,我们好像应该更多地思考人类自己是怎么去“看”的,这会更有助于设计更好的算法。比如本文开头的视频识别算法,它很快,但是不够精确,而有些可以“看清”细节的算法,就会非常慢。就像我们人类自己,走马观花只能看到概貌,驻足观赏才能看清细节。我们越了解自己,就越能做得更好。二、卷积神经网络2.1简介卷积神经网络(ConvocationalNeuralNetwork,CNN)是一个特殊的深层神经网络,目前在计算机视觉领域广泛使用,可以认为它是一个二维向量(图片就是一个二维向量)的感知器。CNN算法的核心是对图像(二维向量)进行矩阵卷积运算,这就相当于是对图像进行加权求和。为了减小计算量,CNN采用了局部感知和权值共享的方法。局部感知,就是用一个N×N(如N=3)的矩阵(称为卷积核)去滑动扫描图像,进行卷积运算。权值共享,就是扫描图片的滑动矩阵的权值是共享的(相同的)。在实际运算中,这个卷积核相当于一个特征提取的过滤器(filter)。举例来说,假设一个10×10的图像,用一个3×3的卷积核以步长1做一次卷积运算,那么会得到一个8×8的特征图(featuremap)。为了使得到的featuremap和原图等大小,一般给原图进行扩充为12×12,这样卷积一次以后,得到的仍然是10×10大小的图像。在这个例子中,如果不采用权值共享,则一共需要100个权值参数,权值共享后,只需要3×3=9个权值参数。在实际中,一个RGB图像是三个通道,而卷积核也可能有多个。这样计算起来会比上面的例子复杂些,但基本原理是一样的。2.2CNN计算流程一个典型的CNN算法的流程大概是这样的:首先是输入,然后是n个卷积和池化的组合,最后全连接层感知分类。在这个流程里,卷积运算主要是用来提取特征。一个典型的卷积计算如下图所示。卷积计算示意图图中input是同一个图像的三个通道,周边有填充0;有两个卷积核FilterW0和FilterW1,一个filter滑动到一个位置后计算三个通道的卷积,求和,加bias,得到这个filter在该位置的最终结果;每个filter的输出是各个通道的汇总;输出的个数与filter个数相同。在这里还要加上激活函数,对计算结果进行非线性变换。常用的激活函数有tanh、ReLU、sigmoid等。激活函数的作用好像可以解释为:过滤掉一些可以忽略的不重要因素,以避免其对决策产生过度影响。池化是为了降维,有最大池化(MaxPooling)和平均池化(AveragePooling)。一个2×2最大池化的示例如下图。最后是全连接层,它将前面卷积层提取的特征映射到样本标记空间,它输出一个分类的概率,也就是最终的结果。2.3典型的CNN模型LeNet,最早用于数字识别的CNN,用5×5卷积核,2×2最大池化,识别输入为28×28的灰度点阵,网络结构是(CONV—POOL—CONV—POOL—CONV—FC)。AlexNet,2012ImageNet比赛第一名,准确度超过第二名10%。网络结构如下图。5个CONV、3个POOL、2个LRN、3个FC,卷积核分别是11×11、5×5、3×3,采用ReLU作为激活函数。VGG,有跟多的卷积层(16~19),使用3×3卷积核。GoogLeNet,采用Inception来减少参数(用1×1卷积核降维)。ResNet,很多很多层的网络,从152层到据说上千层。采用残差网络来解决多层网络难以训练的问题。以上网络的对比如下表。2.4训练集应该可以感受到,人工智能也好,深度学习也好,算法的优劣是一方面,而训练数据集的好坏,对最终的效果影响更大。而训练集又非常难做,需要大量的数据,且标记这些数据需要巨大的工作量(过去的8年ImageNet就在做这个工作)。逐渐,一些数据集就慢慢出了名。很多算法的性能数据都会指明是在哪个数据集上训练的。一些有名的数据集如下。MNIST:深度学习领域的“HelloWorld!”,一个手写数字数据库,有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。数据集以二进制存储,不能直接查看。数据集大小为12M。ImageNet:MIT李飞飞团队过去几年的成果,目前有1400多万幅图片,涵盖2万多个类别。数据集大小为1T。ImageNet根据WordNet层次(目前只有名词)组织的一个图像数据库,其中每个节点的层次结构是由成千上万的图像描绘。目前,有平均每个节点超过五百的图像。COCO:CommonObjectsinContext,是一个新的图像识别、分割、和字幕数据集,由微软赞助,具有上下文识别、语义描述等特点。数据集大小为40G。PASCALVOC:图片集包括20个目录,数据集图像质量好,标注完备,非常适合用来测试算法性能。数据集大小为2G。由于数据集生成有一定难度且工作量巨大,两年来GAN(GenerativeAdversarialNets,生成对抗网络)快速发展,并在很多应用场景的训练集生成产生了巨大作用,比如车牌识别。三、物体检测3.1检测流程在实际场景中,我们需要在一副图像中找出有哪些物体,这是一个多对多的映射(所谓的回归)。按照已有的CNN方法,常规的检测流程就是:先找到哪些区域有物体,然后再用CNN来对其分类。区域选择最原始的办法就是用不同大小的滑动窗口对整幅图像进行扫描。这样不但计算量大,也容易造成误判。一个改进的方法是所谓RegionProposal,即预先找出物体可能在的位置。这里需要提到以下几个概念。IoU:IntersectionoverUnion,RegionProposal与GroundTruth的窗口的交集比并集的比值,如果IoU低于0.5,那么相当于目标还是没有检测到。GroundTruth就是实际物体真实的区域。mAP,meanAveragePrecision,平均精度均值。是对多个验证集求PR曲线的均值。PR曲线是Precision和Recall作为横纵坐标轴的曲线,Precision是准确率,即检测出的样本有多少是正确的,Recall是召回率,即应该被检测出的样本有多少被检测出来。PR曲线越高,说明算法越好,即又多又准。3.2典型的算法从2014年的R-CNN(Regionproposal+CNN)开始,出现了一系列目标检测算法,从R-CNN到fastR-CNN和fasterR-CNN,以及SPP-NET,R-FCN,还有YOLOv1~v3和SSD、DSSD。R-CNN:采用selectivesearch方法(一种RegionProposal方法,RegionProposal的方法有selectivesearch、edgebox)进行区域选择,选出2000个左右。将每个区域缩放至227×227,再送入CNN计算特征,最后由SVM(支持向量机)分类。很明显,R-CNN很慢。SPP-NET:为了加快R-CNN的速度,采取对一副图像的多个RegionProposal一次提取特征。这就要求网络必须适应不同尺寸的图像。方法是在全连接层之前加入一个网络层,让它对任意尺寸的输入产生固定的输出(将图像分成16、4、1个块)。SPP-NET训练步骤繁琐,并且仍然不够快。fastR-CNN:与R-CNN相比,fastR-CNN在最后一个卷积层后加了一个ROIpoolinglayer,同时损失函数使用了多任务损失函数(multi-taskloss),将边框回归直接加入到CNN网络中训练,最后用softmax替代SVM进行分类。fastR-CNN不是真正的端到端训练测试,还是需要selectivesearch来进行RegionProposal,所以还是不够快,不能做实时的检测。FasterR-CNN:采用RPN(RegionProposalNetworks)用Anchor机制和边框回归直接得到多尺度多长宽比的RegionProposal。FastR-CNN做到了真正的端到端,但可惜的是仍然不能达到实时检测。RPN需要详细了解一下。R-FCN:ObjectDetectionviaRegion-basedFullyConvolutionalNetworks,基于区域的全卷积网络物体检测。嫁接ResNet的卷积层,采用RPN获取ROI,针对每个ROI,在POOL之前加入位置信息(通过scoremap)。R-FCN的scoremap计算有点绕,需要慢慢理解。YOLO:虽然精度不是最好,但确是目前实时性最好的算法,可以在视频中实时检测出很多物体。倒也符合人类视觉的特点,一眼望去先看个大概,要想看细节,那就定格仔细看吧。YOLO系列的算法后面详细总结。SSD:SSD结合了YOLO中的回归思想和FasterR-CNN中的anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟FasterR-CNN一样比较精准。一般后续出现的算法都会与之前的算法做性能对比,SSD和YOLOv1比,YOLOv2、v3又和SSD比,在不同的训练集上也有不同的mAP,看起来真是眼花缭乱。因为机缘巧合,我先接触到YOLO系列算法,在自己的电脑上运行DEMO,也仔细看了YOL