行人检测综述报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于深度神经网络的行人检测综述摘要:行人检测是汽车自动驾驶的基础技术之一。基于深度神经网络模型的行人检测方法取得的效果已经远超于使用传统特征经行识别得到的效果。仿生物视觉系统的卷积神经网络作为深度学习的重要组成、在图像、语音等领域得到了成功应用。其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究热点。通过增加网络层数所构造的深层神经网络使机器能够获得抽象概念能力,在诸多领域都取得了巨大的成功,又掀起了神经网络研究的一个新高潮。本文回顾了神经网络的发展历程,综述了其当前研究进展以及存在的问题,展望了未来神经网络的发展方向。关键词:行人检测;卷积神经网络;深度学习SurveyofPedestriandetectionbasedonDeepNeuralNetworkYinGuangchuan,Zhangshuai,QiShuaihuiAbstract:Pedestriandetectionisoneofthebasictechnologiesofunmannedvehicles.Thepedestriandetectionmethodbasedonthedeepneuralnetworkmodelhasachievedmuchmoreeffectthanthetraditionalone.Convolutionalneuralnetworkwhichimitatesthebiologicalvisionsystemhasmadegreatsuccessonimageandaudio,whichistheimportantcomponentofdeeplearning.Localreceptivefield,sharingweightsanddownsamplingarethreeimportantcharacteristicsofCNNwhichleadittobethehotspotinthefieldofintelligentmachinevision.Withtheincreasingnumberoflayers,deepneuralnetworkentitlesmachinesthecapabilitytocapture“abstractconcepts”andithasachievedgreatsuccessinvariousfields,leadinganewandadvancedtrendinneuralnetworkresearch.Thispaperrecallsthedevelopmentofneuralnetwork,summarizesthelatestprogressandexistingproblemsconsideringneuralnetworkandpointsoutitspossiblefuturedirections.Keywords:pedestriandetection;convolutionalneuralnetwork;deeplearning国防科技大学课程设计机器视觉-1-1引言行人兼具刚性和柔性物体的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机视觉的研究难点与热点。行人检测技术由于应用的广泛性使其在计算机视觉领域成为一个重要分支,对视频监控、车辆辅助驾驶、智能机器人等多个领域提供了重要的技术支持。近几年来,深度学习在大规模图像分类方面取得的了重大突破,表明深度学习可以从多媒体内容中提取具有很强表达能力的特征。卷积神经网络(ConvolutionalNeuralNetwork,CNN)[1]提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支,卷积神经网络的特点在于其每一层的特征都由上一层的局部区域通过共享权值的卷积核激励得到。这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达。CNN把特征提取归入模型学习,把特征学习和分类学习有机结合起来,更有效地实现对图像的识别.特别是近两年,卷积神经网络受到了更为广泛地关注.CNN可能是机器学习领域近十年最成功的研究方向,因此本文拟对CNN的发展和其在行人检测上的研究成果进行了介绍,并对其预期研究方向进行展望。2卷积神经网络的研究历史20世纪60年代,Hubel等[2]的生物学研究表明,视觉信息从视网膜传递到大脑中是通过多个层次的感受野(ReceptiveField)激发完成的;1980年,Fukushima[3]第一次提出了一个基于感受野理论模型Neocognitron。Neocognitron是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到,对于模式的识别不受位置、较小形状变化以及尺度大小的影响。Neocognitron采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式。1998年,Lecun等提出的LeNet-5[1]采用了基于梯度的反向传播算法对网络进行有监督的训练。经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征图,最后,通过全连接的神经网络针对图像的特征表达进行分类。卷积层的卷积核完成了感受野的功能,可以将低层的局部区域信息通过卷积核激发到更高的层次。LeNet-5在手写字符识别领域的成功应用引起了学术界对于卷积神经网络的关注。同一时期,卷积神经网络在语音识别[4]、物体检测[5]、人脸识别[6]等方面的研究也逐渐开展起来。国防科技大学课程设计机器视觉-2-2006年,机器学习领域的泰斗Hinton[7]指出多层的神经网络结构能够学习到更深刻更本质的特征,并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题,引领了深度学习的发展方向。从此,深度学习受到了各国学者的广泛关注,谷歌、微软、IBM、百度等拥有大数据的高科技公司相继投入大量资源进行深度学习理论研究。2011年以来,微软研究院和谷歌的语音识别人员采用深度神经网络(deepneuralnetwork,DNN)技术,使语音识别有了突破性进展,识别误差可降低20%~30%。2012年,Krizhevsky等[8]提出的AlexNet在大型图像数据库ImageNet[9]的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络成为了学术界的焦点。2014年的大型视觉辨识挑战赛(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)中,几乎所有的参赛队伍都采用了卷积神经网络及其变形方法。2015年国际机器学习大会上来自工业界和学术界的各位专家对深度学习展开激烈讨论,指出深度学习在人类擅长的领域已经取得了令人振奋的成功,未来的探索方向是人类并不擅长的任务、数据集。2015年国际计算机视觉与模式识别会议上关于DL和CNN的研究成果较往年有大幅的提升。2015年9月,微软亚洲研究院的“深层残差网络”(deepresidualnetworks)在ILSVRC中获得图像分类、定位以及检测全部项目的冠军,如分类方面将错误率降低至4.94%,比人眼辨识(错误率5.1%)更精确[10]。在大数据时代,各领域争先占领DL的技术制高点,希望找出更强大的模型来揭示海量数据所承载的丰富信息,对未知事件更精准地预测。3卷积神经网络结构与改进3.1卷积神经网络结构Lecun等[1]提出的LeNet-5模型采用了交替连接的卷积层和下采样层对输入图像进行前向传导,并且最终通过全连接层输出概率分布的结构是当前普遍采用的卷积神经网络结构的原型。卷积神经网络是一种多层的监督学习网络,有输入层、隐含层(包括卷积层和下采样层)和输出层,通过误差反传算法优化网络结构,求解未知参数,其网络结构如图1所示。国防科技大学课程设计机器视觉-3-输入卷积层下采样层输出卷积层下采样层图1卷积神经网络框架在卷积层,特征图(FeatureMap)的每一个神经元与前一层的局部感受野相连,经过卷积操作提取局部特征。A卷积层中有多个FeatureMap,每个FeatureMap提取一种特征,在提取特征时,同一个FeatureMap的神经元共享一组权值(即卷积核),不同的FeatureMap权值不同,从而提取不同的特征,在训练过程中不断地调整权值参数,使特征提取朝着有利于分类的方向进行,卷积操作示意图如图2所示,一般卷积的公式如公式1所示(1)其中,l代表层数,k代表卷积核,jM输入层的感受野,b代表偏置。k2k3k4k5k6k7k8k9k1k卷积核图2卷积操作示意图在下采样层中,输入的FeatureMap经过池化(Pooling)后其个数不变,大小变为原来的1/n(假设池化尺寸为n)。池化操作的主要作用是减小特征图的分辨率,降低特征维数,同时在一定程度上增加网络对位移、缩放、扭曲的鲁棒性。池化分为最大池化和平均池化。下采样层的形式如公式2所示:(2)其中down(•)为池化函数,β为权重系数。LeNet-5虽然在手写字符识别领域取得了成功,但是其存在的缺点也比较明显,包括难以寻找到合适的大型训练集对网络进行训练以适应更为复杂的应用需求;过拟合问题使得LeNet-5的泛化能力较弱;网络的训练开销非常大,硬件性能支持的不足使得网络结构的研究非常困难。以上三大制约卷积神经网络发展国防科技大学课程设计机器视觉-4-的重要因素在近期的研究中取得了突破性的进展是卷积神经网络成为一个新的研究热点的重要原因。并且,近期针对卷积神经网络的深度和结构优化方面的研究进一步提升了网络的数据拟合能力。3.2卷积神经网络模型的改进3.2.1CNN卷积层的改进在增加模型深度可以有效增加网络性能的理论基础上,Krizhevsky等[11]把CNN的卷积层数加至5层,构成了深度卷积神经网络(deepconvolutionalneuralnetwork,DCNN);zegedy等组成GoogLeNet小组构建了22层深度网络[12],该网络比2012ILSVRC获胜者的网络参数少了12倍,却能更精确的分类和检测,在2014年的ILSVRC一举夺冠。如何构建更深网络一直是CNN的研究热点,2015ILSVRC的152层“深层残差网络”[13]采用了一个全新的“残差学习”原则指导学习,并重新定向了深层CNN中的信息流,高效地解决了深层神经网络准确度与层数之间的矛盾。王冠皓[14]提出了多级金字塔卷积神经网(multi-levelpyramidCNN),CNN每层先使用稀疏自编码器预训练,再使用金字塔卷积神经网络对整个网络训练,将低层的滤波权值共享到高层,保证训练时的卷积滤波只在小尺寸图像上进行,大尺度图像只进行一次向前传播,加快训练速度。此外,Zhang在ImageNet上训练具有7层的快速非线性卷积神经网络[15],对每层加速以达到对整个网络加速的目的,速度可达到与“AlexNet”[16]一致的同时,分类精度也提高了4.7%。3.2.2CNN降采样层的改进常规DCNN只能对尺度固定的图像进行处理,对尺度不同的输入图像需人工裁剪或拉伸之后才输入网络,会造成图像失真而影响分类的准确率。DCNN的卷积层尾端引入空间金字塔降采样层去除固定尺度的约束,降采样获得与全连接层相匹配的特征。多尺度训练得到的空间金字塔降采样网络(spatialpyramidpoolingnetworkSPP-net)[17]可处理任意尺度的图像。Rippel等[18]提出了频谱池化的方法,将CNN进行傅里叶变换来把耗时的卷积操作替换为乘积操作可加速网络训练,通过截取信号在频域特征表示来降低维度,不仅可以保留更多的信息,还比其它的池化方法更灵活,提高了利用傅里叶变换计算卷积效率。Zeiler等[19]提出了反卷积神经网络(deconvolutionalnetworks,DN),采用非监督方法对自然图像自顶向下进行卷积分解,再组合滤波器组学习到的卷积特征,获

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功