最近一直在看行人检测的论文,对目前的行人检测做大概的介绍。行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智能机器人等领域。从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,个人觉得主要还是在性能和速度方面还不能达到一个权衡。1.行人检测的现状(大概可以分为两类)(1).基于背景建模:利用背景建模方法,提取出前景运动的目标,在目标区域内进行特征提取,然后利用分类器进行分类,判断是否包含行人;背景建模目前主要存在的问题:(背景建模的方法总结可以参考我的前一篇博文介绍)(前景目标检测总结)必须适应环境的变化(比如光照的变化造成图像色度的变化);相机抖动引起画面的抖动(比如手持相机拍照时候的移动);图像中密集出现的物体(比如树叶或树干等密集出现的物体,要正确的检测出来);必须能够正确的检测出背景物体的改变(比如新停下的车必须及时的归为背景物体,而有静止开始移动的物体也需要及时的检测出来)。物体检测中往往会出现Ghost区域,Ghost区域也就是指当一个原本静止的物体开始运动,背静差检测算法可能会将原来该物体所覆盖的区域错误的检测为运动的,这块区域就成为Ghost,当然原来运动的物体变为静止的也会引入Ghost区域,Ghost区域在检测中必须被尽快的消除。(2).基于统计学习的方法:这也是目前行人检测最常用的方法,根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。统计学习目前存在的难点:(a)行人的姿态、服饰各不相同、复杂的背景、不同的行人尺度以及不同的关照环境。(b)提取的特征在特征空间中的分布不够紧凑;(c)分类器的性能受训练样本的影响较大;(d)离线训练时的负样本无法涵盖所有真实应用场景的情况;目前的行人检测基本上都是基于法国研究人员Dalal在2005的CVPR发表的HOG+SVM的行人检测算法(HistogramsofOrientedGradientsforHumanDetection,NavneetDalel,BillTriggs,CVPR2005)。HOG+SVM作为经典算法也别集成到opencv里面去了,可以直接调用实现行人检测为了解决速度问题可以采用背景差分法的统计学习行人检测,前提是背景建模的方法足够有效(即效果好速度快),目前获得比较好的检测效果的方法通常采用多特征融合的方法以及级联分类器。(常用的特征有Harry-like、Hog特征、LBP特征、Edgelet特征、CSS特征、COV特征、积分通道特征以及CENTRIST特征。2.行人检测综述性文章[1]D.Geronimo,andA.M.Lopez.Vision-basedPedestrianProtectionSystemsforIntelligentVehicles,BOOK,2014.[2]P.Dollar,C.Wojek,B.Schiele,etal.Pedestriandetection:anevaluationofthestateoftheart[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(4):743-761.[3]苏松志,李绍滋,陈淑媛等.行人检测技术综述[J].电子学报,2012,40(4):814-820.[4]M.Enzweiler,andD.Gavrila.Monocularpedestriandetection:surveyandexperiments[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,31(12):2179-2195.[5]D.Geronimo,A.M.LopezandA.D.Sappa,etal.Surveyofpedestriandetectionforadvanceddriverassistancesystems[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(7):1239-1258.[6]贾慧星,章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J],自动化学报,2007,33(1):84-90.[7]许言午,曹先彬,乔红.行人检测系统研究新进展及关键技术展望[J],电子学报,2008,36(5):368-376.[8]杜友田;陈峰;徐文立;李永彬;基于视觉的人的运动识别综述,电子学报,2007.35(1):84-90.[9]朱文佳.基于机器学习的行人检测关键技术研究[D].第一章,硕士学位论文,上海交通大学.2008.指导教师:戚飞虎.最新论文2014_ITS_Towardreal-timepedestriandetectionbasedonadeformabletemplatemodel2014_PAMI_Scene-specificpedestriandetectionforstaticvideosurveillance2014_CVPR_PedestrianDetectioninLow-resolutionImagerybyLearningMulti-scaleIntrinsicMotionStructures(MIMS)2014_CVPR_SwitchableDeepNetworkforPedestrianDetection2014_CVPR_InformedHaar-likeFeaturesImprovePedestrianDetection2014_CVPR_WordChannelBasedMultiscalePedestrianDetectionWithoutImageResizingandUsingOnlyOneClassifier2013_BMVC_Surveillancecameraautocalibrationbasedonpedestrianheightdistribution2013_Virtualandrealworldadaptationforpedestriandetection2013_Searchspacereductioninpedestriandetectionfordriverassistancesystembasedonprojectivegeometry2013_CVPR_RobustMulti-ResolutionPedestrianDetectioninTrafficScenes2013_CVPR_OptimizedPedestrianDetectionforMultipleandOccludedPeople2013_CVPR_PedestrianDetectionwithUnsupervisedandMulti-StageFeatureLearning2013_CVPR_Single-PedestrianDetectionaidedbyMulti-pedestrianDetection2013_CVPR_ModelingMutualVisibilityRelationshipinPedestrianDetection2013_CVPR_LocalFisherDiscriminantAnalysisforPedestrianRe-identification3.行人检测sourcecode1.INRIAObjectdetectionandLocalizationToolkit,Dalal于2005年提出了基于HOG特征的行人检测方法,行人检测领域中的经典文章之一。HOG特征目前也被用在其他的目标检测与识别、图像检索和跟踪等领域中。2.Real-timePedestrianDetection.JianxinWu实现的快速行人检测方法。3.HoughTransfomforPedestrianDetection.OlgaBarinova,CVPR2010Paper:OndetectionofmultipleobjectinstancesusingHoughTransforms4.HIKSVM,HOG+LBP+HIKSVM,行人检测的经典方法.5.GroundHOG,GPU-basedObjectDetectionwithGeometricConstraints,In:ICVS,2011.CUDA版本的HOG+SVM,video.6.100FPS_PDS,Pedestriandetectionat100framespersecond,R.Benenson.CVPR,2012.实时的(⊙o⊙)哦。Real-time!!!7.POM:ProbabilisticOccupancyMap.Multiplecamerapedestriandetection.8.PitorDollarDetector.IntegralChannelFeature+多尺度特征近似+多特征融合.Real-Time!4.行人检测DataSetsMIT数据库该数据库为较早公开的行人数据库,共924张行人图片(ppm格式,宽高为64x128),肩到脚的距离约80象素。该数据库只含正面和背面两个视角,无负样本,未区分训练集和测试集。Dalal等采用“HOG+SVM”,在该数据库上的检测准确率接近100%。INRIA数据库该数据库是目前使用最多的静态行人检测数据库,提供原始图片及相应的标注文件。训练集有正样本614张(包含2416个行人),负样本1218张;测试集有正样本288张(包含1126个行人),负样本453张。图片中人体大部分为站立姿势且高度大于100个象素,部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google,因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚,但可用OpenCV正常读取和显示。Daimler行人数据库该数据库采用车载摄像机获取,分为检测和分类两个数据集。检测数据集的训练样本集有正样本大小为18x36和48x96的图片各15560(3915x4)张,行人的最小高度为72个象素;负样本6744张(大小为640x480或360x288)。测试集为一段27分钟左右的视频(分辨率为640x480),共21790张图片,包含56492个行人。分类数据库有三个训练集和两个测试集,每个数据集有4800张行人图片,5000张非行人图片,大小均为18x36,另外还有3个辅助的非行人图片集,各1200张图片。Caltech行人数据库该数据库是目前规模较大的行人数据库,采用车载摄像头拍摄,约10个小时左右,视频的分辨率为640x480,30帧/秒。标注了约250,000帧(约137分钟),350000个矩形框,2300个行人,另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10,其中set00~set05为训练集,set06~set10为测试集(标注信息尚未公开)。性能评估方法有以下三种:(1)用外部数据进行训练,在set06~set10进行测试;(2)6-fold交叉验证,选择其中的5个做训练,另外一个做测试,调整参数,最后给出训练集上的性能;(3)用set00~set05训练,set06~set10做测试。由于测试集的标注信息没有公开,需要提交给PitorDollar。结果提交方法为每30帧做一个测试,将结果保存在txt文档中(文件的命名方式为I00029.txtI00059.txt……),每个txt文件中的每行表示检测到一个行人,格式为“[left,top,width,height,score]”。如果没有检测到任何行人,则txt文档为空。该数据库还提供了相应的Matlab工具包,包括视频标注信息的读取、画ROC(ReceiverOperatingchar