YouOnlyLookOnceUnified,Real-TimeObjectDetection2016CVPR2016YOLO1234目录研究背景实现方法性能比较总结分析CVPR2016问题牵引-只需一眼,人类便可识别眼前物体及其关系,快速识别不同模式、根据早前知识进行归纳、以及适应不同的图像环境一直都是人类的专属技能,机器尚未获得-计算机如何实现类似人类视觉系统快速、准确的检测?-如何提升目标检测的速度?研究背景YOLOCVPR2016研究现状-普遍使用分类器classifier执行检测-过程复杂,速度较慢,训练耗时研究背景YOLODetectionSystems•DPMDeformablePartsModels(DPM),采用slidingwindow检测•R-CNN、FastR-CNN采用regionproposals的方法,先生成一些可能包含待检测物体的potentialboundingbox,再通过一个classifier(SVM)去判断每个boundingbox里是否包含有物体,以及物体所属类别的probability或者confidenceCVPR2016YOLO将检测变为一个regressionproblem,YOLO从输入的图像,仅仅经过一个neuralnetwork,直接得到boundingboxes以及每个boundingbox所属类别的概率。正因为整个的检测过程仅仅有一个网络,所以它可以直接end-to-end的优化。YOLO结构十分的快,标准版YOLO每秒可以实时地处理45帧图像。一个较小版本FastYOLO,可以每秒处理155帧图像,它的mAP(meanAveragePrecision)依然可以达到其他实时检测算法的两倍。研究背景YOLOCVPR2016实现方法YOLO核心思想输入:利用整张图作为网络的输入,输出:直接在输出层回归boundingbox的位置和boundingbox所属的类别。CVPR20163.这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息其中如果有object落在一个gridcell里,第一项取1,否则取0。第二项是预测的boundingbox和实际的groundtruth之间的IOU值。实现方法YOLO核心思想1.将一幅图像分成SxS个网格(gridcell),如果某个object的中心落在这个网格中,则这个网格负责预测这个object。2.每个网格要预测B个boundingbox,每个boundingbox除了要回归自身的位置之外,还要附带预测一个confidence值,即每个box要预测(x,y,w,h)和confidence共5个值。CVPR2016实现方法YOLO核心思想4.每个boundingbox要预测(x,y,w,h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。则SxS个网格,每个网格要预测B个boundingbox还要预测C个categories。输出SxSx(5*B+C)的一个tensor。注意:class信息是针对每个网格的,confidence信息是针对每个boundingbox的。5.在test的时候,每个网格预测的class信息和boundingbox预测confidence信息相乘,就得到每个boundingbox的class-specificconfidencescore:等式左边第一项就是每个网格预测的类别信息,第二三项就是每个boundingbox预测的confidence。这个乘积即表示了预测的b-box属于某一类的概率,也有该box准确度的信息。PrClassiObject∗PrObject∗IOUpredtruth=PrClassi∗IOUpredtruthCVPR2016实现方法YOLO核心思想1.图像分成7×7个网格(gridcell),检测20个类别,每个网格要预测2个b-box2.一个b-box输出张量为1×(5+5+20)3.得到20×(7×7×2)的矩阵NMS方法去除重复率大的b-boxCVPR2016实现方法YOLO核心思想输出7×7×30张量输入448×448图像GoogleNet24个卷积层+2个全连接层CVPR2016实现方法YOLO损失函数误差=定位误差+分类误差误差=定位误差+置信度误差+分类误差误差=定位误差+包含目标的框置信度误差+不包含目标的框置信度误差+分类误差Output:SxSx(5*B+C)的一个tensorB:(x,y,w,h,confidence)C:Pi(C)ofCategory不能等值加权置信度有两类CVPR2016实现方法YOLO损失函数采用平方根之差兼顾大框和小框的误差CVPR2016实现方法YOLO损失函数采用平方根之差兼顾大框和小框的误差CVPR2016性能比较YOLO1.与其它一些实时检测系统性能比较CVPR2016性能比较YOLO2.误差来源分析Corret:正确检测Loc:类判别正确但定位错误Sim:类相似Other:类判别错误Background:判断为背景CVPR2016性能比较YOLO3.结合fastRCNN的YOLO思想:通过YOLO来消除fastRCNN中较大的背景误差方法:对RCNN预测的每个边界框,检查YOLO是否预测类似的框。如果是,我们基于由YOLO预测的概率和两个框之间的重叠,使得该预测增强CVPR2016性能比较YOLO4.艺术品中的人检测在Picasso和People-Art数据集上的综合结果CVPR2016性能比较YOLO4.艺术品中的人检测CVPR2016YOLO优点1.网络简单,容易构建2.速度快,实时性最好3.检测性能好,背景误差小总结分析YOLOYOLO缺点1.对图像上的小目标检测性能不佳2.对临近物体及很小的群体,检测效果不好3.定位误差较大。尤其是对小物体的处理上,还有待加强YouOnlyLookOnceUnified,Real-TimeObjectDetection2016Thankyou!