yolo-Unified--Real-Time-Object-Detection报告

cash920
1 ℃
2020-05-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

YouOnlyLookOnceUnified,Real-TimeObjectDetection2016CVPR2016YOLO1234目录研究背景实现方法性能比较总结分析CVPR2016问题牵引-只需一眼，人类便可识别眼前物体及其关系，快速识别不同模式、根据早前知识进行归纳、以及适应不同的图像环境一直都是人类的专属技能，机器尚未获得-计算机如何实现类似人类视觉系统快速、准确的检测？-如何提升目标检测的速度？研究背景YOLOCVPR2016研究现状-普遍使用分类器classifier执行检测-过程复杂，速度较慢，训练耗时研究背景YOLODetectionSystems•DPMDeformablePartsModels（DPM），采用slidingwindow检测•R-CNN、FastR-CNN采用regionproposals的方法，先生成一些可能包含待检测物体的potentialboundingbox，再通过一个classifier(SVM)去判断每个boundingbox里是否包含有物体，以及物体所属类别的probability或者confidenceCVPR2016YOLO将检测变为一个regressionproblem，YOLO从输入的图像，仅仅经过一个neuralnetwork，直接得到boundingboxes以及每个boundingbox所属类别的概率。正因为整个的检测过程仅仅有一个网络，所以它可以直接end-to-end的优化。YOLO结构十分的快，标准版YOLO每秒可以实时地处理45帧图像。一个较小版本FastYOLO，可以每秒处理155帧图像，它的mAP（meanAveragePrecision）依然可以达到其他实时检测算法的两倍。研究背景YOLOCVPR2016实现方法YOLO核心思想输入：利用整张图作为网络的输入，输出：直接在输出层回归boundingbox的位置和boundingbox所属的类别。CVPR20163.这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息其中如果有object落在一个gridcell里，第一项取1，否则取0。第二项是预测的boundingbox和实际的groundtruth之间的IOU值。实现方法YOLO核心思想1.将一幅图像分成SxS个网格(gridcell)，如果某个object的中心落在这个网格中，则这个网格负责预测这个object。2.每个网格要预测B个boundingbox，每个boundingbox除了要回归自身的位置之外，还要附带预测一个confidence值，即每个box要预测(x,y,w,h)和confidence共5个值。CVPR2016实现方法YOLO核心思想4.每个boundingbox要预测(x,y,w,h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。则SxS个网格，每个网格要预测B个boundingbox还要预测C个categories。输出SxSx(5*B+C)的一个tensor。注意：class信息是针对每个网格的，confidence信息是针对每个boundingbox的。5.在test的时候，每个网格预测的class信息和boundingbox预测confidence信息相乘，就得到每个boundingbox的class-specificconfidencescore:等式左边第一项就是每个网格预测的类别信息，第二三项就是每个boundingbox预测的confidence。这个乘积即表示了预测的b-box属于某一类的概率，也有该box准确度的信息。PrClassiObject∗PrObject∗IOUpredtruth=PrClassi∗IOUpredtruthCVPR2016实现方法YOLO核心思想1.图像分成7×7个网格(gridcell)，检测20个类别，每个网格要预测2个b-box2.一个b-box输出张量为1×(5+5+20）3.得到20×(7×7×2)的矩阵NMS方法去除重复率大的b-boxCVPR2016实现方法YOLO核心思想输出7×7×30张量输入448×448图像GoogleNet24个卷积层+2个全连接层CVPR2016实现方法YOLO损失函数误差=定位误差+分类误差误差=定位误差+置信度误差+分类误差误差=定位误差+包含目标的框置信度误差+不包含目标的框置信度误差+分类误差Output：SxSx(5*B+C)的一个tensorB：(x,y,w,h,confidence)C：Pi(C)ofCategory不能等值加权置信度有两类CVPR2016实现方法YOLO损失函数采用平方根之差兼顾大框和小框的误差CVPR2016实现方法YOLO损失函数采用平方根之差兼顾大框和小框的误差CVPR2016性能比较YOLO1.与其它一些实时检测系统性能比较CVPR2016性能比较YOLO2.误差来源分析Corret:正确检测Loc：类判别正确但定位错误Sim：类相似Other：类判别错误Background：判断为背景CVPR2016性能比较YOLO3.结合fastRCNN的YOLO思想：通过YOLO来消除fastRCNN中较大的背景误差方法：对RCNN预测的每个边界框，检查YOLO是否预测类似的框。如果是，我们基于由YOLO预测的概率和两个框之间的重叠，使得该预测增强CVPR2016性能比较YOLO4.艺术品中的人检测在Picasso和People-Art数据集上的综合结果CVPR2016性能比较YOLO4.艺术品中的人检测CVPR2016YOLO优点1.网络简单，容易构建2.速度快，实时性最好3.检测性能好，背景误差小总结分析YOLOYOLO缺点1.对图像上的小目标检测性能不佳2.对临近物体及很小的群体，检测效果不好3.定位误差较大。尤其是对小物体的处理上，还有待加强YouOnlyLookOnceUnified,Real-TimeObjectDetection2016Thankyou！