目标检测CNN系列

hqhp1124
1 ℃
2020-04-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

机器学习与深度学习机器学习（MachineLearning）是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识构不断改善自身的性能的学科。（阿尔法狗）一般方法：应用：图像识别、语音识别、天气预测、基因表达、内容推荐特征是机器学习系统的原材料，对最终模型的影响是毋庸置的。上面步骤中间三步可以概括为特征处理，深度学习即机器自动处理特征。深度学习基本思想一个多层信息处理系统：I=S1=S2=…..=Sn=OI输入，O输出，Si处理层理想情况：I=O信息处理不会增加信息，大部分处理会丢失信息。调整Si使得I与O差别尽量小，每一层Si都是原来信息的另一种表示即特征。于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。深度学习发展20世纪80年代末期，用于人工神经网络的反向传播算法（也叫BackPropagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了基于统计模型的机器学习热潮。利用BP算法可以让一个人工神经网络模型从大量训练样本中学习统计规律。20世纪90年代，各种各样的浅层机器学习模型相继被提出，例如支持向量机（SVM，SupportVectorMachines）、Boosting、最大熵方法（如LR，LogisticRegression）等。这些模型的结构基本上可以看成带有一层隐层节点（如SVM、Boosting），或没有隐层节点（LR）。2006年，GeoffreyHinton和他的学生在《sicence》发表文章提出观点1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wisepre-training）有效克服深度学习与神经网络大约二三十年前，neuralnetwork曾经是ML领域特别火热的一个方向，后来由于容易过拟合，难以微调参数等慢慢淡出，直到Hinton提出了一个实际可行的deeplearning框架。Deeplearning与传统的神经网络之间有相同的地方也有很多不同。deeplearning采用了神经网络相似的分层结构，系统由包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接。另一方面，DL采用了与神经网络很不同的训练机制。神经网络根据当前输出和label之间的差去改变前面各层的参数，直到收敛（迭代）。而DL使用自下上升非监督学习特征，分别得到各层的参数，再使用自顶向下的监督学习，通过带标签的数据去训练，对各层参数进行微调。图像处理中的卷积类似与一种过滤器，卷积核在原矩阵（有n*m个像素的图可以用矩阵表示）上滑动，求出原矩阵每一个元素卷积后的值，得到一个新的矩阵。A=[17241815h=[816h翻=[2942357141635775346132022492]618]10121921311182529]计算输出图像的（2，4）元素=图像处理中的卷积当对图像边缘的进行滤波时，核的一部分会位于图像边缘外面。常用的策略包括：1）使用常数填充：默认用0填充。2）复制边缘像素卷积神经网络卷积神经网络是人工神经网络的一种，由感知机发展而来，是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。特点：通过感受野和权值共享减少了神经网络需要训练的参数的个数，局部感受野和权值共享以及时间和空间的亚采样保证某种尺度的位移尺度、形变不变性。卷积神经网络同一般的深度网络一样，卷积神经网络包括输入层、隐藏层和输出层（一般采用softmax分类器），其中输入层主要由卷积层和下采样层组成。每一次利用卷积提取特征基本可以概括为线性变换——非线性变换——下采样三个阶段。1、线性变换：yj=bj+∑wij*xi*表示卷积，xi-输入特征图，yi-输出特征图，xi与yi之间权值为wij,b为偏置2、非线性阶段,对卷积阶段得到的特征按照一定的原则进行筛选,即激活函数，常用的激活函数有sigmod、tanh、softsign和relu函数。3、下采样即池化（pooling）,用以保留有用特征的同时降低维数，常用的方法有maxpooling和meanpolling。RCNN系列作者：RossGirshick⊙RCNN（Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation）⊙SSP(SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition)提升R-CNN检测的速度24-102倍RCNN系列⊙FastRCNN比R-CNN更高的检测质量（mAP），不需要在磁盘中存储特征⊙FasterRCNN共享卷积计算结果，利用achors在conv5提取9个候选区域⊙UOLO(Youonlylookonce)45fps利用整张图作为网络的输入，将一幅图像分成SxS个网格，B个boundingbox，每个boundingbox除了要回归自身的位置之外，还要附带预测一个confidence值。直接在输出层回归boundingbox的位置和boundingbox所属的类别。YOLO对相互靠的很近的物体，还有很小的群体检测效果不好CVPR2016CNNSSD(SingleShotMultiBoxDetector)LocNet:ImprovingLocalizationAccuracyforObjectDetectionResNet(DeepResidualLearningforImageRecognition)G-CNN:anIterativeGridBasedObjectDetectorMCNN(Single-ImageCrowdCountingviaMulti-ColumnConvolutionalNeuralNetwork)CAFFECaffeisadeeplearningframeworkmadewithexpression,speed,andmodularityinmind.ItisdevelopedbytheBerkeleyVisionandLearningCenter(BVLC)andbycommunitycontributors.