卷积神经网络全面解析之代码详解

三个字呀哈
2 ℃
2020-03-14

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

卷积神经网络全面解析之代码详解本文介绍多层感知机算法，特别是详细解读其代码实现，基于pythontheano，代码来自：ConvolutionalNeuralNetworks(LeNet)。一、CNN卷积神经网络原理简介要讲明白卷积神经网络，估计得长篇大论，网上有很多博文已经写得很好了，所以本文就不重复了，如果你了解CNN，那可以往下看，本文主要是详细地解读CNN的实现代码。CNN的最大特点就是稀疏连接（局部感受）和权值共享，如下面两图所示，左为稀疏连接，右为权值共享。稀疏连接和权值共享可以减少所要训练的参数，减少计算复杂度。至于CNN的结构，以经典的LeNet5来说明：这个图真是无处不在，一谈CNN，必说LeNet5，这图来自于这篇论文：Gradient-BasedLearningAppliedtoDocumentRecognition，论文很长，第7页那里开始讲LeNet5这个结构，建议看看那部分。我这里简单说一下，LeNet5这张图从左到右，先是input，这是输入层，即输入的图片。input-layer到C1这部分就是一个卷积层（convolution运算），C1到S2是一个子采样层（pooling运算），关于卷积和子采样的具体过程可以参考下图：然后，S2到C3又是卷积，C3到S4又是子采样，可以发现，卷积和子采样都是成对出现的，卷积后面一般跟着子采样。S4到C5之间是全连接的，这就相当于一个MLP的隐含层了（如果你不清楚MLP，参考《DeepLearningtutorial（3）MLP多层感知机原理简介+代码详解》）。C5到F6同样是全连接，也是相当于一个MLP的隐含层。最后从F6到输出output，其实就是一个分类器，这一层就叫分类层。ok，CNN的基本结构大概就是这样，由输入、卷积层、子采样层、全连接层、分类层、输出这些基本“构件”组成，一般根据具体的应用或者问题，去确定要多少卷积层和子采样层、采用什么分类器。当确定好了结构以后，如何求解层与层之间的连接参数？一般采用向前传播（FP）+向后传播（BP）的方法来训练。具体可参考上面给出的链接。二、CNN卷积神经网络代码详细解读（基于python+theano）代码来自于深度学习教程：ConvolutionalNeuralNetworks(LeNet)，这个代码实现的是一个简化了的LeNet5，具体如下：没有实现location-specificgainandbiasparameters用的是maxpooling，而不是average_pooling分类器用的是softmax，LeNet5用的是rbfLeNet5第二层并不是全连接的，本程序实现的是全连接另外，代码里将卷积层和子采用层合在一起，定义为“LeNetConvPoolLayer“（卷积采样层），这好理解，因为它们总是成对出现。但是有个地方需要注意，代码中将卷积后的输出直接作为子采样层的输入，而没有加偏置b再通过sigmoid函数进行映射，即没有了下图中fx后面的bx以及sigmoid映射，也即直接由fx得到Cx。最后，代码中第一个卷积层用的卷积核有20个，第二个卷积层用50个，而不是上面那张LeNet5图中所示的6个和16个。了解了这些，下面看代码：（1）导入必要的模块importcPickleimportgzipimportosimportsysimporttimeimportnumpyimporttheanoimporttheano.tensorasTfromtheano.tensor.signalimportdownsamplefromtheano.tensor.nnetimportconv（2）定义CNN的基本构件CNN的基本构件包括卷积采样层、隐含层、分类器，如下定义LeNetConvPoolLayer（卷积+采样层）见代码注释：卷积+下采样合成一个层LeNetConvPoolLayerrng:随机数生成器，用于初始化Winput:4维的向量，theano.tensor.dtensor4filter_shape:(numberoffilters,numinputfeaturemaps,filterheight,filterwidth)image_shape:(batchsize,numinputfeaturemaps,imageheight,imagewidth)poolsize:(#rows,#cols)classLeNetConvPoolLayer(object):def__init__(self,rng,input,filter_shape,image_shape,poolsize=(2,2)):#assertcondition，condition为True，则继续往下执行，condition为False，中断程序#image_shape[1]和filter_shape[1]都是numinputfeaturemaps，它们必须是一样的。assertimage_shape[1]==filter_shape[1]self.input=input#每个隐层神经元（即像素）与上一层的连接数为numinputfeaturemaps*filterheight*filterwidth。#可以用numpy.prod(filter_shape[1:])来求得fan_in=numpy.prod(filter_shape[1:])#lowerlayer上每个神经元获得的梯度来自于：numoutputfeaturemaps*filterheight*filterwidth/poolingsizefan_out=(filter_shape[0]*numpy.prod(filter_shape[2:])/numpy.prod(poolsize))#以上求得fan_in、fan_out，将它们代入公式，以此来随机初始化W,W就是线性卷积核W_bound=numpy.sqrt(6./(fan_in+fan_out))self.W=theano.shared(numpy.asarray(rng.uniform(low=-W_bound,high=W_bound,size=filter_shape),dtype=theano.config.floatX),borrow=True)#thebiasisa1Dtensor--onebiasperoutputfeaturemap#偏置b是一维向量，每个输出图的特征图都对应一个偏置，#而输出的特征图的个数由filter个数决定，因此用filter_shape[0]即numberoffilters来初始化b_values=numpy.zeros((filter_shape[0],),dtype=theano.config.floatX)self.b=theano.shared(value=b_values,borrow=True)#将输入图像与filter卷积，conv.conv2d函数#卷积完没有加b再通过sigmoid，这里是一处简化。conv_out=conv.conv2d(input=input,filters=self.W,filter_shape=filter_shape,image_shape=image_shape)#maxpooling，最大子采样过程pooled_out=downsample.max_pool_2d(input=conv_out,ds=poolsize,ignore_border=True)#加偏置，再通过tanh映射，得到卷积+子采样层的最终输出#因为b是一维向量，这里用维度转换函数dimshuffle将其reshape。比如b是(10,)，#则b.dimshuffle('x',0,'x','x'))将其reshape为(1,10,1,1)self.output=T.tanh(pooled_out+self.b.dimshuffle('x',0,'x','x'))#卷积+采样层的参数self.params=[self.W,self.b]定义隐含层HiddenLayer这个跟上一篇文章《DeepLearningtutorial（3）MLP多层感知机原理简介+代码详解》中的HiddenLayer是一致的，直接拿过来：注释：这是定义隐藏层的类，首先明确：隐藏层的输入即input，输出即隐藏层的神经元个数。输入层与隐藏层是全连接的。假设输入是n_in维的向量（也可以说时n_in个神经元），隐藏层有n_out个神经元，则因为是全连接，一共有n_in*n_out个权重，故W大小时(n_in,n_out),n_in行n_out列，每一列对应隐藏层的每一个神经元的连接权重。b是偏置，隐藏层有n_out个神经元，故b时n_out维向量。rng即随机数生成器，numpy.random.RandomState，用于初始化W。input训练模型所用到的所有输入，并不是MLP的输入层，MLP的输入层的神经元个数时n_in，而这里的参数input大小是（n_example,n_in）,每一行一个样本，即每一行作为MLP的输入层。activation:激活函数,这里定义为函数tanhclassHiddenLayer(object):def__init__(self,rng,input,n_in,n_out,W=None,b=None,activation=T.tanh):self.input=input#类HiddenLayer的input即所传递进来的input注释：代码要兼容GPU，则必须使用dtype=theano.config.floatX,并且定义为theano.shared另外，W的初始化有个规则：如果使用tanh函数，则在-sqrt(6./(n_in+n_hidden))到sqrt(6./(n_in+n_hidden))之间均匀抽取数值来初始化W，若时sigmoid函数，则以上再乘4倍。#如果W未初始化，则根据上述方法初始化。#加入这个判断的原因是：有时候我们可以用训练好的参数来初始化W，见我的上一篇文章。ifWisNone:W_values=numpy.asarray(rng.uniform(low=-numpy.sqrt(6./(n_in+n_out)),high=numpy.sqrt(6./(n_in+n_out)),size=(n_in,n_out)),dtype=theano.config.floatX)ifactivation==theano.tensor.nnet.sigmoid:W_values*=4W=theano.shared(value=W_values,name='W',borrow=True)ifbisNone:b_values=numpy.zeros((n_out,),dtype=theano.config.floatX)b=theano.shared(value=b_values,name='b',borrow=True)#用上面定义的W、b来初始化类HiddenLayer的W、bself.W=Wself.b=b#隐含层的输出lin_output=T.dot(input,self.W)+self.bself.output=(lin_outputifactivationisNoneelseactivation(lin_output))#隐含层的参数self.params=[self.W,self.b]定义分类器（Softmax回归）采用Softmax，这跟《DeepLearningtutorial（1）Softmax回归原理简介+代码详解》中的LogisticRegression是一样的，直接拿过来：定义分类层LogisticRegression，也即Softmax回归在deeplearningtutorial中，直接将LogisticRegression视为Softmax，而我们所认识的二类别的逻辑回归就是