[关闭]零基础入门深度学习(4)-卷积神经网络机器学习深度学习入门无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(DeepLearning)这个超热的技术,会不会感觉马上就out了?现在救命稻草来了,《零基础入门深度学习》系列文章旨在讲帮助爱编程的你从零基础达到入门级水平。零基础意味着你不需要太多的数学知识,只要会写程序就行了,没错,这是专门为程序员写的文章。虽然文中会有很多公式你也许看不懂,但同时也会有更多的代码,程序员的你一定能看懂的(我周围是一群狂热的CleanCode程序员,所以我写的代码也不会很差)。文章列表零基础入门深度学习(1)-感知器零基础入门深度学习(2)-线性单元和梯度下降零基础入门深度学习(3)-神经网络和反向传播算法零基础入门深度学习(4)-卷积神经网络零基础入门深度学习(5)-循环神经网络零基础入门深度学习(6)-长短时记忆网络(LSTM)零基础入门深度学习(7)-递归神经网络往期回顾在前面的文章中,我们介绍了全连接神经网络,以及它的训练和使用。我们用它来识别了手写数字,然而,这种结构的网络对于图像识别任务来说并不是很合适。本文将要介绍一种更适合图像、语音识别任务的神经网络结构——卷积神经网络(ConvolutionalNeuralNetwork,CNN)。说卷积神经网络是最重要的一种神经网络也不为过,它在最近几年大放异彩,几乎所有图像、语音识别领域的重要突破都是卷积神经网络取得的,比如谷歌的GoogleNet、微软的ResNet等,打败李世石的AlphaGo也用到了这种网络。本文将详细介绍卷积神经网络以及它的训练算法,以及动手实现一个简单的卷积神经网络。一个新的激活函数——Relu最近几年卷积神经网络中,激活函数往往不选择sigmoid或tanh函数,而是选择relu函数。Relu函数的定义是:Relu函数图像如下图所示:Relu函数作为激活函数,有下面几大优势:速度快和sigmoid函数需要计算指数和倒数相比,relu函数其实就是一个max(0,x),计算代价小很多。减轻梯度消失问题回忆一下计算梯度的公式。其中,是sigmoid函数的导数。在使用反向传播算法进行梯度计算时,每经过一层sigmoid神经元,梯度就要乘上一个。从下图可以看出,函数最大值是1/4。因此,乘一个会导致梯度越来越小,这对于深层网络的训练是个很大的问题。而relu函数的导数是1,不会导致梯度变小。当然,激活函数仅仅是导致梯度减小的一个因素,但无论如何在这方面relu的表现强于sigmoid。使用relu激活函数可以让你训练更深的网络。稀疏性通过对大脑的研究发现,大脑在工作的时候只有大约5%的神经元是激活的,而采用sigmoid激活函数的人工神经网络,其激活率大约是50%。有论文声称人工神经网络在15%-30%的激活率时是比较理想的。因为relu函数在输入小于0时是完全不激活的,因此可以获得一个更低的激活率。全连接网络VS卷积网络全连接神经网络之所以不太适合图像识别任务,主要有以下几个方面的问题:参数数量太多考虑一个输入1000*1000像素的图片(一百万像素,现在已经不能算大图了),输入层有1000*1000=100万节点。假设第一个隐藏层有100个节点(这个数量并不多),那么仅这一层就有(1000*1000+1)*100=1亿参数,这实在是太多了!我们看到图像只扩大一点,参数数量就会多很多,因此它的扩展性很差。没有利用像素之间的位置信息对于图像识别任务来说,每个像素和其周围像素的联系是比较紧密的,和离得很远的像素的联系可能就很小了。如果一个神经元和上一层所有神经元相连,那么就相当于对于一个像素来说,把图像的所有像素都等同看待,这不符合前面的假设。当我们完成每个连接权重的学习之后,最终可能会发现,有大量的权重,它们的值都是很小的(也就是这些连接其实无关紧要)。努力学习大量并不重要的权重,这样的学习必将是非常低效的。网络层数限制我们知道网络层数越多其表达能力越强,但是通过梯度下降方法训练深度全连接神经网络很困难,因为全连接神经网络的梯度很难传递超过3层。因此,我们不可能得到一个很深的全连接神经网络,也就限制了它的能力。那么,卷积神经网络又是怎样解决这个问题的呢?主要有三个思路:局部连接这个是最容易想到的,每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连。这样就减少了很多参数。权值共享一组连接可以共享同一个权重,而不是每个连接有一个不同的权重,这样又减少了很多参数。下采样可以使用Pooling来减少每层的样本数,进一步减少参数数量,同时还可以提升模型的鲁棒性。对于图像识别任务来说,卷积神经网络通过尽可能保留重要的参数,去掉大量不重要的参数,来达到更好的学习效果。接下来,我们将详述卷积神经网络到底是何方神圣。卷积神经网络是啥首先,我们先获取一个感性认识,下图是一个卷积神经网络的示意图:网络架构如图1所示,一个卷积神经网络由若干卷积层、Pooling层、全连接层组成。你可以构建各种不同的卷积神经网络,它的常用架构模式为:INPUT-[[CONV]*N-POOL?]*M-[FC]*K也就是N个卷积层叠加,然后(可选)叠加一个Pooling层,重复这个结构M次,最后叠加K个全连接层。对于图1展示的卷积神经网络:INPUT-CONV-POOL-CONV-POOL-FC-FC按照上述模式可以表示为:INPUT-[[CONV]*1-POOL]*2-[FC]*2也就是:N=1,M=2,K=2。三维的层结构从图1我们可以发现卷积神经网络的层结构和全连接神经网络的层结构有很大不同。全连接神经网络每层的神经元是按照一维排列的,也就是排成一条线的样子;而卷积神经网络每层的神经元是按照三维排列的,也就是排成一个长方体的样子,有宽度、高度和深度。对于图1展示的神经网络,我们看到输入层的宽度和高度对应于输入图像的宽度和高度,而它的深度为1。接着,第一个卷积层对这幅图像进行了卷积操作(后面我们会讲如何计算卷积),得到了三个FeatureMap。这里的3可能是让很多初学者迷惑的地方,实际上,就是这个卷积层包含三个Filter,也就是三套参数,每个Filter都可以把原始输入图像卷积得到一个FeatureMap,三个Filter就可以得到三个FeatureMap。至于一个卷积层可以有多少个Filter,那是可以自由设定的。也就是说,卷积层的Filter个数也是一个超参数。我们可以把FeatureMap可以看做是通过卷积变换提取到的图像特征,三个Filter就对原始图像提取出三组不同的特征,也就是得到了三个FeatureMap,也称做三个通道(channel)。继续观察图1,在第一个卷积层之后,Pooling层对三个FeatureMap做了下采样(后面我们会讲如何计算下采样),得到了三个更小的FeatureMap。接着,是第二个卷积层,它有5个Filter。每个Fitler都把前面下采样之后的3个**FeatureMap卷积在一起,得到一个新的FeatureMap。这样,5个Filter就得到了5个FeatureMap。接着,是第二个Pooling,继续对5个FeatureMap进行下采样**,得到了5个更小的FeatureMap。图1所示网络的最后两层是全连接层。第一个全连接层的每个神经元,和上一层5个FeatureMap中的每个神经元相连,第二个全连接层(也就是输出层)的每个神经元,则和第一个全连接层的每个神经元相连,这样得到了整个网络的输出。至此,我们对卷积神经网络有了最基本的感性认识。接下来,我们将介绍卷积神经网络中各种层的计算和训练。卷积神经网络输出值的计算卷积层输出值的计算我们用一个简单的例子来讲述如何计算卷积,然后,我们抽象出卷积层的一些重要概念和计算方法。假设有一个5*5的图像,使用一个3*3的filter进行卷积,想得到一个3*3的FeatureMap,如下所示:为了清楚的描述卷积计算过程,我们首先对图像的每个像素进行编号,用表示图像的第行第列元素;对filter的每个权重进行编号,用表示第行第列权重,用表示filter的偏置项;对FeatureMap的每个元素进行编号,用表示FeatureMap的第行第列元素;用表示激活函数(这个例子选择relu函数作为激活函数)。然后,使用下列公式计算卷积:例如,对于FeatureMap左上角元素来说,其卷积计算方法为:计算结果如下图所示:式接下来,FeatureMap的元素的卷积计算方法为:计算结果如下图所示:可以依次计算出FeatureMap中所有元素的值。下面的动画显示了整个FeatureMap的计算过程:上面的计算过程中,步幅(stride)为1。步幅可以设为大于1的数。例如,当步幅为2时,FeatureMap计算如下:我们注意到,当步幅设置为2的时候,FeatureMap就变成2*2了。这说明图像大小、步幅和卷积后的FeatureMap大小是有关系的。事实上,它们满足下面的关系:在上面两个公式中,是卷积后FeatureMap的宽度;是卷积前图像的宽度;是filter的宽度;是ZeroPadding数量,ZeroPadding是指在原始图像周围补几圈0,如果的值是1,那么就补1圈0;是步幅;是卷积后FeatureMap的高度;是卷积前图像的宽度。式2和式3本质上是一样的。以前面的例子来说,图像宽度,filter宽度,ZeroPadding,步幅,则说明FeatureMap宽度是2。同样,我们也可以计算出FeatureMap高度也是2。前面我们已经讲了深度为1的卷积层的计算方法,如果深度大于1怎么计算呢?其实也是类似的。如果卷积前的图像深度为D,那么相应的filter的深度也必须为D。我们扩展一下式1,得到了深度大于1的卷积计算公式:在式4中,D是深度;F是filter的大小(宽度或高度,两者相同);表示filter的第层第行第列权重;表示图像的第层第行第列像素;其它的符号含义和式1是相同的,不再赘述。我们前面还曾提到,每个卷积层可以有多个filter。每个filter和原始图像进行卷积后,都可以得到一个FeatureMap。因此,卷积后FeatureMap的深度(个数)和卷积层的filter个数是相同的。下面的动画显示了包含两个filter的卷积层的计算。我们可以看到7*7*3输入,经过两个3*3*3filter的卷积(步幅为2),得到了3*3*2的输出。另外我们也会看到下图的Zeropadding是1,也就是在输入元素的周围补了一圈0。Zeropadding对于图像边缘部分的特征提取是很有帮助的。式式式以上就是卷积层的计算方法。这里面体现了局部连接和权值共享:每层神经元只和上一层部分神经元相连(卷积计算规则),且filter的权值对于上一层所有神经元都是一样的。对于包含两个3*3*3的fitler的卷积层来说,其参数数量仅有(3*3*3+1)*2=56个,且参数数量与上一层神经元个数无关。与全连接神经网络相比,其参数数量大大减少了。用卷积公式来表达卷积层计算不想了解太多数学细节的读者可以跳过这一节,不影响对全文的理解。式4的表达很是繁冗,最好能简化一下。就像利用矩阵可以简化表达全连接神经网络的计算一样,我们利用卷积公式可以简化卷积神经网络的表达。下面我们介绍二维卷积公式。设矩阵,,其行、列数分别为、、、,则二维卷积公式如下:且,满足条件。我们可以把上式写成如果我们按照式5来计算卷积,我们可以发现矩阵A实际上是filter,而矩阵B是待卷积的输入,位置关系也有所不同:从上图可以看到,A左上角的值与B对应区块中右下角的值相乘,而不是与左上角的相乘。因此,数学中的卷积和卷积神经网络中的『卷积』还是有区别的,为了避免混淆,我们把卷积神经网络中的『卷积』操作叫做互相关(cross-correlation)操作。式卷积和互相关操作是可以转化的。首先,我们把矩阵A翻转18