算法五:神经网络(优化算法)人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。人工神经网络从以下四个方面去模拟人的智能行为:物理结构:人工神经元将模拟生物神经元的功能计算模拟:人脑的神经元有局部计算和存储的功能,通过连接构成一个系统。人工神经网络中也有大量有局部处理能力的神经元,也能够将信息进行大规模并行处理存储与操作:人脑和人工神经网络都是通过神经元的连接强度来实现记忆存储功能,同时为概括、类比、推广提供有力的支持训练:同人脑一样,人工神经网络将根据自己的结构特性,使用不同的训练、学习过程,自动从实践中获得相关知识神经网络是一种运算模型,由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。一、感知器感知器相当于神经网络的一个单层,由一个线性组合器和一个二值阈值原件构成:构成ANN系统的单层感知器:感知器以一个实数值向量作为输入,计算这些输入的线性组合,如果结果大于某个阈值,就输出1,否则输出‐1。感知器函数可写为:sign(w*x)有时可加入偏置b,写为sign(w*x+b)学习一个感知器意味着选择权w0,…,wn的值。所以感知器学习要考虑的候选假设空间H就是所有可能的实数值权向量的集合算法训练步骤:1、定义变量与参数x(输入向量),w(权值向量),b(偏置),y(实际输出),d(期望输出),a(学习率参数)2、初始化,n=0,w=03、输入训练样本,对每个训练样本指定其期望输出:A类记为1,B类记为-14、计算实际输出y=sign(w*x+b)5、更新权值向量w(n+1)=w(n)+a[d-y(n)]*x(n),06、判断,若满足收敛条件,算法结束,否则返回3注意,其中学习率a为了权值的稳定性不应过大,为了体现误差对权值的修正不应过小,说到底,这是个经验问题。从前面的叙述来看,感知器对于线性可分的例子是一定收敛的,对于不可分问题,它没法实现正确分类。这里与我们前面讲到的支持向量机的想法十分的相近,只是确定分类直线的办法有所不同。可以这么说,对于线性可分的例子,支持向量机找到了“最优的”那条分类直线,而单层感知器找到了一条可行的直线。我们以鸢尾花数据集为例,由于单层感知器是一个二分类器,所以我们将鸢尾花数据也分为两类,“setosa”与“versicolor”(将后两类均看做第2类),那么数据按照特征:花瓣长度与宽度做分类。运行下面的代码:#感知器训练结果:a-0.2w-rep(0,3)iris1-t(as.matrix(iris[,3:4]))d-c(rep(0,50),rep(1,100))e-rep(0,150)p-rbind(rep(1,150),iris1)max-100000eps-rep(0,100000)i-0repeat{v-w%*%p;y-ifelse(sign(v)=0,1,0);e-d-y;eps[i+1]-sum(abs(e))/length(e)if(eps[i+1]0.01){print(finish:);print(w);break;}w-w+a*(d-y)%*%t(p);i-i+1;if(imax){print(maxtimeloop);print(eps[i])print(y);break;}}#绘图程序plot(Petal.Length~Petal.Width,xlim=c(0,3),ylim=c(0,8),data=iris[iris$Species==virginica,])data1-iris[iris$Species==versicolor,]points(data1$Petal.Width,data1$Petal.Length,col=2)data2-iris[iris$Species==setosa,]points(data2$Petal.Width,data2$Petal.Length,col=3)x-seq(0,3,0.01)y-x*(-w[2]/w[3])-w[1]/w[3]lines(x,y,col=4)#绘制每次迭代的平均绝对误差plot(1:i,eps[1:i],type=o)分类结果如图:这是运行了7次得到的结果。与我们前面的支持向量机相比,显然神经网络的单层感知器分类不是那么的可信,有些弱。我们可以尝试来做交叉验证,可以发现交叉验证结果并不理想。二、线性神经网络尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为delta法则。如果训练样本不是线性可分的,那么delta法则会收敛到目标概念的最佳近似。delta法则的关键思想是使用梯度下降来搜索可能权向量的假设空间,以找到最佳拟合训练样例的权向量。我们将算法描述如下:1、定义变量与参数。x(输入向量),w(权值向量),b(偏置),y(实际输出),d(期望输出),a(学习率参数)(为叙述简便,我们可以将偏置并入权值向量中)2、初始化w=03、输入样本,计算实际输出与误差。e(n)=d-x*w(n)4、调整权值向量w(n+1)=w(n)+a*x*e(n)5、判断是否收敛,收敛结束,否则返回3Hayjin证明,只要学习率a2/maxeign,delta法则按方差收敛。其中maxeigen为x’x的最大特征值。故我们这里使用1/maxeign作为a的值。我们还是以上面的鸢尾花数据为例来说这个问题。运行代码:p-rbind(rep(1,150),iris1)d-c(rep(0,50),rep(1,100))w-rep(0,3)a-1/max(eigen(t(p)%*%p)$values)max-1000e-rep(0,150)eps-rep(0,1000)i-0for(iin1:max){v-w%*%p;y-v;e-d-y;eps[i+1]-sum(e^2)/length(e)w-w+a*(d-y)%*%t(p);if(i==max)print(w)}得到分类直线:相比感知器分类而言已经好了太多了,究其原因不外乎传递函数由二值阈值函数变为了线性函数,这也就是我们前面提到的delta法则会收敛到目标概念的最佳近似。增量法则渐近收敛到最小误差假设,可能需要无限的时间,但无论训练样例是否线性可分都会收敛。为了明了这一点我们考虑鸢尾花数据后两类花的分类(这里我们将前两类看做一类),使用感知器:使用线性分类器:但是要解释的一点是,收敛并不意味着分类效果更好,要解决线性不可分问题需要的是添加非线性输入或者增加神经元。我们以Minsky&Papert(1969)提出的异或例子为例说明这一点。使用线性神经网络,代码与上面完全相同,略。第一个神经元输出:权值:[,1][,2][,3][1,]0.750.5-0.5测试:[,1][,2][,3][,4][1,]1011第二个神经元输出:权值:[,1][,2][,3][1,]0.75-0.50.5测试:[,1][,2][,3][,4][1,]1101求解异或逻辑(相同取0,不同取1)有结果:(代码xor(c(1,0,1,1),c(1,1,0,1)))[1]FALSETRUETRUEFALSE即0,1,1,0,分类正确。最后再说一点,Delta规则只能训练单层网络,但这不会对其功能造成很大的影响。从理论上说,多层神经网络并不比单层神经网络更强大,他们具有同样的能力。三、BP神经网络1、sigmoid函数分类回顾我们前面提到的感知器,它使用示性函数作为分类的办法。然而示性函数作为分类器它的跳点让人觉得很难处理,幸好sigmoid函数y=1/(1+e^-x)有类似的性质,且有着光滑性这一优良性质。我们通过下图可以看见sigmoid函数的图像:Sigmoid函数有着计算代价不高,易于理解与实现的优点但也有着欠拟合,分类精度不高的特性,我们在支持向量机一章中就可以看到sigmoid函数差劲的分类结果。2、BP神经网络结构BP(BackPropagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。由下图可知,BP神经网络是一个三层的网络:输入层(inputlayer):输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;隐藏层(HiddenLayer):中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程;输出层(OutputLayer):顾名思义,输出层向外界输出信息处理结果;当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向隐藏层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。3、反向传播算法反向传播这一算法把我们前面提到的delta规则的分析扩展到了带有隐藏节点的神经网络。为了理解这个问题,设想Bob给Alice讲了一个故事,然后Alice又讲给了Ted,Ted检查了这个事实真相,发现这个故事是错误的。现在Ted需要找出哪些错误是Bob造成的而哪些又归咎于Alice。当输出节点从隐藏节点获得输入,网络发现出现了误差,权系数的调整需要一个算法来找出整个误差是由多少不同的节点造成的,网络需要问,“是谁让我误入歧途?到怎样的程度?如何弥补?”这时,网络该怎么做呢?同样源于梯度降落原理,在权系数调整分析中的唯一不同是涉及到t(p,n)与y(p,n)的差分。通常来说Wi的改变在于:alpha*s'(a(p,n))*d(n)*X(p,i,n)其中d(n)是隐藏节点n的函数,让我们来看:n对任何给出的输出节点有多大影响;输出节点本身对网络整体的误差有多少影响。一方面,n影响一个输出节点越多,n造成网络整体的误差也越多。另一方面,如果输出节点影响网络整体的误差越少,n对输出节点的影响也相应减少。这里d(j)是对网络的整体误差的基值,W(n,j)是n对j造成的影响,d(j)*W(n,j)是这两种影响的总和。但是n几乎总是影响多个输出节点,也许会影响每一个输出结点,这样,d(n)可以表示为:SUM(d(j)*W(n,j))这里j是一个从n获得输入的输出节点,联系起来,我们就得到了一个培训规则。第1部分:在隐藏节点n和输出节点j之间权系数改变,如下所示:alpha*s'(a(p,n))*(t(p,n)-y(p,n))*X(p,n,j)第2部分:在输入节点i和输出节点n之间权系数改变,如下所示:alpha*s'(a(p,n))*sum(d(j)*W(n,j))*X(p,i,n)这里每个从n接收输入的输出节点j都不同。关于反向传播算法的基本情况大致如此。通常把第1部分称为正向传播,把第2部分称为反向传播。反向传播的名字由此而来。4、最速下降法与其改进最速下降法的基本思想是:要找到某函数的最小值,最好的办法是沿函数的梯度方向探寻,如果梯度记为d,那么迭代公式可写为w=w-alpha*d,其中alpha可理解为我们前面提到的学习速率。最速下降法有着收敛速度慢(因为每次搜索与前一次均正交,收敛是锯齿形的