第3章神经网络3-径向基函数网络(n)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

43第三章径向基函数网络.....................................................................................................................................443.1径向基函数(RedialBasisFunction,RBF)..................................................................................443.2径向基函数参数的选取.......................................................................................................................463.2.1基函数中心pc的选取................................................................................................................463.2.2权系数的确定.......................................................................................................................473.3高斯条函数...........................................................................................................................................4844)(1)(phPppλxg第三章径向基函数网络径向基函数网络利用具有局部隆起的所谓径向基函数来做逼近或分类问题。它可以看作是一种前馈网络,所处理的信息在工作过程中逐层向前流动。虽然它也可以像BP网络那样利用训练样本作有教师学习,但是其更典型更常用的学习方法则与BP网络有所不同,综合利用了有教师学习和无教师学习两种方法。对于某些问题,径向基函数网络可能比BP网络精度更高。3.1径向基函数(RedialBasisFunction,RBF)[Powell1985]提出了多变量插值的径向基函数方法。稍后[Broomhead1988]成功地将径向基函数用于模式识别。径向基函数可以写成||)1(||)(Pppcxpxg(3.1.1)其中NRx表示模式向量;NPppRc1}{是基函数中心;j是权系数;是选定的非线性基函数。(3.1.1)可以看作是一个神经网络,输入层有N个单元,输入模式向量x由此进入网络。隐层有P个单元,第p个单元的输入为||||ppcxh,输出为)(ph。输出层1个单元,输出为。假设给定了一组训练样本11},{RRyxNJjjj。当jy只取有限个值(例如,取0,1或1)时,可以认为是分类问题;而当jy可取任意实数时,视为逼近问题。网络学习(或训练)的任务就是利用训练样本来确定输入层到隐层的权向量pc和隐层到输出层的权系数p,使得Jjyxgjj,,1,)((3.1.2)为此,当PJ时,可以简单地令Ppxcpp,,1,(3.1.3)这时(3.1.2)成为关于p的线性方程组,其系数矩阵通常可逆,因此有唯一解(参见[MC])。在实践中更多的情况是PJ。这时,(3.1.2)一般无解,只能求近似解。我们将在下一节详细讨论这种情况。常用的非线性基函数有以下几种:1)高斯基函数确定了}{pc后,可以选取如下的高斯基函数来构造径向基函数:)()(1xxgPppp(3.1.4a)式中45PqqppxRxRx1)()()((3.1.4b))2||||exp()(22pppcxxR(3.1.4c)这里参数p是第p个高斯基函数)(xRp的“宽度”或“平坦程度”。p越大,则以pc为中心的等高线越稀疏,)(xRp越平坦,对其它)(xq的影响也就越大。p的一种选法是22||||1pxpppcxM(3.1.5)即p类所含的样本点与中心pc的平均距离越大,则)(xRp应该越平坦。2)薄板样条函数)lg()(2vvv(3.1.6)3)多二次函数0,)()(212ccvv(3.1.7)4)逆多二次函数0,)()(2/12ccvv(3.1.8)一般认为,非线性函数的具体形式对网络性能的影响不大。RBF网络与第一章讨论的多层前馈网络(MLP)一样,能以任意精度逼近相当广泛的非线形映射(例如参见[CL][LX])。由(3.1.1)可以看出,每一个基函数||)(||pcx都可以(以2P为例)由平面上一族同心圆hcxRxrpnh:来表示,每一个同心圆hr上的点具有相同的函数值。而整个RBF网络不外乎是由P族同心圆互相影响而形成的P族等高线来表示。因此,RBF网络对如图3.1所示的分类问题特别有效(),(21xxx)。图3.1适合于RBF网络的分类问题463.2径向基函数参数的选取3.2.1基函数中心pc的选取假设RBF网络中隐单元的个数(即基函数的个数)P已经确定,则决定网络性能的关键就是P个基函数中心pc的选取。一种广泛应用的无教师学习算法是如下的k-均值聚类算法I:①给定训练样本NJjjRx1}{。)(JP②将聚类中心}{pc初始化。(例如可选为Piix1}{。)③将Jjjx1}{按距离远近向Piic1}{聚类,分成P组Ppp1}{,即令*pjx(3.2.1)若||||min||||1*pjPppjcxcx。④计算样本均值,作为新的聚类中心(pM是类p中样本的个数):PjxjppxMc1,Pp,,1(3.2.2)⑤若新旧Pppc1}{相差很小,则停止。否则转③。K-均值聚类算法是循环地选取聚类中心pc与聚类集合p的一个迭代过程。(暂时)选定各中心pc后,在步骤③中按距离远近将jx向pc聚类得到p应该是十分自然的。而p确定后,对新的中心pc与p中各个jx的“总的距离”(即各个距离的平方和)pjxpjcx2||||(3.2.3)取极小,便得到确定新pc的公式(3.2.2)。这是一种竞争分类过程。在步骤③中竞争p类资格获胜的各个jx将对新的聚类中心pc做出贡献。下面我们给出另外一种K-均值聚类算法II:①将聚类中心}{pc初始化。②随机选取样本向量jx。③将jx按距离远近向Piic1}{聚类,即令pjx(3.2.4)若||||min||||1pjPppjcxcx。④调整样本中心pc(0是选定的学习速率):,),(ppcppcxccoldpoldpjoldpnewp(3.2.5)⑤若新旧Pppc1}{相差很小,则停止。否则转②。K-均值聚类算法I和II分别是离线和在线学习算法。下面我们来考虑隐单元个数P的确定。与第一章中BP网络的隐层单元个数的确定类似,47其原则应该是在满足精度要求的前提下,P越小越好。这不但减小网络成本,而且使逼近函数)(xg减少不必要的震荡。像确定BP网络的隐单元个数一样,我们可以从大的单元数P出发,逐步减小P,直到精度要求不再满足为止。也可以从较小的P出发,逐步增加单元数,直到满足精度要求。3.2.2权系数的确定确定权系数时,通常要利用训练样本的理想输出作有教师学习。一个简单办法是在确定}{pc之后,求如下误差函数关于),,(1P的极小:JjjjxgyE12))((21)((3.2.6)这时,可以用最小二乘法或其它优化方法,例如梯度下降法。为了减小推广误差,我们可以进一步要求逼近函数)(xg不要震荡得太厉害,或者说曲面)(xg不要弯曲得太厉害。注意到曲面的弯曲程度可以由曲率来描述,而曲率主要与二阶导数的大小有关。为此,定义训练样本集上的平均曲率为(用2n表示对变量nx的二阶导数)JjNnjnxgJD1212))((21)((3.2.7)现在,我们的任务成为:求PPR),,(1使得下列函数取极小)()()(DEL(3.2.8)这里0是一个适当的折衷参数,需针对具体问题选定。下面我们来推导(3.2.8)的解。假设基函数)(h二次可微,并且下列极限存在:)(lim0hh(3.2.9)容易算得||||)(||)(||)(1pnpPpppncxcxcxxg(3.2.10)其中npcx)(表示pcx的第n个分量。对(3.2.10)再求导数得Pppnpppncxcxcxxg1222||||)(||)(||[)()]||||)(||||1||)((||32pnpppcxcxcxcx关于n求和便得PpppppNnncxNcxcxxg112]||||1||)(||||)(||[)((3.2.11)48注意由罗必塔法则和(3.2.9)1)(lim)(lim00hhhhh因此(3.2.11)可以拓广定义到pcx。记,),,(1TJyyyPJjpSS)(,||)(||pjjpcxS(3.2.12)PJjpQQ)(,其它如果,||||1||)(||||)(||,pjpjpjpjjpcxNcxcxcxNQ(3.2.13)于是(3.2.8)可以写成矩阵形式])()[(21)(QQJSySyLTTT(3.2.14)令0/L,得0)(QQJSSyTTT因此ySQQJSSTTT1)((3.2.15)注2.1当样本数J很大时,为了减少计算量,可以在(3.2.7)中只对少量“重要”的样本j求和。注2.2也可以用最速下降法求误差函数的极小,来统一地确定},,{pppc等参数(参见下节中(3.3.3))。这时,径向基函数网络与BP网络就很相像了。3.3高斯条函数典型的径向基函数(RBF)只对输入空间的一个很小的局部区域作出有效响应(当2||||pcx较大时,)(xp接近于零)。与此对照,Sigmoid函数的响应域则是无穷大。因此,RBF对刻画函数的局部性质较为有效,而不适合于对函数的大范围逼近。例如,两个Sigmoid函数(例如图3.2(a)中)(1xf和)(2xf)就可以很好地逼近一个局部隆起函数(图3.2(b)中r(x))。而显然需要无穷多个RBF,才能很好地逼近一个Sigmoid型函数。4921))((21jJjjxgyE(a)(b)图3.2用Sigmoid型函数逼近局部隆起函数为了综合RBF和Sigmoid函数的优点,人们构造了所谓高斯条函数,将(3.1.4)中的pR改为])(21exp[)(12NnpnpnpnpcxWxR(3.3.1)其中pnW是待定权系数,),,(1pNppccc是第p个中心,pn是第p个中心基函数的沿第n个坐标轴的“宽度”。作为比较,我们可以将(3.1.4c)中的高斯函数写成NnppnnpcxxR12)(21exp)(21)(21expppnnNncx(3.3.2)因此,在高斯条函数(3.3.1)中,只要输入的向量x与中心pc的任一坐标接近,则网络做出有效响应;而在高斯函数(3.3.2)中,只有当x与pc的每一个坐标都接近时,网络才做出有效响应。在(3.3.1)中,还可以加上一个阈值(常数项)来进一步改善性能(参见习题3.3)。以地形图为例,高斯函数适合于描述凸起的山包或凹下的坑,而高斯条函数还可以

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功