1第四章径向基函数网络Radial-BasisFunctionNetworks2BP多层前馈网络是应用极为广泛的模型。但是其学习算法具有计算量大、学习速度慢等缺点。径向基函数(RadialBasisFunction,RBF)理论为多层前馈网络的学习提供了一种新颖而有效的手段。RBF网络不仅具有良好的推广能力,而且计算量小、速度快。和小波基函数神经网络、样条函数神经网络、正交函数神经网络类似,RBF网络属于核函数模型类。一、概述3………..InputlayerNonlineartransformationlayer(generateslocalreceptivefields)Linearoutputlayer一、概述和MLP/BP网络类似,RBF网络是一个前馈网络模型。4……....……...Wkjxdx(d-1)x2x1inputlayerhiddenlayer(receptivefields)Outputlayerzcz1..…..zknetkyj1Hj2JuxJuxenetJHjjkjHjjkjkywywfnetf11Linearact.function一、概述5Fromafunctionapproximationperspective•thisisequivalenttoimplementingacomplexfunction(correspondingtothenonlinearlyseparabledecisionboundary)usingsimplefunctions(correspondingtothelinearlyseparabledecisionboundary)•Implementingthisprocedureusinganetworkarchitecture,yieldstheRBFnetworks,ifthenonlinearmappingfunctionsareradialbasisfunctions.RBF网络的功能一、概述6若已知和,通过线性内插来逼近022011xxD,xxD]/[)]()([)(12112121110DDxfDxfDxf0x1x001121112121110toneighborsofnumbertheiswhere)()()()(000xPDDDxfDxfDxfDxfPPP设:分别代表与和的距离2x则即可表示为已知函数值的加权和(归一化权)若推广到基于多个已知函数值的插值,则有:在P0个中,只有那些与距离小的起更大的作用)(0xf)(201xxx)(0xf0x)(ixf)(1xf)(2xf一、概述7•比如:–有8样本(已知函数值)–只要用四个样本就可完成逼近的内插)(0xf),,,(5432xxxx15141312151413121514131251541431321208398)()()()()(DDDDDDDDDDDDxfDxfDxfDxfDxf•如何选择有效的邻近节点(邻近样本)?•如何决定加权系数?RBF神经网络能解决!一、概述8xwxf给定一个n维空间中点集及相应实值,i=1,2┄n,,,设计一个函数f(x),使它满足插值条件:iiyXfRBF:用范基函数加权im1iixxwxf将插值条件代入,得到关于m个未知w的m个方程。传统方法:通过学习,设法得到相应的参数RadialBasisFunctions:•Radial-basisfunctionswereintroducedinthesolutionoftherealmultivariateinterpolationproblem.•BasisFunctions:Asetoffunctionswhoselinearcombinationcangenerateanarbitraryfunctioninagivenfunctionspace.•Radial:SymmetricarounditscenteriiyX,9Fromaclassificationperspective:在低维空间非线性可分的问题总可以映射到一个高维空间,使其在此高维空间中为线性可分。RBF的输出单元部分构成一个单层感知机,只要合理选择隐单元数(高维空间的维数)和作用函数,就可以把原来的问题映射为一个线性可分问题。在RBF网络中,输入到隐层的映射是非线性的,而隐层到输出的映射则是线性的。一、概述10圈1和圈2中的样本数据分别属于一类,圈外样本属于另一类。RBF如何划分这两类?(非线性分类)12x1x2-++------例1++++11x1x2(c1,x)11y设:c1,c2和r1,r2分别是圈1和圈2的中心和半径,样本x=(x1,x2)(c2,x)(c1,x)=1ifdistanceofxfromc1lessthanr1and0otherwise(c2,x)=1ifdistanceofxfromc2lessthanr2and0otherwise:Hypersphericradialbasisfunction一、概述12通过隐层特征空间((c,x))的作用,圈2中的样本被映射到(0,1),圈1中的样本被映射到(1,0),圈外的样本均被映射到(0,0).这一两分类问题在隐层特征空间中变成线性可分!2(c1,x)-++------101(c2,x)1一、概述13二、RBFNetwork性能……....……...UjiWkjxdx(d-1)x2x1inputnodeshiddenlayerRBFs(receptivefields)outputnodeszcz1..…..zknetkyj1Hjx1xduJi2JuxJuxenetJ:spreadconstantTXUHjjkjHjjkjkywywfnetf11Linearact.function14–Physicalmeanings:•:Theradialbasisfunctionforthehiddenlayer.Thisisasimplenonlinearmappingfunction(typicallyGaussian)thattransformsthed-dimensionalinputpatternstoa(typicallyhigher)H-dimensionalspace.Thecomplexdecisionboundarywillbeconstructedfromlinearcombinations(weightedsums)ofthesesimplebuildingblocks.•uji:Theweightsjoiningthefirsttohiddenlayer.Theseweightsconstitutethecenterpointsoftheradialbasisfunctions.•:Thespreadconstant(s).Thesevaluesdeterminethespread(extend)ofeachradialbasisfunction.•Wjk:Theweightsjoininghiddenandoutputlayers.Thesearetheweightswhichareusedinobtainingthelinearcombinationoftheradialbasisfunctions.TheydeterminetherelativeamplitudesoftheRBFswhentheyarecombinedtoformthecomplexfunction.15RBF网络是一个两层前馈网隐层对应一组径向基函数,实现非线性映射每一个隐层单元Ok的输出:μk是高斯分布的期望值,又称中心值;σk是宽度,控制围绕中心的分布每个隐单元基函数的中心可以看作是存储了一个已知的输入。当输入X逼近中心时,隐单元的输出变大。这种逼近的测度可采用Euclidean距离:||x-μ||²输出单元进行加权线性组合,输出单元j的输出为:隐节点数对应所求问题,一般而言,等于学习样本数;二、RBFNetwork性能16三个隐单元具有不同的中心值。对某个输入值(如箭特头所示),RBF3输出最大。因为输入离μ3最近。每个RBF有一个接收场,即输入空间的某个区域或子空间(有生理基础)1-DimensionalGaussianDistribution二、RBFNetwork性能17•ThehallmarkofRBFnetworksistheiruseofnonlinearreceptivefields•Thereceptivefieldsnonlinearlytransforms(maps)theinputfeaturespace,wheretheinputpatternsarenotlinearlyseparable,tothehiddenunitspace,wherethemappedinputsmaybelinearlyseparable.•Thehiddenunitspaceoftenneedstobeofahigherdimensionality–Cover’sTheorem(1965):Acomplexpatternclassificationproblemthatisnonlinearlyseparableinalowdimensionalspace,ismorelikelytobelinearlyseparableinahighdimensionalspace.NonlinearReceptiveFields二、RBFNetwork性能1822()exp2iixxxxCenterofthefunctionSpreadofthefunction当中心确定后,分布就确定了基函数对输入的响应效果.高斯函数的分布越大,函数逼近就越平滑。但是如分布太大,意味作需要很多隐节点来逼近一个曲折的函数,通用性变差。高斯函数若分布太小,这意味作需要很多隐节点来逼近一个平滑的函数,网络的通用性较差。因为,此时一个隐单元函数仅对应样本集中一个样本点,overfittingoftrainingdata=poorgeneralizationontestdateGaussianfunctionsareradiallysymmetric(RBF)二、RBFNetwork性能19输入与高斯中心越近,隐节点的响应越大高斯基函数径向对称,即对于与中心径向距离相同的输入,隐节点输出相同一般而言,基函数非线性形式对网络性能影响不大,关键是函数中心的选取。高斯函数具备如下优点:─表示形式简单,即使对于多变量输入也不增加太多的复杂性;─光滑性好,任意阶导数均存在;─表示简单、解析性好,便于进行理论分析二、RBFNetwork性能201x2xixIxIHO123jJ1OKO权重需调整权重固定为1二、RBFNetwork性能21–Multiquadricsforsomeand–Inversemultiquadricsforsomeand–Gaussianfunctionsforsomeand22()exp2rr1/222()rrc1/2221()rrcrR0c0crR0rR隐节点的激励函数采用径向对称且衰减的非负非线性函数,二、RBFNetwork性能22三、Learning•WhatdowehavetolearnforaRBFNNwithagivenarchitecture?–ThecentersoftheRBFactivationfunctions–t