2020/3/9第1页第三章径向基函数神经网络(RBF——Radial-BasedFunctionNetworks)§3.1概述用BP算法解决异或问题BP算法很容易收敛到局部最优,而我们无法判断得到的结果是局部最优还是全局最优,因为我们根本没有全局信息。2020/3/9第2页•RBF网络的基本思想在分类之前,先将输入特征空间进行非线性映射,使得有待分类的两类样本的分布变成线性可分问题,然后用最简单的线性功能函数的神经元进行分类。例:图示“异或”分布的两类样本,其分类函数相对复杂;采用影射:22211~~xxxxx在新特征空间,原来的问题变成了线性可分问题。于是,学习算法为:第一层:实现非线性影射;第二层:线性分类。§3.2Cover模式分类理论Acomplexpattern-classificationproblemcastinhigh-dimensionalspacenonlinearlyismorelikelytobelinearlyseparablethaninalow-dimensionalspace.复杂模式分类问题非线性地表示在高维空间比表示在低维空间更易线性分类。2020/3/9第3页§3.3插值问题给定N个不同的输入点(矢量):,,2,10NimiRX寻找一个函数满足条件:其中:1RRNF:iidFXNi,,2,1例1:多项式插值(曲线拟合)插值函数不唯一;多项式阶数与点数相关:阶数+1=点数将给定点的值代入模型,得到一个关于待定系数a、b、c、d、e的方程组:给定5个点,用4次多项式进行插值。37493432401252512562523927811248161edcbaedcbaedcbaedcbaedcba32211174934324011525125625139278112481611111edcba322111749343240115251256251392781124816111111edcba22.250037.2250-19.68333.9750-2667.0edcbaexdxcxbxay2343.222.379.71427.0234xxxx,,2,11NidiR以及每个点所对应的输出(标量):x0为中心位置,s决定“胖瘦”2020/3/9第4页例2.Gaussian函数插值(课件程序:CH3PolyGaussFit)220,,0ssxxexxg一维Gaussian函数:给定5个点,用中心分别在给定点上的s=1的5个Gaussian函数拟合:252423222154321xxxxxxxxxxewewewewewxy5432154321255245235225215254244234224214253243233223213252242232222212251241231221211yyyyy322115432177573727177555352515735333231372523222127151312111222222222222222222222222232211111115432141625364491616414259113616413221110.0183007-1.1254e011-1.3888e016-2.3195e0.018310.0183004-1.2341e007-1.1254e007-1.1254e0.018313679.00.0183011-1.3888e004-1.2341e3679.013679.0016-2.3195e007-1.1254e0183.03679.0154321得到:TW]3.03872.1112,-3.0531,2.8569,-1.9951,[22222753210387311122053138569299511xxxxxe.e.e.e.e.将各个点代入有:s取值不同,拟合的结果也不同。例如,为5个Gaussian函数分别取不同的s值:2.5、1.25、3.2、1.5、0.522020,syyxxeyxz2020/3/9第5页•Gauss函数曲面插值22,iieiissXXXX插值函数:当X是2维矢量时,插值函数是Gauss曲面径向基函数,Xi是其中心位置。NiiiiwF1,sXXX拟合函数:样本数据:,,2,10NimiRX,,2,11NidiR将给定的样本点代入:NNNNNNNNddd212121222211121122,iijeiijjissXXXX为中心在Xi的径向基函数在Xj点的取值。取:NNNNNN212222111211ΦN21W以及:Nddd21DDWΦ可以得到:DΦW1拟合函数为径向基函数的线性组合,径向基函数的项数与样本个数相同:NNNss,,,222111XXXXXXX2007-10-31第6页其中:2iiXXG插值运算对应于一个两层的径向基网络多项式型:2122cuu反多项式型:21221cuuMuRMuRGauss型:222sueuMuR其中:其中:其中:常用径向基函数:2020/3/9第7页§3.4有监督学习作为不适定超曲面重构问题•假设一系统,输入x输出y,无误差、无干扰理想情况下的关系为二次函数;•实测时输入X=[1,3,5,7,9],理想值如图示。•因存在噪声和误差,实测如图所示。用足够高阶的模型,有可能将含噪的样本无误差地拟合起来,但得到的结果与真值的差距却未必减小。并且,阶数越高误差越小、但模型的泛化性能却越差。过拟合问题(Overfitting/Overdetermined):模型的阶数大于系统的实际阶数。问题:如何得知实际系统的阶数?如何判断过拟合或拟合不足?•由线性回归得到输入输出关系的估计:•由4阶多项式拟合得到输入输出关系的估计。2020/3/9第8页•重构问题的适定性给定稀疏点集的函数(高维映射)重构问题:假定有一个系统f,其输入矢量为,有界响应为,重构的意思就是通过输入输出样本找到未知映射。XXYYYXYX:f满足以下准则的重构问题是“适定的”:(1).存在性(Existence):对于每个输入矢量都存在一个输出与之对应;XXYY(3).连续性(Continuity,即,稳定性:Stability):任给存在,使得当时。其中运算符表示该空间中点与点之间的距离。012,XXX12,yffXX2,XX1(2).唯一性(Uniqueness):任意输入,当且仅当X1=X2时有f(X1)=f(X2);X21,XX2020/3/9第9页•正问题与反问题(InverseProblem)正问题:例如,给定一个RLC谐振电路及其元件参数,我们可以建立一个描述该电路输入输出之间映射关系的微分方程,即求解一个“正问题”。反问题:对于一个系统,如果所能得到的全部资料就是实际采集得到的输入、输出样本集,从由这些样本数据建立能够表达系统输入输出之间映射关系的数学模型,被称为“反问题(Inverseproblem)”,也称为“系统重构问题”。反问题通常是不适定的:第一、存在性准则可能得不到满足,即某些输入矢量没有确定的输出对应;第二、实测样本所提供的信息不足以唯一地确定重构模型,唯一性准则得不到满足;第三、由于存在噪声干扰,相近的输入可能对应于差距很大的输出,于是,连续性准则得不到满足。求解反问题的学习算法必须附加先验(专业或经验的)知识等附加条件。因为,任何数学手段都不能补救信息缺失(Alackofinformationcannotberemediedbyanymathematicaltrickery——Lanczos,1964)。2020/3/9第10页§3.5Tikhonov正则化理论0miXR1,2,,iN系统输入:1idR理想输出:FX拟合函数:•标准差项:显然,只用Es(F)作为目标函数进行优化,可以得到误差Es(F)最小甚至Es(F)=0的拟合函数F(X),但无法避免过拟合问题。为此,Tikhonov提出了“正则项”:•正则项:式中:D是线性微分算子Ec(F)减小即拟合函数F(X)的梯度减小,意味着在满足误差最小的同时还要求拟合结果足够“平坦”,因此,正则项也称为“平滑项”。2020/3/9第11页E(F)所在空间是一个函数空间,该空间自变量的每个取值(矢量)代表一个函数。假设所有这些函数都是平方可积的,并且,类似数量空间中定义矢量的模一样,用函数的平方积分表示它们的“大小”,称为该空间中矢量的“范数”,即:称这个空间为“赋范空间”。XXdF2XXXdFF2•正则化问题:寻找使目标函数:达到最小的函数F(X)。自变量是函数F(X),因此,函数E(F)是一个泛函。l用于在平滑性和误差之间权衡,大的l得到的拟合函数更加平滑但拟合误差大;而小的l拟合误差小但拟合函数不够平滑。(3-10)2020/3/9第12页1.Frechet微分定义式中:是X的一个任意给定的函数。hX假设E(F)在F(X)点取极小值,则对于任意h(X),有dE(F,h)=0。即:(3-11)(3-12)由上式右边第一项得到:(3-13)0,0lhFdEhFdEhFdECS重写(3-10)式:利用X-Xi)函数的筛选特性,将两个函数在某点Xi的乘积表示成内积形式:2020/3/9第13页(3-10)式第一项的Frechet微分可写成