概率神经网络讲解

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1DonaldF.SpechtProbabilisticNeuralNetworksNeuralNetworks,Vol.3,pp.109-118,1990概率神经网络摘要:以指数函数替代神经网络中常用的S形激活函数,进而构造出能够计算非线性判别边界的概率神经网络(PNN),该判定边界接近于贝叶斯最佳判定面。还讨论了拥有类似性质的其他激活函数。所提出的这种4层神经网络能够把任何输入模式映射到多个类别。如果能取得新数据的话,可以使用新数据实时地修改判定边界,并可以使用完全并行运行的人工“神经元”付诸实现。还为估计类别的出现概率和可靠性,以及做判别作好准备。对于反向传播增加的适应时间占总计算时间的重大部分的问题,这种方法显示出非常快速的优点。PNN范式比反向传播快200,000倍。关键词:神经网格,概率密度函数,并行处理机,“神经元”,模式识别,Parzen窗口,贝叶斯策略,相联存储器1.动机神经网络常用来依据向实例学习进行模式分类。不同的神经网格范式(paradigm)使用不同的学习规则,但都以某种方式,根据一组训练样本确定模式的统计量,然后根据这些统计量进行新模式分类。通用方法如反向传播,使用探试法获得基础的类别统计量。探试法通常包含对系统参数的许多小的改进,逐渐提高系统的性能。除了训练需要长的计算时间外,还表明,反向传播增加的适应近似法对错误的最小值很敏感。为了改进这种方法,找到了基于己确立的统计原理的分类方法。可以表明,尽管最终得到的网络在结构上类似于反向传播,且其主要区别在于以统计方法推导的激活函数替代S形激活函数,但这个网络具有的特点是:在某些易满足的条件下,以PNN实现的判别边界渐进地逼近贝叶斯最佳判定面。为了了解PNN范式的基础,通常从贝叶斯判定策略以及概率密度函数的非参数估计的讨论开始。之后可以表明,这种统计方法如何映射到前馈神经网络结构,网络结构是以许多简单处理器(神经元)代表的,所有处理器都是并行运行。2.模式分类的贝叶斯判定策略用于模式分类的判定规则或策略的公认标准是:在某种意义上,使“预期风险”最小。这样的策略称之“贝叶斯策略”,并适用于包含许多类别的问题。2现在考察两类的情况,其中,已知类别状态为A或B。如果想要根据p维向量XT=[X1…Xi…Xp]描述的一组测量结果,判定=A或=B,贝叶斯判定规则变成:AdX如果AAABBBhlfXhlfXBdX如果AAABBBhlfXhlfX(1)式中,AfX和BfX分别为类别A和B的概率密度函数;Al为=A时判定BdX的损失函数;Bl为=B时判定AdX的损失函数(取正确判定的损失等于0);Ah为模式来自类别A出现的先验概率;和Bh=1-Ah为=B的先验概率。于是,贝叶斯判定规则AdX的区域与贝叶斯判定规则BdX的区域间的界限可用下式求得ABfXKfX(2)式中/BBAAKhlhl(3)一般地,由式(2)确定的两类判定面可以是任意复杂的,因为对密度没有约束,只是所有概率密度函数(PDF)都必须满足的那些条件,即它们处处为非负,是可积的,在全空间的积分等于1。同样的判定规则可适用于多类问题。使用式(2)的关键是根据训练模式估计PDF的能力。通常,先验概率为己知,或者可以准确地加以估计,损失函数需要主观估计。然而,如果将要划分类别的模式的概率密度未知,并且给出的是一组训练模式(训练样本),那么,提供未知的基础概率密度的唯一线索是这些样本。在Parzen(1962)的经典论文中,他指出,只要基础的母体密度是连续的,类别的PDF估计器可以渐进地逼近基础的母体密度。3.密度估计的一致性判别边界的准确度决定于所估计基础PDF的准确度。Parzen(1962)论述如何构造fX3的一族估值,11nAiniXXfXn(4)其在连续PDF的所有点X上都是一致的。令XA1,…XAi,…XAn为恒等分布的独立随机变量,因为随机变量X的分布函数fX=P[xX]是绝对连续的。关于权重函数y的Parzen条件是sup||yy(5)其中,sup为上确界,||ydy(6)lim||0yyy(7)和1ydy(8)式(4)中,选择n作为n的函数,且lim0nn(9)和limnnn(10)Parzen证明,在2||0nEfXfX随n(11)意义上,fX估值的均方值一致。一致性的这一定义,一般认为,当根据较大数据集估计时,预计误差变小,这是特别重要的,因为这意味着,真实分布可以按平滑方式近似。Murthy(1965,1966)放宽了分布fX绝对连续的假定,并指明,类别估计器仍然一致地估计连续分布F(X)所有点的密度,这里密度fX也是连续的。Cacoullos(1966)还扩展了Parzen的结果,适用于多变量情况。Cacoullos(1966)中定4理4.l指明如何扩展Parzen的结果,以在这种特殊情况下估计出多变量核为单变量核之积。在Gaussian核的特殊情况下,多变量估计可表达为/22111exp22TmAiAiAppiXXXXfXm(12)式中,i=模式号,m=训练模式总数,XAi=类别A的第i训练模式,=“平滑参数”,P=度量空间的维数。请注意,AfX简单地为中心位于每个训练样本的小的多变量Gaussian分布之和。然而,这个和不限于Gaussian分布。实际上,可以近似任意平滑密度函数。图1表示出独立变量X为二维情况下,不同的平滑参数值对AfX的影响。三种不同的值,各种情况使用相同的训练样本,据式(12)绘制出密度。较小的值使得估计的母体密度函数对应于训练样本的位置具有不同的模式。较大的值,如图1(b)所示,在各点间产生较大等级的内插。这里,靠近训练样本的X值,估计具有大约与给定样本相同的出现概率。更大的值,如图1(c)所示,产生更大等级的内插。很大的值使得估计的密度为Gaussian分布,而与真实基础分布无关。在“随着→0和随着→∞极限条件”一节,讨论适当平滑值的选择。式(12)可以直接与式(1)表述的判定规则一起使用。为使用这些方程式执行模式识别任务,已编写了计算机程序,并就实际问题取得了良好结果。然而,为使用式(12)存在2个固有的局限性:(a)检验过程中必须存储和使用整个训练集,和(b)为划分未知点的类别所必需的计算量与训练集的大小成正比。在这种方法最先提出并应用于模式识别时(Meisel,1972,chap.6;Specht,1967a,1967b),这两条因素严重地限制了式(12)直接用于实时的或专门应用。必须使用近似方法替代之。后来,计算机存储器变成致密和足够便宜,从而使存储训练集不再成为阻碍,但是,串联计算机的计算时间仍然点是一个制约。由于具有强大并行计算能力的大型神经网络的出现,限制式(12)直接使用的第二个阻碍即将解除。4.概率神经网络采用PDF非参数估计进行模式分类的并行模拟网络与用于其他训练算法的前馈神经网络,它们之间有惊人的相似性(Specht,1988)。图2表示出输入模式X划分成2类的神经网络结构。5图1不同值对根据样本估计的PDF的平滑影响6图2模式分类的结构图3模式单元在图2中,输入单元只是分配单元,把同样的输入值提供给所有模式单元。每个模式单元(图3作更详细表示)生成输入模式向量X与权向量Wi的标量积Zi=X·Wi,然后,在把7其激活水平输出到求和单元之前,对Zi进行非线性运算。代替反向传播所通用的S型激活函数,这里采用的非线性运算是2exp1/iZ。假定X和W均标准化成单位长度,这相当于使用2exp2TiiWXWX其形式同于式(12)。这样,标量积是在相互连接中自然完成的,后面是神经元激活函数(指数)。求和单元简单地把来自模式单元的输入相累加,该模式单元己对应于所选定训练模式的类别。输出或判定单元为2个输入神经元,如图4所示。这两个单产生二进制输出。它们有单一的变量权值kC,kkkkkkBBAkAABhlnChln(13)式中,kAn=来自Ak类的训练模式数,kBn=来自Bk类的训练模式数。图4输出单元8请注意,kC为先验概率比除以样本比并乘以损失比。任何问题,其均可与它的先验概率成比例地从类别A和B获得训练样本的数量,其变量权值/kkkBACll。不能根据训练样本的统计量、而只能根据判定的显著性来估计最终的比值。如果没有偏重判定的特殊理由,可简化为-1(变换器)。训练网络的方法是:指定模式单元之一的权向量iW,等于训练集内每个X模式,然后,模式单元的输出连接到适当的求和单元。每个训练模式需要一个单独的神经元(模式单元)。正如图2所示,相同的模式单元按不同求和单元聚集,以在输出向量中提供附加的类别对和附加的二进码信息。5.另外的激活函数尽管至此所有实验工作都使用式(12),但它不是可以应用的准一一致的估计器。表1列出了Cacoullos(1966)和Parzen(1962)提出的其他估计器,那里11nAppifXKyn(14)211ijjnjAjyXX(15)和pK为常数,以使1pKydy(16)iiZXW如前。当X和iW都标准化成单位长度时,iZ范围变化在-1至+1之间,且激活函数为表1所示形式之一。请注意,这里,所有估计器都表达成标量积,输入到激活函数,因为都包含1/22iAyXX。后面将讨论非标量积形式。表1所示的全部Parzen窗口,连同式(1)的贝叶斯判定规则,应能得到逐渐达到贝叶斯9最优的判定面。与神经网络相一致,唯一差别是模式单元内非线性激活函数的形式。这就使人们怀疑,精确形式的激活函数不是网络效能的关键。所有神经网络的普通单元是:激活函数在iZ=1处取最大值,或在输入模式X与模式单元储存的模式之间最相似的;当模式变得不尽相似时,激活函数则降低;随着训练模式数n增大,整个曲线向iZ=1直线靠近。表1权函数及其等效的神经网络激活函数106.当→0和→∞时的限制条件业已表明(Specht,1967a),式(2)定义的判定界限,从→∞时超平面连续地变化到高度非线性边界,表示→0时最近邻域分类器。CoverandHart(1967)详细研究了最近邻域判定规则。一般地,极限情况都不能提供两个分布的最佳分离。最近邻域的均化程度,其决定于训练样本的密度,比起基于单一最近邻域的的判定,它提供更良好的普适性。本研究所提出的网络实际上类似于k-最近邻域分类器。Specht(1966)就随着问题维数p和训练模式数n变化,如何选择平滑参数值,做了相关讨伦。但是,业已发现,在实际问题中不难找到良好的值,并且,随着的微小变化,错误分类比率不发生显著变化。Specht(1967b)叙述了心电图分类试验,其使用式(1)和(12)二类分类法,分成正常或异常。在那种情况下,249个模式用作训练,另外63个实例用作检验。每个模式均以46-维模式向量(但未标准化成单位长度)加以描述。图5表示出检验样本的正确分类百分率随平滑参数值的变化。有几个重要计算值是明显的。在使用4和6之间任一值情况下,均可获得最高诊断精度;曲线的峰值有足够宽度,通过实验寻找良好值并不难。而且,在3至10的范围内的任何值,得到的结果仅略次于最佳曲线段。结果是:对于同一检验集,从0至∞的所有值得出的诊断结果显著优于心脏病专家诊断的结果。图5检验样本的正确分类百分率随平滑参数值的变化11在所提出的方法中,唯一要调整的参数是平滑参数。因为它控制指数激活函数的标度系数,故对于每个模式单元,它的值应相同。7相联存储器在人类思维过程中,通常以不同的方式,把对一目的积累的知识应用于不同目的。类似地,

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功