几种统计模式识别方案的比较

和平忍者
2 ℃
2020-03-27

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

摘要：模式识别是对表征事物或现象的各种形式的（数值的，文字的和逻辑关系的）信息进行处理和分析，以达到对事物或现象进行描述、辨认、分类和解释的目的，是信息科学和人工智能的重要组成部分。而统计决策理论是处理模式分类问题的基本理论之一，它对模式分析和分类器的设计有着实际的指导意义。本文归纳总结了统计模式识别的不同方案的详细性能，比较了它们的原理、算法、属性、应用场合、错误率等。关键词：统计模式识别贝叶斯决策方法几何分类法监督参数统计法非监督参数统计法聚类分析法ComparisonofSeveralKindsofStatisticalPatternRecognitionSchemesAbstract:Patternrecognitiondealswithandanalysestheinformationwhichsignifyallkindsofthingsandphenomena(numbervalues,Charactersandlogicrelation),inordertodescribe,recognize,classifyandinterpretthem.Itisoneoftheimportantpartsofinformationscienceandartificialintelligence.Whilestatisticalpatternrecognitionisoneofthebasicstheoryofclassifyingandisrealdirectivesignificanceinanalyzingandclassifyingofpattern.Wesumupthedetailedperformanceofsummarizingdifferentschemeswhichcountsthepatternrecognitioninthistext,Comparetheirprinciple,algorithm,attribute,usingoccasion,etc.1引言模式识别诞生于20世纪20年代，随着40年代计算机的出现，50年代人工智能的兴起，模式识别在60年代初迅速发展成为一门学科。它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视，推动了人工智能系统的发展，扩大了计算机应用的可能性。模式识别方法大致可以分为四类，即统计决策法、句法结构法、模糊判决法和人工智能法。其中，统计决策论发展较早，理论也较成熟。其要点是提取待识别模式的一组统计特征，然后按照一定准则所确定的决策函数进行分类判决。统计模式识别方法是建立在概率论与数理统计的基础上，它用特征向量来描述模式。不同的模式用不同条件概率分布表示，然后判别未知模式属于哪一种分布。分类方法主要有贝叶斯决策方法、线性可分的几何分类法、非线性可分的几何分类法、监督参数统计法、非监督参数统计法及聚类分析法。下文将对它们的性能进行详细地介绍。2几点统计识别方法介绍及比较2.1贝叶斯决策方法运用统计决策理论设计的分类系统又称为分类器。贝叶斯决策是一种统计模式识别决策法，它有如下基本假定：1.各类别总体的概率分布是已知的2.被决策的分类数是一定的3.被识别的事物或对象有多个特征观测值当被识对象用n随机向量X表示，二我们已知分类的先验概率的条件概率密度函数，便可根据贝叶斯公式，求解后验概率，并按后验概率的大小来判别分类，这就是贝叶斯决策方法。下面介绍三种判别准则。（1）最小错误概率贝叶斯判别准则设有R类样本，分别为w1,w2,…wR,已知每类的先验概率为P(wi),其中i=1,2,…,R。对于待识别的随机向量X,已知每类的条件概率密度为P(X|wi),则根据贝叶斯公式有后验概率：P(wi|X)=(P(X|wi)*P(wi))/(∑P(X∣wi)*P(wi))（1）根据计算得出得后验概率，取最大得后验概率P(wi|X)所属的wi类，判决X属于wi类。表示为：P(wi|X)P(wj|X)则X属于wi其中i,j=1,2,…,R,且存在j≠i，这就是贝叶斯判别准则。若按统计理论定义“似然比”为：l(X)=P(X|wi)/P(x|wi)取判别阀值：θji=P(wj)/P(wi)则有贝叶斯判别准则的似然比表示形式：l(X)P(wj)/P(wi)则X属于wi对于两类模式集（w1,w2）的分类，贝叶斯判别准则简单表示为：若P(w1|X)P(w2|X)则X属于w1若P(w2|X)P(w1|X)则X属于w2贝叶斯判别准则实质上是最小错误概率的贝叶斯判别准则。（2）最小风险贝叶斯判别准则在决策理论中，称所采取的决定为决策或行动。每个决策或行动都会带来一定的损失。该损失用λ表示，它是与本该属于wi但采取的决策为αj所造成的损失有关。由此定义损失函数为λ（αj|wi）=λij(i,j=1,2,…,R)。对样本X属于wi,有贝叶斯公式已知后验概率为P(wi|X)，而采取决策αj时，它的条件损失为：（2）i=1,2,…,R在决策论中,把采取决策αj的条件损失称为条件风险。对随机向量X取不同观察值时，同样采取αj时，其条件风险是不同的。因此α又是X的函数，写成α(X)。由此，总的风险为：（3）总的风险反应对整个特征空间上所有X采取决策α(X)所带来的平均风险，而条件风险只反映对某一X值采取决策αj所带来的风险。若每个条件风险都是最小，则总风险也最小。由此得到最小风险贝叶斯决策准则为：（4）于是,αk就是最小风险贝叶斯决策。对于两类模式集()来说，由判别区域R1和R2。则总风险为其中:为X，且被分为R1的“损失”；为X，且被分为R1的“损失”；为X，且被分为R2的“损失”；为X，且被分为R2的“损失”。有全概率等于1可推出：代入上式，经整理，得若要总风险R最小，必须是积分号内有满足此式，便可判别X或X反之，便可判别X或X若用似然比表示则有准则（3）聂曼－皮尔逊判别准则由最小风险贝叶斯准则可见，设计该分类器时，必须预知先验概率P(ωi)，并预先给定λij，特别是要有足够的经验，以给定λij，因为该准则和损失函数λij有很大关系，需要足够的先验知识。聂曼－皮尔逊(Neyman-Pearson)准则提供另一种方案，即设法限制某一错误概率，而同时使另一错误概率为最小。取式1中得到当先验概率P（ω1）和P（ω2）已知时，ε1和ε2分别表示两类的错误率。在ε1，ε2两个错误率中取定一个（例如取定ε2）并使ε1为最小，这就使聂曼－皮尔孙判别准则，也称为在限定一类错误率条件下是另一类错误率为最小的两类决策准则。在某些场合下，有它的实际意义。2.2几何分类法（判别函数法）一个模式经某种数学变换后，映射为一特征向量，并表示为特征空间的一个点。同一类的点构成点集，表示一类ωi。不同类的点集（ωi,i=1,2,…,n）总是互相有不同程度的分离。若能几何的方法，找出一种不依赖于条件概率密度的分离函数，把特征空间划分为对应于不同类别的子空间，便可实现模式分类。因此，把这种分类方法称为几何分类法，把这种分离函数成为判别函数。从而，几何分类法也通常称为判别函数法。判别函数可以是线性的或非线性的。利用已知类别的训练集，通过统计方法，可以求的判别函数的具体形式和参数，然后用来判别未知样本属何类别。这种方法虽属统计分类方法，但无需依赖于条件分布密度的知识，因此在一些场合下，比基于贝叶斯公式的概率分类法简单。2.2.1线性可分的几何分类法对特征向量X在二维平面上，存在一直线方程形式的线性判别函数：式中x1、x2分别为二维平面坐标变量，ω1、ω2、ω3为方程函数。则在二维坐标中构成两个模式集（ω1，ω2）。将某一未知类别的样本X代入g（X），如为正值，则它属于ω1类；如为负值，则属于ω2类。即当X是三维的，判别函数为一平面方程。当n维（n3）时判别函数为一超平面，要进行模式分类，就要确定判别函数的形式及其参数。基于线性判别函数的模式分类器称为线性分类器。设计线性分类器的主要步骤是：首先已知一组有类别的样本训练集。第二，选择一个准则函数，该函数既与样本集X与W有函数关系，又能反映分类器性能。第三，用最优化技术求出准则函数的极值解W＊，从而得到线性判别函数优化解。线性分类器的准则函数及其最优化解有多种成熟的技术。这里只介绍一种具有代表性的方法—感知器方法。模式识别是对人的思维的一种模拟。由苏联学者罗森布拉特提出的感知器的概念。感知器主要是一种人脑的模型，而不仅仅是模式识别装置。它实现了人工神经网络的工程模型。它用权函数连接网络的各个元素，构成一种非线性网络，对输入信号作出某种响应，并通过一定方式传达到其它元素，并能产生输出信号，这就使感知器的简单物理概念。若把感知器的R个输出元素，看作是R类模式，当某个被识样本由输入元素输入网络，使输出元素中第i个元素输出最大，则可判定被识样本属第i个模式。这样就把感知器构造成一个线性分类器。利用感知器原则，构造一个准则函数J：式中A为常数，常取A＝0.5。当g(X)=WTX0,J(W,X)=0。当g(X)=WTX0,J(W,X)0。因此，这个准则函数的极小值为0，即minJ(W,X)=0这时，准则函数J的最优化解为：求最优解的常用算法是梯度下降法，即一出初值W(1)＝常数，通过下式迭代：（5）式中，k—迭代次数；C—有助于收敛的校正系数。把其中符号函数：代入式(5)，得这就使感知器准则的梯度下降算法。当，表示分类正确，则W(k+1)=W(k),对此给与“赏”或“不罚”，权向量不变。当，表示分类错误，对此给与“罚”，使W(k)加一个正比于X(k)的分量。常称此为“赏—罚”概念。用全部模式训练一轮后，只要有一个样本判错，则需进行下一轮迭代，求出新的。反复迭代，直到全部训练及获得正确分类，迭代才结束。这时的就是所求的，从而求得线性判别函数。2.2.2非线性可分的几何分类法非线性分类理论为划分样本空间提供了最通用的方法，由于样本空间往往是非常复扎杂的，此非线性鉴别器函数，可以写成如下的通用形式：1.分段线性判别函数把每一类分为若干个子类，即令;我们不是选择各个子类的均值为代表点设计最小距离分类器，而是对于每个子类定义一个线性判别函数式中和分别为对子类的权向量和阀值权。如果我们定义类的线性判别函数为对于c类问题，可以定义c个判别函数并得到决策规则:若则决策从直观上看，对于任意样本向量x,必有某个子类的判别函数值较其他各子类的判别函数值为最大。假如具有最大值的判别函数是，则把归到子类所属的类，即类。这样得到的决策面也是分段线性的，其决策面方程是由各子类的判别函数确定的。如果第I类的第n个子类和第I类的第m个子类相邻，则这段决策面的方程是2.二次判别函数二次判别函数的一般表达式为其中W是实对称矩阵，w为d维向量。为确定判别函数，需要确定个不同的系数。2.3监督参数统计法2.3.1KNN法及其衍生法KNN法，也称K最近邻法，是模式识别的标准算法之一。其基本原理是先将已经分好类别的训练样本点“记入”多维空间中，然后将待分类的未知样本也记入空间。考察未知样本的K个近邻，若近邻中某一类样本最多，则可以将未知样本也判为该类。在多维空间中，各点间的距离通常规定为欧几里得空间距离。KNN法的好处是它对数据结构没有特定的要求，只要用每个未知点的近邻属性类来判别就行了；KNN法也不需要训练过程。KNN法的一个缺点就是它没有对训练点作信息压缩，因此每判断一个新的未知点都要将所有对已知点的距离全部算一遍，计算工作量较大。一种简化的算法称为类重心法，即将训练中每类样本点的重心求出，然后判别未知样本点与各类的重心的距离；未知样本与哪一类重心距离最近，即将未知样本归于哪一类；这一类方法因过分简单而使结果的可靠性降低，但因计算简易，有时仍然可以应用。ALKNN法是KNN法的一种改良，在KNN法中，对所有的类取相同的K值；而ALKNN法对K值的选取是根据每类样本的数目和分散程度进行的，对不同的类可以选取不同的K值；当各类的Ki值选定后，用一定的算法对类中样本的概率进行估计，并根据概率大小对他们进行类的划分。在ALKNN