硕士研究生专业课考试大作业课程名称:模式识别课程编号:063806任课教师姓名:刘海波职称:副教授学生姓名:黄跃平学号:S309060181作业题目:最小错误率贝叶斯分类器成绩:二〇一〇年四月二十五日《模式识别》课程大作业1最小错误率贝叶斯分类摘要:统计决策理论是处理模式识别问题的基本理论之一,而贝叶斯决策理论方法又是统计模式识别中的一个基本方法,它可以有效地对大量数据进行分析,并生成相应的分类器,对于数据的分类识别有着重大的意义。本文把最小错误率的贝叶斯方法运用到男女性别的识别中,提高了分类的准确性和有效性。关键词:贝叶斯统计决策;最小错误率;先验概率;条件概率1问题描述模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。而“模式识别”则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法。统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。与此相应的模式识别系统都是有两个过程(设计与实现)所组成。“设计”是指用一定数量的样本(训练集/学习集)进行分类器的设计。“实现”是指用所设计的分类器对待识别的样本进行分类决策。基于统计模式识别方法的系统主要由以下几个部分组成:信息获取、预处理、特征提取和选择、分类决策。图1统计模式识别系统在本文中问题主要是通过提取人类身高和体重两个特征值,然后对样本集进行训练学习并设计分类器设计,最后对待识别的样本集进行男女性别的分类。2研究现状贝叶斯(ReverendThomasBayes1702-1761)学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到他的学说还有不完善的地方,这一论文在他生前并没有发表,而是在他死后,由他的朋友发表的。著名的数学家拉普拉斯(Laplace,P.S)用贝叶斯的方法导出了重要的“相继律”,贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍接受。二十世纪初,意大利的菲纳特(B.deFinetti)及其英国的杰弗莱(Jeffreys,H.)都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后,瓦尔德(Wald,A.)提出了统计的决策理论,在这一理论中,贝叶斯解占有重要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统计杂志Biometrika全文重新刊登了贝叶斯的论文,20世纪50年代,以罗宾斯(Robbins,H.)为代表,提出了经验贝叶斯方法和信息获取预处理特征提取分类器设计分类决策《模式识别》课程大作业2经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。在这里值得一提的是,八十年代以后,人工智能的发展,尤其是机器学习、数据挖掘的兴起,为贝叶斯理论的发展和应用提供了更为广阔的空间。●密度估计贝叶斯学习理论利用先验信息和样本数据来获得对未知样本的估计,而概率(联合概率和条件概率)是先验信息和样本数据信息在贝叶斯学习理论中的表现形式。如何获得这些概率(也称之为密度估计)是贝叶斯学习理论争议较多的地方。贝叶斯密度估计研究如何根据样本的数据信息和人类专家的先验知识获得对未知变量(向量)的分布及其参数的估计。它有两个过程:一是确定未知变量的先验分布;一是获得相应分布的参数估计。如果以前对所有信息一无所知,称这种分布为无信息先验分布;如果知道其分布求它的分布参数,称之为有信息先验分布。由于在数据挖掘中,从数据中学习是它的特性,所以无信息先验分布是贝叶斯学习理论的主要研究对象。研究无信息分布的奠基性工作是贝叶斯假设-参数的无信息先验分布在参数的取值范围内应是均匀的。对参数有界的情况,贝叶斯假设在实际运用中获得了很大的成功,与经典的参数估计方法是一致的,而当参数无界时,贝叶斯假设却遇到了困难。为此,人们又提出了一些选取先验分布的原则:⑴共轭分布:共轭分布假定先验分布与后验分布属于同一种类型。这一假定为后验分布的计算带来很大的方便,同时在认知上,它要求经验的知识与现在的样本信息有某种同一性,它们能转化为同一类型的经验知识。⑵杰弗莱原则:在贝叶斯假设中,如果对参数选用均匀分布,那么它的函数作为参数时,也应服从均匀分布。然而这种情况是很少见的,为克服这一矛盾,杰弗莱提出了不变性的要求。他认为一个合理的决定先验分布的原则应具有某种不变性,并且巧妙的利用费歇信息阵的一个不变性质,给出了一个具体的方法求得适合于要求的先验分布。⑶最大熵原则:利用信息论中熵的理论,在确定无信息先验分布时应取参数变化范围内熵最大的分布作为先验分布。最大熵原则比贝叶斯假设前进了不少,但在无限区间上产生了各种各样的新问题。●朴素贝叶斯学习模型朴素贝叶斯学习模型(SimpleBayesian或NaiveBayesian)假定特征向量的各分量相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了朴素贝叶斯模型的适用范围,然而在实际应用中,不仅指数级的降低了贝叶斯网络构建的复杂性,而且在违背这种假定的条件下,朴素贝叶斯也表现出相当的健壮性和高效性,它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前,许多研究人员正致力于放松特征变量间条件独立性的限制,以使它适用于更大的范围。主要集中在两个方面:⑴增广贝叶斯学习模型(Augment-SimpleBayesian)①GeoffreyL.Webb[1]在朴素贝叶斯模型中为每个类别赋一权值,这个权值乘以原来的概率值作为新的调整值,在应用中有效地提高了预测精度。②EamonnJ.Keogh通过在特征属性之间增加相应的弧来降低朴素贝叶斯模型属性之间独立性的限制,并且给出了建立属性之间关联的两种方法:贪婪的爬山搜索法和超父节点搜索法。⑵基于Boosting朴素贝叶斯模型①CharlesElkan利用Boosting技术对朴素贝叶斯模型进行了改进。他通过调整训练样本的权重,产生几个朴素贝叶斯模型,然后再将这些模型以一定的方式组合起来,并且证明,组合后的模型在表达能力上相当于具有几个隐含层的感知机模型。然而Boosting技术并非对所有朴素贝叶斯模型都适用,有时甚至会降低它的预测精度。②KaiMingTing和ZijianZheng仔细地分析了Boosting技术在朴素贝叶斯模型中失败的原因,认为学习算法的稳定性是Boosting成功与否的一个关键因素,并且给出了一个结合决策树算法和Boosting技术的朴素贝叶斯模型。《模式识别》课程大作业3●PAC-Bayesian学习现代学习理论大致可以分为两大类:贝叶斯推理和PAC(ProbabilityApproximationCorrect)学习。这两类学习算法都以训练数据集作为输入,经过学习,输出一个概念或模型;它们也都关联着相应的正确性定理:PAC学习对独立同分布的训练样本集提供了很好的性能保证,而贝叶斯正确性定理能保证充分地利用先验信息。结合这两类学习算法的优点,产生了PAC-Bayes学习理论。●贝叶斯神经网络模型朴素贝叶斯模型在表达形式上等价于感知机模型,对应于分类器中线性可分的情况。当线性不可分时,也就是说当考虑属性间的相关性时,需要引入具有隐含层的神经网络模型。●贝叶斯网络学习贝叶斯网络是处理不确定信息最有效的表示方法之一。Pear于1988年出版了第一本关于贝叶斯网络方面的书。接着Neapolitan(1990)、Jensen(1996)、Castillo等(1997)也相继出版了他们关于贝叶斯网络的专著。贝叶斯网络是表示变量间概率分布及关系的有向无环图。结点表示随机变量,弧表示变量间的依赖关系,定量的概率分布在条件概率表中指定。贝叶斯网络的一个关键特征是它提供了把整个概率分布分解成几个局部分布的方法,网络的拓扑结构表明如何从局部的概率分布获得完全的联合概率分布。贝叶斯网络适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则完全从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。3算法原理贝叶斯决策理论方法是统计模式识别中的一个基本方法,这种方法在对数据进行概率分析的基础上生成分类器(决策规则),再应用生成的分类器对新数据依据概率方法进行分类。在运用贝叶斯理论的时候必须满足如下的基本条件:各类别总体的概率分布是已知的;被决策的分类数是一定的;有很多种标准用于衡量分类器设计的优劣,对于用贝叶斯决策而言,有基于最小错误率的贝叶斯决策,基于最小风险的贝叶斯决策,在限定一类错误率条件下使另一类错误率为最小的两类别决策、最小最大决策、序贯分类方法等。贝叶斯公式:设D1,D2,…,Dn为样本空间S的一个划分,如果P(Di)表示事件Di发生的概率,且P(Di)>0.对于任一事件x,P(x)>0,则有:1(|)()(|)(|)()jjjniiiPxDPDPDxPxDPD决策过程:在模式分类问题中,人们往往希望尽量减少分类的错误,从这样的要求出发,利用概率论中的贝叶斯公式,就能得出使错误率为最小的分类规则,称之为基于最小错误率的贝叶斯决策。对于两类情况12{,},12,[,...,]Tdxxxx如果1,2(|)max(|)ijijPxPxx对于多类情况12{,,...,}e12,[,...,]Tdxxxx如果(|)(|),1,2,...,ijPxPxjcandijix《模式识别》课程大作业4对数形式为1max{ln()ln(|)}iiijcPPxx判别函数:分类器的设计主要有以下几方面的内容:首先应定义判别函数和分类决策面方程。对于C类分类问题,按照分类决策规则可以把d维特征空间分成c个分类决策域,将划分分类决策域的边界称为分类决策面,在数学上用解析形式可以表示成分类决策面方程。用于表达分类决策规则的某些函数则称为判别函数。判别函数与决策面方程是密切相关的,且它们都有相应的分类决策规则所确定。设12{,,...,}e12,[,...,]Tdxxxx通常定义一组判别函数()igx,i=1,2,…,c用于表示多类决策规则。如果它使()()ijgxgx对于一切j≠i成立,则将x归于ωi类,根据上面的分类规则显然这里的()igx可定义为f(p(x|ω)p(ω))+h(x),其中f()为任一单调函数。分类器的设计:分类器可以看成是由硬件和软件组成的一个“机器”。它的功能是先计算出c个判别函数,再从中选出对应于判别函数为最大值的类作为决策结果。如图2所示:图2多类分类器4算法实现以matlab为开发平台,程序设计思想:①先验概率的计算;②条件概率的计算;在这里以升高和体重作为两个特征值,我们知道他们是服从于正态分布;③对训练样本进行训练,求出正太分布的参数;④最后对待训练样本进行分类;%身高和体重都作为特征clearall;Result(1,1:2)=0;%判别矩阵的初始化%------------------------------------------------------------------------%%训练样本《模式识别》课程大作业5[FHFW]=textread('FEMALE.txt','%f%f');[MHMW]=textread('MALE.txt','%f%f');%------------------------------------------------------------------------%%身高与体重都作为特征X1=[FHFW];X1=X1';X2=[MHMW];X2=X2';%---------------------------------------