模式识别学习心得作者:白静2012.9.8模式识别定义模式识别(PatternRecognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(SupervisedClassification)和无监督的分类(UnsupervisedClassification)两种。二者的主要差别在于各实验样本所属的类别是否预先已知。一般说来,有监督的分类往往需要提供大量已知类别的样本,但在实际问题中,这是存在一定困难的,因此研究无监督的分类就变得十分有必要了。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。模式识别的发展简史1929年G.Tauschek发明阅读机,能够阅读0-9的数字。30年代Fisher提出统计分类理论,奠定了统计模式识别的基础。50年代NoamChemsky提出形式语言理论——傅京荪提出句法/结构模式识别。60年代L.A.Zadeh提出了模糊集理论,模糊模式识别方法得以发展和应用80年代以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。90年代小样本学习理论,支持向量机也受到了很大的重视。模式识别的方法和应用模式识别的方法:1.统计模式识别2.句法模式识别3.模糊模式识别4.人工神经网络法5.人工智能方法模式识别的应用1.文字识别2.语音识别3.指纹识别4.遥感5.医学诊断模式识别基本概念模式识别(PatternRecognition):确定一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。样本(Sample):一个具体的研究(客观)对象。如患者,某人写的一个汉字,一幅图片等。模式(Pattern):对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界的某一样本的测量值的集合(或综合)。特征(Features):能描述模式特性的量(测量值)。在统计模式识别方法中,通常用一个矢量表示,称之为特征矢量,记为模式类(Class):具有某些共同特性的模式的集合。),,,(21nxxxx模式识别系统一个典型的模式识别系统由下图所示的结构框图组成,一般由数据获取,预处理,特征提取选择、分类决策及分类器设计五部分组成。分类器设计在训练过程中完成,利用样本进行训练,确定分类器的具体参数。而分类决策在识别过程中起作用,对待识别的样本进行分类决策。信息获取预处理特征提取选择分类器设计分类决策训练过程分类器参数分类结果模式识别系统数据采集特征提取改进分类识别规则二次特征提取与选择训练样本改进采集提取方法改进特征提取与选择制定改进分类识别规则人工干预正确率测试数据采集特征提取二次特征提取与选择分类识别待识对象识别结果范例木板图象512×512d=3长度纹理亮度c=2松木\桦木维数无限有限/很大R有限d不大cdR无限模式采集模式空间特征提取/选择类型空间分类特征空间客观世界待识别对象识别过程错误概率检测制定分类的判决规则特征提取/选择方法校正学习过程采集方法校正已知对象预处理模式识别过程特征矢量和特征空间特征矢量:设一个研究对像的n个特征量测量值分别为X1,X2....Xn,我们将它们作为一个整体来考虑,让它们构成一个n维特征矢量特征空间:各种不同取值的特征矢量的全体构成了n维特征空间。随机矢量的描述随机矢量:在模式识别过程中,要对许多具体对象进行测量,以获得许多次观测值。每次观测值不一定相同,所以对许多对象而言,各个特征分量都是随机变量,即许多对象的特征向量在n维空间中呈随机性分布,称为随机矢量。随机矢量的分布函数:设为随机矢量,为确定性矢量。随机矢量的联合概率分布函数定义为:式中表示括号中事件同时发生的概率。),,,(21nXXXX),,,(21nxxxx),,,(),,,(221121nnnxXxXxXPxxxF)()(xXPxFP聚类分析(ClusteringAnalysis)一、聚类分析的基本思想★相似的归为一类。★模式相似性的度量和聚类算法。★无监督分类(Unsupervised)。二、特征量的类型★物理量----(重量、长度、速度)★次序量----(等级、技能、学识)★名义量----(性别、状态、种类)三、方法的有效性取决于分类算法和特征点分布情况的匹配。聚类过程遵循的基本步骤三、聚类准则(clusteringcriterion)以蕴涵在数据集中类的类型为基础二、近邻测度(proximitymeasure)定量测定两特征如何“相似”或“不相似”一、特征选择(featureselection)尽可能多地包含任务关心的信息聚类过程遵循的基本步骤六、结果判定(interpretationoftheresults)由专家用其他方法判定结果的正确性五、结果验证(validationoftheresults)常用逼近检验验证聚类结果的正确性四、聚类算法(clusteringalgorithm)按近邻测度和聚类准则揭示数据集的聚类结构聚类应用的四个基本方向一、减少数据许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩了。二、假说生成在这种情况下,为了推导出数据性质的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。三、假说检验用聚类分析来验证指定假说的有效性。四、基于分组的预测对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类?模式相似性测度用于描述各模式之间特征的相似程度●距离测度测度基础:两个矢量矢端的距离测度数值:两矢量各相应分量之差的函数。●相似测度测度基础:以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要。●匹配测度当特征只有两个状态(0,1)时,常用匹配测度。0表示无此特征1表示有此特征。故称之为二值特征。聚类的算法简单聚类方法针对具体问题确定相似性阈值,将模式到各聚类中心间的距离与阈值比较,当大于阈值时该模式就作为另一类的类心,小于阈值时按最小距离原则将其分划到某一类中。按最小距离原则进行两类合并的方法首先视各模式自成一类,然后将距离最小的两类合并成一类,不断地重复这个过程,直到成为两类为止。依据准则函数动态聚类法设定一些分类的控制参数,定义一个能表征聚类结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程。