哈工大模式识别-绪论.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

模式识别基础宿富林哈尔滨工业大学电子与信息工程学院信息工程系86403225,主楼1201第一章绪论§1.1模式识别和模式的概念日常生活中的模式识别–陌生、但密切相关语音、图像、气味寻找教室、查找资料、医生看病–见惯不惊模式识别是六十年代初迅速发展的一门学科。它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,推动了人工智能技术及图像处理、信号处理、计算机视觉、多媒体技术等多种学科的发展,扩大了计算机应用的领域。什么是模式识别?模式识别:PatternRecognition通俗一点讲就是机器识别,计算机识别,或机器自动识别。模式识别–针对让计算机来判断事物而提出的–该学科研究的内容是使机器能做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断的部分能力。机器与人类识别事物的比较人类:具有提取抽象概念的能力人们在学习与认识事物中会总结出规律,并把这些规律性的东西抽象成“概念”。人之所以能“抽象出概念”,关键能分析事物中哪些是本质,哪些是表面现象,或由偶然因素引起的。机器:目前的抽象能力是很差的。对样本辨别事物的最基本方法是计算。要让机器准确地把握事物的本质,弄清分辨事物的关键,从而正确辨别事物,实质上是要使人能够研究出好的方法,提出好的算法,从而构造出好的系统,使机器辨别事物的本领更强。机器辨别事物的最基本方法是计算让机器辨别事物的最基本方法是计算,原则上讲是对计算机要分析的事物与作为标准的称之为“模板”的相似程度进行计算。譬如说脑子里有没有瘤,就要与标准的脑图像以及有瘤图像做比较,看跟哪个更相似。要识别一个具体数字,就要将它与从0到9的样板做比较,看跟哪个模板最相似,或最接近。因此首先要能从度量中看出不同事物之间的差异,才能分辨当前要识别的事物(称为测试样本)跟哪类事物更接近。因此找到有效地度量不同类事物的差异的方法是最关键的。模式类与模式模式类与模式:所见到的具体事物称为模式,而将他们的归属类别称为模式类。样本与模式(模式类):所见到的具体事物称为样本,而他们所属的事物类别,代表着这些事物的“概念”是模式。模式与样本在集合论中是子集与元素之间的关系模式识别:将某一具体事物(样本)正确地归入某一(模式)类别。模式的描述方法一种是对事物的属性进行度量,属于定量的表示方法。另一种则是对事务所包含的成分进行分析,称为定性的描述或结构性描述定量的表示方法–特征:模式就是用它们所具有的特征(Feature)(反映事物的本质属性)描述的。–特征向量:对一种模式与它们的样本来说,将描述它们的所有特征用一特征集表示:例如对水果进行分类:用水果的重量,近似球体直径表示水果:一只苹果重0.3斤,直径10厘米,则可表示成(0.3,1.0){,,...,}nOfff2特征空间特征空间中的一个样本点时域信号的向量表示法语音信号这种随时间变化的信号,属于时域信号。此时,元素之间的时间先后顺序很重要,因此可用向量的形式将它们排列起来。说的严格一些,对语音信号进行采样,然后将在不同时刻采样值排列起来,组成向量。图像的表示方法数字图像:它由排列整齐的二维网格组成,分为若干行与若干列,相当于一个二维数组,或称矩阵。每个元素称为像素。图像的运算是向量运算。A11111000010001000100001000010000100结构性描述方法结构性描述方法:由事物组成成分与相互关系表示的表示方法。常用的有串、树、图等。例如一幅景色图像中的房屋用向量描述就不一定方便,对房屋而言,它有屋顶、墙、门窗等组成,各种成分之间又有相互关系,则墙在屋顶之下,门与窗都在墙上等。统计模式识别统计模式识别在特征空间与特征向量这种表示模式的方法前提下,讨论模式识别的基本理论与基本方法。结构模式识别基于结构性描述方法。§1.2模式识别系统对样本进行分类,执行模式识别的计算机系统称为模式识别系统。模式识别系统的基本构成–一般由数据获取,预处理,特征提取与选择、分类器设计及分类决策五部分组成。例子:鲈鱼和鲑鱼的分类及识别光学手段,架设相机,拍摄鱼的照片,识别这两类鱼。两种鱼有在一些物理特性上差异明显:长度、宽度、光泽、鳍的数目和形状、嘴的位置。(特征)可用于分类识别。预处理:图像受到光照的影响、鱼在传送带上的位置、摄像机电子线路的干扰。两种鱼的长度的分布(只用长度分类)不存在一个阈值能分开两类鱼。任何阈值都会存在错分。最佳阈值:l’’,错分类数目最小。鲑鱼鲈鱼鲑鱼鲈鱼两种鱼的光泽度的分布(只用光泽度分类)不存在一个阈值能分开两类鱼。任何阈值都会存在错分。最佳阈值:x’’,错分类数目最小。两个特征(光泽度和宽度)分类,线性分类器中间斜线是分界线,误差别前述两种效果好,但仍有一些错误。复杂的决策曲线。对训练样本可得无错分样本。但,推广能力很差。如。新的点“?”,更像是“鲑鱼”,但分为“鲈鱼”判决曲线:分类性能和分界面复杂度的一个最优折中。对新的样本的分类性能也很好典型的模式识别系统数据获取预处理特征提取与选择分类器设计分类决策分类器参数分类结果训练过程识别过程一、数据获取数据获取环节主要是由不同形式的传感器构成,实现信息获取与信息在不同媒体之间的转换。在现阶段计算机都只能处理某种形式的电信号,而待识别的样本大都是非电信息,需要转换成电信号。---话筒将声音信号转换成电信号----景物信息在摄像机靶面成像并转换成二维的象素矩阵二、预处理预处理主要是指去除所获取信息中的噪声,增强有用的信息,及一切必要的使信息纯化的处理过程。如图象处理:二值化,图象的平滑,变换,增强,恢复,滤波等三、特征选择和提取将所获取的原始量测数据转换成能反映事物本质,并将其最有效分类的特征表示。输入:原始的量测数据(经过必要的预处理)。输出:将原始量测数据转换成有效方式表示的信息,从而使分类器能根据这些信息决定样本的类别。对所获取的信息实现从测量空间(原始数据组成的空间)到特征空间(分类识别赖以进行的空间)的转换。测量空间–原始数据是由所使用的量测仪器或传感器获取的,这些数据组成的空间叫测量空间。特征空间–待识别的样本及模式都是用特征进行描述的,识别与训练都是在特征空间中进行的。例:印刷体数字识别向量表示一个数字往往用一个N×M的数组表示。如果N=5,M=7,则一个数字就用5×7共35个网格是黑是白来表示。如令黑为“1”,白为“0”,一个数字就可用35维的二进制向量表示。优点:简单。缺点:稳定性差。这种表示与网格的大小、字的笔划粗细、以及字在网格中的位置及转向有关。A11111000010001000100001000010000100结构(笔划)表示也就是将它分成一横加上一斜杠表示。这种表示方法属于结构表示法范畴。没有前一种方法的缺点。提取这种结构信息也不是一件容易方便的事四、分类器设计与分类决策模式识别系统工作的两种方式–训练方式和分类决策方式分类器设计:将该特征空间划分成由各类占据的子空间,确定相应的决策分界。分类决策:是指分类器在分界形式及其具体参数都确定后,对待分类样本进行分类决策的过程。例:汽车车牌识别从摄像头取得彩色的包含车牌的图像。车牌定位和抽取。字符分割与识别。§1.3模式识别的一些基本问题一、学习二、模式的紧致性三、相似性度量一、学习人的学习过程在日常生活中进行模式识别的活动从学习过程中掌握了很强的分辨事物的能力。机器的学习过程1.使用包含各种类别的训练样本2.勾画出各类事物在特征空间分布的规律性3.确定使用分类的具体数学公式及其参数例:两类训练样本圆形分布分类函数类型的确定:圆形的分布与线性方程。一般来说,决定使用什么类型的分类函数往往是人为决定的。数学式子中参数的确定是一种学习过程。如果当前采用的分类函数会造成分类错误,利用错误提供应如何纠错的信息,纠正分类函数。分类器设计:求解优化问题的过程模式识别中的学习与训练是从训练样本提供的数据中找出某种数学式子的最优解,这个最优解使分类器得到一组参数,按这种参数设计的分类器使人们设计的某种准则达到极值。分类器参数的选择或者学习过程得到的结果取决于设计者选择什么样的准则函数。不同准则函数的最优解对应不同的学习结果,得到性能不同的分类器。二、模式的紧致性分类器设计难易程度与模式在特征空间的分布方式有密切关系临界点:处于两类的边界上的点为临界点。内点:非临界点。临界点与内点紧致集,具有下列性质:(1)临界点的数量与总的点数相比很少。(2)集合中任意两个内点可以用光滑线连接,在该连线上的点也属于这个集合。(3)每个内点都有一个足够大的邻域,在该领域中只包含同一集合中的点。形象说法:不要混迭,分界面干净利索影响数据紧致性的因素数据本身特性-----如手写体数字数据描述方法-----印刷体数字的网格表示特征提取:改善数据紧致性许多问题在测量空间上不满足紧致性。若可分:通过某种变换,使其在特征空间中可分。具有紧致性特征提取的任务就是找到这样一种变换。三、相似性度量在特征空间中用特征向量描述样本的属性,就是把相似性度量用距度离量表示。同类样本应具有聚类性,或紧致性好不同类别样本应在特征空间中显示出具有较大的距离。统计模式识别各种方法实际上都是直接或间接以距离度量为基础的。两个样本xi,xj之间的相似度量满足以下要求:①应为非负值②样本本身相似性度量应最大③度量应满足对称性④在满足紧致性的条件下,相似性应该是点间距离的单调函数常用的距离度量欧氏距离差的绝对值总和向量夹角模式识别发展历史1929年G.Tauschek发明阅读机,能够阅读0-9的数字。30年代Fisher提出统计分类理论,奠定了统计模式识别的基础。因此,在60~70年代,统计模式识别发展很快,但由于被识别的模式愈来愈复杂,特征也愈多,就出现“维数灾难”。但由于计算机运算速度的迅猛发展,这个问题得到一定克服。统计模式识别仍是模式识别的主要理论。模式识别发展历史50年代NoamChemsky提出形式语言理论美籍华人付京荪提出句法结构模式识别。60年代L.A.Zadeh提出了模糊集理论,模糊模式识别理论得到了较广泛的应用。80年代Hopfield提出神经元网络模型理论。近些年人工神经元网络在模式识别和人工智能上得到较广泛的应用。90年代小样本学习理论,支持向量机也受到了很大的重视。关于模式识别的国内、国际学术组织1973年IEEE发起了第一次关于模式识别的国际会议“ICPR”,成立了国际模式识别协会---“IAPR”,每2年召开一次国际学术会议。1977年IEEE的计算机学会成立了模式分析与机器智能(PAMI)委员会,每2年召开一次模式识别与图象处理学术会议。国内的组织有电子学会,通信学会,自动化协会,中文信息学会….。模式识别的应用领域机器视觉(指纹识别,人脸识别)字符识别语音识别医疗诊断(雷达、可见光、红外等)目标识别(雷达、可见光、红外等电子侦察对对抗:频率、带宽、脉宽等识别遥感图像分类信息安全:网络入侵检测

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功