人工智能导论Introductiontoartificialintelligence第10章智能图像处理【导读案例】算法工程师:你的一切皆在我计算中•讨论:1模式识别2图像识别3机器视觉与图像处理4图像识别技术的应用5智能图像处理技术第1节10.1模式识别•模式识别(patternrecognition)原本是人类的一项基本智能,是指对表征事物或现象的不同形式(数值的、文字的和逻辑关系的)的信息做分析和处理,从而得到一个对事物或现象做出描述、辨认和分类等的过程。随着计算机技术的发展和人工智能的兴起,人类本身的模式识别已经满足不了社会发展的需要,于是人类就希望用计算机来代替或扩展人类的部分脑力劳动。这样计算机的模式识别就产生了,例如,计算机图像识别技术就是模拟人类的图像识别过程。图10-1计算机模拟人类的图像识别过程10.1模式识别•模式识别是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类和无监督的分类两种。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。在图像识别的过程中进行模式识别是必不可少的,要实现计算机视觉必须有图像处理的帮助,而图像处理依赖于模式识别的有效运用。10.1模式识别•模式识别是一门与数学紧密结合的科学,其中所用的思想方法大部分是概率与统计。模式识别主要分为三种:统计模式识别、句法模式识别和模糊模式识别。•模式识别研究主要集中在两方面:–一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,–二是在给定的任务下,如何用计算机实现模式识别的理论和方法。10.1模式识别•应用计算机对一组事件或过程进行辨识和分类,所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象。这些对象与数字形式的信息相区别,称为模式信息。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。图10-2模式识别应用于视频监控系统1人类的图像识别能力2图像识别3计算机图形识别模型4图像识别的发展第2节10.2图像识别•随着时代的进步,越来越多的东西逐渐依赖于越来越难以捉摸的人工智能,不过渐渐的,人们发现后者的一些缺陷也越来越重要。例如,•人类拥有记忆,拥有“高明”的识别系统,比如告诉你面前的一只动物是“猫”,以后你再看到猫,一样可以认出来。可是,虽然人工智能已经具备了一定的意识,但或许还是小学生而已。如果说人工智能要通过那么多张图片才能认识什么是猫,那么需要多少张图片去认识这个世界呢?图10-3人工智能的意识10.2图像识别•人类是通过眼睛接收到光源反射,“看”到了自己眼前的事物,但是可能很多内容元素人们并不在乎;就像你好几天甚至更久前刚刚擦肩而过的一个人,如果你今天再次看到,你不一定会记得他,但是人工智能会记住所有它见过的任何人,任何事物。•比如右图,人类会觉得这是很简单的黄黑间条。不过如果你问问最先进的人工智能,它给出的答案也许会是校车,而且99%地肯定。对于图10-5,人工智能虽不能看出这是一条戴着墨西哥帽的吉娃娃狗(有的人也未必能认出),但是起码能识别出这是一条戴着宽边帽的狗。10.2图像识别图10-5识别戴着墨西哥帽的吉娃娃狗10.2图像识别•怀俄明大学进化人工智能实验室的一项研究却表明,人工智能未必总是那么灵光,也会把这些随机生成的简单图像当成了鹦鹉、乒乓球拍或者蝴蝶。当研究人员把这个研究结果提交给神经信息处理系统大会进行讨论时,专家形成了泾渭分明的两派意见。一组人领域经验更丰富,他们认为这个结果是完全可以理解的;另一组人则对研究结果的态度是困惑。至少在一开始对强大的人工智能算法却把结果完全弄错感到惊讶。10.2图像识别•图像识别(imageidentification),是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。图像识别技术一般分为人脸识别与商品识别,人脸识别主要运用在安全检查、身份核验与移动支付中;商品识别主要运用在商品流通过程中,特别是无人货架、智能零售柜等无人零售领域。另外,在地理学中,图像识别也指将遥感图像进行分类的技术。10.2.1人类的图像识别能力•图形刺激作用于感觉器官,人们辨认出它是以前见过的某一图形的过程,也叫图像再认。在图像识别中,既要有当时进入感官的信息,也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程,才能实现对图像的再认。•人的图像识别能力是很强的。图像距离的改变或图像在感觉器官上作用位置的改变,都会造成图像在视网膜上的大小和形状的改变。即使在这种情况下,人们仍然可以认出他们过去知觉过的图像。甚至图像识别可以不受感觉通道的限制。例如,人可以用眼看字,当别人在他背上写字时,他也可认出这个字来。10.2.2图像识别基础•图像识别可能是以图像的主要特征为基础的。每个图像都有它的特征,如字母A有个尖,P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映像。10.2.2图像识别基础•人类对复杂图像的识别往往要通过不同层次的信息加工才能实现。对于熟悉的图形,由于掌握了它的主要特征,就会把它当作一个单元来识别,而不再注意它的细节。这种由孤立单元材料组成的整体单位叫做组块,每一个组块是同时被感知的。在文字材料的识别中,人们不仅可以把一个汉字的笔划或偏旁等单元组成一个组块,而且能把经常在一起出现的字或词组成组块单位来加以识别。10.2.2图像识别基础•在计算机视觉识别系统中,图像内容通常用图像特征进行描述。事实上,基于计算机视觉的图像检索也可以分为类似文本搜索引擎的三个步骤:提取特征、建立索引以及查询。图10-6用图像特征进行描述10.2.3计算机图像识别模型•图像识别是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型。•例如模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫模板。当前的刺激如果能与大脑中的模板相匹配,这个图像也就被识别了。例如有一个字母A,如果在脑中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。这个模型简单明了,也容易得到实际应用。但这种模型强调图像必须与脑中的模板完全符合才能加以识别,而事实上人不仅能识别与脑中的模板完全一致的图像,也能识别与模板不完全一致的图像。10.2.3计算机图像识别模型•例如,人们不仅能识别某一个具体的字母A,也能识别印刷体的、手写体的、方向不正、大小不同的各种字母A。同时,人能识别的图像是大量的,如果所识别的每一个图像在脑中都有一个相应的模板,也是不可能的。•为了解决模板匹配模型存在的问题,格式塔心理学家又提出了一个原型匹配模型。这种模型认为,在长时记忆中存储的并不是所要识别的无数个模板,而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型,拿它来检验所要识别的图像。10.2.3计算机图像识别模型•如果能找到一个相似的原型,这个图像也就被识别了。这种模型从神经上和记忆探寻的过程上来看,都比模板匹配模型更适宜,而且还能说明对一些不规则的,但某些方面与原型相似的图像的识别。但是,这种模型没有说明人是怎样对相似的刺激进行辨别和加工的,它也难以在计算机程序中得到实现。因此又有人提出了一个更复杂的模型,即“泛魔”识别模型。一般工业使用中,采用工业相机拍摄图片,然后利用软件根据图片灰阶差做处理后识别出有用信息。10.2.4图像识别的发展•图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。•文字识别:研究开始于1950年。一般是识别字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛。•数字图像处理和识别:研究开始于1965年。数字图像与模拟图像相比具有存储,传输方便可压缩、传输过程中不易失真、处理方便等巨大优势,这些都为图像识别技术的发展提供了强大的动力。•物体识别:主要是指对三维世界的客体及环境的感知和认识,属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能、系统学等学科的研究方向,其研究成果被广泛应用在各种工业及探测机器人上。10.2.4图像识别的发展•现代图像识别技术的一个不足就是自适应性能差,一旦目标图像被较强的噪声污染或是目标图像有较大残缺往往就得不出理想的结果。•在图像识别的发展中,主要有三种识别方法:统计模式识别、结构模式识别、模糊模式识别。图像分割是图像处理中的一项关键技术,自20世纪70年代以来,其研究一直都受到人们的高度重视,借助于各种理论提出了数以千计的分割算法。10.2.4图像识别的发展•图像分割的方法有许多种,如阈值分割方法、边缘检测方法、区域提取方法、结合特定理论工具的分割方法等。从图像的类型来分,有灰度图像分割、彩色图像分割和纹理图像分割等。早在1965年就有人提出了检测边缘算子,使得边缘检测产生了不少经典算法。但在近二十年间,随着基于直方图和小波变换的图像分割方法的研究计算技术、VLSI技术的迅速发展,有关图像处理方面的研究取得了很大的进展。图像分割方法结合了一些特定理论、方法和工具,如基于数学形态学的图像分割、基于小波变换的分割、基于遗传算法的分割等。1机器视觉的发展2图像处理3计算机视觉4计算机视觉与机器视觉的区别第3节5神经网络的图像识别技术10.3机器视觉与图像处理•智能图像处理是指一类基于计算机的自适应于各种应用场合的图像处理和分析技术,本身是一个独立的理论和技术领域,但同时又是机器视觉中的一项十分重要的技术支撑。人工智能、机器视觉和智能图像处理技术之间的关系如右图所示。图10-7智能图像处理的支撑作用10.3.1机器视觉的发展•具有智能图像处理功能的机器视觉(MachineVision),相当于人们在赋予机器智能的同时为机器按上了眼睛,使机器能够“看得见”、“看得准”,可替代甚至胜过人眼做测量和判断,使得机器视觉系统可以实现高分辨率和高速度的控制。而且,机器视觉系统与被检测对象无接触,安全可靠。图10-8图像处理与模式识别应用于指纹识别10.3.1机器视觉的发展•机器视觉是人工智能领域中发展迅速的一个重要分支,正处于不断突破、走向成熟的阶段。一般认为机器视觉“是通过光学装置和非接触传感器自动地接受和处理一个真实场景的图像,通过分析图像获得所需信息或用于控制机器运动的装置”,可以看出智能图像处理技术在机器视觉中占有举足轻重的位置。•机器视觉的起源可追溯到20世纪60年代美国学者L.R.罗伯兹对多面体积木世界的图像处理研究,70年代麻省理工学院(MIT)人工智能实验室“机器视觉”课程的开设。到80年代,全球性机器视觉研究热潮开始兴起,出现了一些基于机器视觉的应用系统。90年代以后,随着计算机和半导体技术的飞速发展,机器视觉的理论和应用得到进一步发展。10.3.1机器视觉的发展•进入21世纪后,机器视觉技术的发展速度更快,已经大规模地应用于多个领域,如智能制造、智能交通、医疗卫生、安防监控等领域。•常见机器视觉系统主要分为两类,一类是基于计算机的,如工控机或PC,另一类是更加紧凑的嵌入式设备。典型的基于工控机的机器视觉系统主要包括:光学系统,摄像机和工控机(包含图像采集、图像处理和分析、控制/通信)等单元。机器视觉系统对核心的图像处理要求算法准确、快捷和稳定,同时还要求系统的实现成本