机器视觉MachineVision参考教材:《机器视觉》,贾云得著,科学出版社,2000参考书目:1、《图像处理、分析与机器视觉》(第二版)M.Sonka,V.Hlavac,R.Boyle著,艾海舟等译,人民邮电出版社,20032、《机器视觉教程》W.E.Snyder,H.Qi著林学訚等译,机械工业出版社,20053、《计算机视觉》马颂德著,科学出版社,1999课程教材第一章引论Chap1引论讲解内容1.机器视觉的研究内容、特点及其应用。2.基础理论(Marr视觉计算、成像几何基础);3.课程学习内容。目的1.了解机器视觉的主要内容及相关知识,熟悉机器视觉与其他学科的关系;2.重点掌握Marr视觉计算理论及成像几何基础理论。1.1机器视觉机器视觉:用计算机来模拟生物视觉功能的科学和技术。机器视觉系统的首要目标是利用图像创建或恢复现实世界模型,然后认知现实世界。•从二维图象恢复三维信息;•从原始图像数值描述产生语义描述。1.1.1基本概念机器视觉是信息科学领域的一个重大挑战性问题:•JimGray列出的12大信息科学问题之一:Seeaswellasaperson.•BillGates:Thefutureofcomputingistomakecomputerssee,hear,speakandlearn.一、输入设备(inputdevice)-包括成像设备和数字化设备.成象设备是指通过光学摄像机或红外、激光、超声、X射线对周围场景或物体进行探测成象,得到关于场景或物体的二维或三维数字化图像。二、低层视觉(lowlevel)-主要是对输入的原始图像进行处理.这一过程借用了大量的图像处理技术和算法,如图像滤波、图像增强、边缘检测等,以便从图像中抽取诸如角点、边缘、线条、边界以及色彩等关于场景的基本特征;这一过程还包含了各种图像变换(如校正)、图像纹理检测、图像运动检测等。1.1机器视觉1.1.2研究内容三、中层视觉(middlelevel)-主要任务是恢复场景的深度、表面法线方向、轮廓等有关场景的2.5维信息,实现的途径有立体视觉(stereovision)、测距成像(rangefinder)运动估计(motionestimation)、明暗特征、纹理特征等.系统标定、系统成像模型等研究内容一般也是在这个层次上进行的.四、高层视觉(highlevel)-主要任务是在以物体为中心的坐标系中,在原始输入图像、图像基本特征、2.5维图的基础上,恢复物体的完整三维图,建立物体三维描述,识别三维物体并确定物体的位置和方向.五、体系结构(systemarchitecture)1.1机器视觉•20世纪50年代归入模式识别----主要集中在二维图像分析和识别上,如光学字符识别,工件表面、显微图片和航空图片的分析和解释等。•60年代,Roberts积木世界理论----开创了以理解三维场景为目的的三维计算机视觉的研究。•70年代,Marr计算视觉理论----第一个较为完善的视觉系统框架,分三个层次进行处理。•80年代以后,蓬勃发展----新概念、新方法、新理论不断涌现,如基于感知特征群的物体识别理论框架,主动视觉理论框架,视觉集成理论框架等。1.1机器视觉1.1.3发展概况(1)图像多义性(2)环境因素影响(3)知识导引(4)大量数据1.1机器视觉1.1.4研究面临的困难主要期刊和会议1.1机器视觉•IEEET-PAMI,IJCV,IEEET-ImageProcessing,PatternRecognition,ComputerVisionandImageUnderstanding,ImageandVisionComputing,PRLetters,……•ICCV,CVPR,ICPR,ICIP,ECCV,ACCV,BMVC,MVA,……•自动化学报、计算机学报、软件学报、电子学报、中国图像图形学报、模式识别与人工智能、……1.2Marr视觉计算理论•MIT的DavidMarr在70年代末提出了第一个较为完善的视觉系统框架;•该框架立足于计算机科学,系统地概括了心理生理学、神经生理学等方面取得的所有重要成果;•该框架尽管存在很多缺陷,但过去20多年一直处于主导地位。D.Marr,Vision,1982.中译本:视觉计算理论,姚国正、刘磊、汪云九译,科学出版社,1988。1.2.1三个层次表1-1计算理论表示和算法硬件实现计算的目的是什么?如何实现这个计算理论?在物理上如何实现为什么这一计算是合适的?输入、输出的表示是什么?这些表示和算法?执行计算的策略是什么?表示与表示之间的变换是什么?视觉信息处理系统分为三个层次:1.2.2视觉表示框架第一阶段(也称为早期阶段):将输入的原始图像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,这些特征的集合称为基元图(primitivesketch);第二阶段(中期阶段):指在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息的包含了深度信息,但不是真正的物体三维表示,因此,称为二维半图(2.5dimensionalsketch);第三阶段(后期阶段):在以物体为中心的坐标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体。表1-2由图像恢复形状信息的表示框架名称目的基元图像光强表示图像中每一点的强度值基元图表示二维图像中的重要信息,主要是图像中的强度变化位置及其几何分布和组织结构零交叉,斑点,端点和不连续点,边缘片断,有效线段,组合群,曲线组织,边界2.5维图在以观测者为中心的坐标系中,表示可见表面的方向、深度值和不连续的轮廓局部表面朝向(“针”基元)离观测者的距离深度上的不连续点表面朝向的不连续点3维模型表示在以物体为中心的坐标系中,用由体积基元和面积基元构成的模块化多层次表示,描述形状及其空间组织形式.分层次组成若干三维模型,每个三维模型都是在几个轴线空间的基础上构成的,所有体积基元或面积形状基元都附着在轴线上.1.2.2视觉表示框架视觉处理框架基本上是自下而上,没有反馈;没有足够地重视知识的应用。基于感知特征群的物体识别理论框架,主动视觉理论框架,视觉集成理论框架等等。1.2Marr视觉计算理论Marr理论的不足1.基于视觉感知与认知机理的图像分析与识别系统研究目标:突破基于人类视觉感知与认知机理的图像处理模型、关键技术和算法,建立个性化、高准确度的图像分析与识别系统。研究内容:分层交互的统计视觉计算模型与推理,基于感知整合机制的视觉模式识别技术,具有选择性注意机制的视觉信息搜索与多目标跟踪模型。863计划信息技术领域2006年度专题课题申请指南目标导向类课题:2.复杂应用环境下的生物特征识别系统研究目标:突破安全便捷的、高可靠性的多生物特征获取及识别算法,建立面向典型应用的生物特征识别与认证原型系统。研究内容:脸相、虹膜、掌纹等多生物特征获取技术,大规模生物特征库的分类和检索,具有鲁棒性的生物特征识别关键技术,面向实际应用需求的多种生物特征的融合技术等。863计划信息技术领域2006年度专题课题申请指南目标导向类课题:1.3机器视觉的应用•零件识别与定位•产品检验•移动机器人导航•遥感图像分析•医学图像分析•安全、监控与跟踪•国防系统•其它(动画、体育、考古)应用领域Sojourner火星车前部图,中部的两个小突出是两个黑白CCD摄像机1.3机器视觉的应用Sojourner视觉系统获取的立体图象对障碍物探测示意图Sojourner视觉系统对场景的深度恢复1.3机器视觉的应用人脸跟踪演示1.3机器视觉的应用MITMediaLab,与虚拟生物交互演示1.3机器视觉的应用(基于图象序列的)五角大楼三维重建1.3机器视觉的应用三维人脸重建1.3机器视觉的应用1.4机器视觉与其它学科关系机器视觉VS图像处理•图像处理(ImageProcessing):实现从输入图像到另一种图像的转换•图像处理:人是最终的解释者•机器视觉:计算机是图像的解释者•机器视觉系统需要图像处理模块1.4机器视觉与其它学科关系机器视觉VS计算机图形学•计算机图形学:从三维描述到二维图像显示•机器视觉:从二维图像数据到三维描述•在一定意义上讲,计算机视觉是计算机图形学的逆问题•两者从最初相互独立的平行发展到最近的融合是一大趋势1.4机器视觉与其它学科关系机器视觉VS模式识别•模式识别:研究各类模式的分类,其中模式可以有不同的物理意义和表现形式•图像模式的分类是计算机视觉中的一个重要问题•模式识别中的许多方法可以应用于计算机视觉中1.4机器视觉与其它学科关系机器视觉VS人工智能•人工智能:主要研究智能系统的设计和有关智能的计算理论与方法•AImaybeconsideredashavingthreestages:perception,cognitionandaction•计算机视觉经常被视为AI的一个分支图1.6透视投影倒立成像几何示意图1.5成像几何基础1.5.1透视投影图1.7透视投影几何示意图zfyyxxxzfxyzfy1.5.1透视投影图1.8正交投影几何示意图xxyy1.5.2正交投影1.5.2正交投影1.5.3视觉系统坐标系像素坐标:表示图像阵列中图像像素的位置;图像平面坐标:表示场景点在图像平面上的投影;摄象机坐标:即以观察者为中心的坐标,将场景点表示成以观察者为中心的数据形式;场景坐标:也称作绝对坐标(或世界坐标),用于表示场景点的绝对坐标。引论(Chap1)二值图象处理(Chap3)区域分析(Chap4)图象预处理(Chap5)边缘检测(Chap6)轮廓表示(Chap7)纹理分析(Chap8)明暗分析(Chap9)深度图(Chap11)相机标定(Chap12)运动估计(Chap14)物体识别(Chap16)1.6课程内容