1图像处理与计算机视觉技术综述•主要参考书–张广军,《机器视觉》–岗萨雷斯,《数字图像处理》–章毓晋《图像工程》–《计算机视觉——一种现代方法》林学訚等译,–《机器视觉算法与应用》杨少荣等译,课程介绍•基础知识–数学:线性代数、概率与统计–计算机科学:软件编程–电子学:信号处理视觉重要?•古语–百闻不如一见–一目了然–眼见为实,耳听为虚。。。•人类信息的主要传递手段–视觉,听觉,味觉,触觉等–视觉占60%以上•人机交互–字符、图形–计算机接收信息手段单一(键盘,鼠标)图像处理重要?•两大应用需求–对图像信息的改进–机器自动理解:使计算机具有视觉主要学科–图像处理、计算机视觉和模式识别计算机图形学1.1图像处理与计算机视觉的发展及系统构成1.图像(Image)–可以看作是对物体或场景的一种表现形式–抽象定义:二维函数f(x,y)•(x,y):点的空间坐标(实数)•f:点(x,y)的幅度(亮度、强度或灰度)–英文单词•Image:一般指用镜头等科技手段得到的视觉形象•Picture:强调手工描绘的人物或景物画•Drawings:人工绘制的工程图Lenna1.1.1图像处理与计算机视觉的概念•图像实例光学图像LennaIKONOS卫星光学图像423mile高16000miles/h1m分辨率EP-3,海南陵水,01-4-4大脑断层图像遥感图像2.数字图像–数字化:对x,y和f进行离散化–数字图像(DigitalImage)•离散化了的图像–数字(离散)化过程•采样:坐标离散化•量化:函数值的离散化–分类(根据f的性质)•灰度图像(特殊:二值图像)•彩色图像3.数字图像处理–DIP(DigitalImageProcessing)–广义:与图像相关的处理(图像分析、理解和计算机视觉等)–狭义(从输入和输出内容):对图像进行各种加工,以改善图像的视觉效果或突出目标,强调图像之间进行的变换,是一个从图像到图像的过程–广义上分为三种类型:低、中、高级处理•图像处理主要是低级处理及部分中级处理3.数字图像处理–低级处理:输入输出都是图像–中级处理:图像分割及目标的描述,输出是目标的特征数据–高级处理:目标物体及相互关系的理解,输出是更抽象的数据–低级处理及部分中级处理•如:文本识别(OCR):1,2,3,4步1。获取图像2。图像的预处理(如校正)3。提取字符(图像分割)4。字符的特征描述5。。。4.图像处理与计算机视觉的区别与联系•图像处理主要集中在二维图像分析、识别和理解,如光学字符识别、工件表面、显微图片和航空照片的分析和解释等。•计算机视觉是采用图像处理、模式识别、人工智能技术相结合的手段,着重于一幅或多幅图像的计算机分析,图像可以由单个或多个传感器获取,也可以是单个传感器在不同时刻获取的图像序列。分析是对目标物体的识别,确定目标物体的位置和姿态,对三维景物进行符号描述和解释。•机器视觉:计算机视觉技术工程化,能够自动获取和分析特定的图像,以控制相应的行为。计算机视觉为机器视觉提供图像和景物分析的理论及算法基础,机器视觉为计算机视觉的实现提供传感器模型、系统构造和实现手段。1.1.2图像处理与计算机视觉的发展1.20世纪20年代:报纸业–图像的编码与重构技术•Bartlane电缆图片传输系统:从伦敦到纽约传送一幅图片从1周减少到3小时•色调质量和分辨率改善1921年,电报打印机,5个灰度级1922年,穿孔纸带,5个灰度级1929年,15级灰度2.1964年:航天技术–图像增强和复原技术•美国JPL(喷气推进)实验室处理卫星发射回来的月球表面的照片•图像畸变的校正3.20世纪70年代:遥感卫星和医学–图像增强和图像识别•利用遥感图片,进行地质资源探测,农作物估产,水文气象监测等–图像重构•X光断层图像重构技术,英国G.N.Hounsfield第一台脑断层摄像仪应用4.80年代末到90年代:多媒体技术–高速计算机和大规模集成电路的发展:图像压缩和多媒体技术;文本图像的分析和理解,文字的识别取得重大的进展;图像通讯和传输的广泛应用1.1.3图像处理与计算机视觉的系统构成•系统构成框图•采集–装置:两部分(1)传感器:能产生与所接受到的电磁能量成正比的模拟电信号(CCD,CMOS)(2)高速图像采集系统:它能将上述(模拟)电信号转化为数字(离散)的形式–设备•具备上述两种装置•如:数码相机,数码摄像机,扫描仪•处理–装置:两部分(1)专用图像处理系统:是计算机的辅助处理器,主要采用专用集成芯片(ASIC)、数字信号处理器(DSP)或者FPGA等设计的全硬件处理器。(2)计算机:是整个系统的核心,除了控制整个系统的各个模块的正常运行外,还承担最后结果运算和输出。•存储–数据量度单位•比特(bit),字节(byte=8bit)•千字节(Kbyte)•兆(106)字节(Mbyte)•吉(109)字节(Gbyte)•太(1012)字节(Tbyte)–图像信息量大•1024×1024,灰度图:1M字节(不压缩)•1024×1024,真彩图:3M字节(不压缩)•存储–图像存储器(1)处理过程中使用的快速存储器计算机内存,帧缓存(2)较快的在线或联机存储器磁盘,磁光盘(3)不经常使用的数据库(档案库)存储器磁带,光盘,光盘塔•存储–格式(表示格式和文件格式)(1)矢量格式用线段或线段的组合体来表示图像(WMF)(2)光栅格式用许多像素点的集合来表示图像BMP格式,GIF格式,TIFF格式,JPEG格式1.2图象理解理论框架1.2.1马尔视觉计算理论1.2.2对马尔理论框架的改进1.2.3关于马尔重建理论的讨论1.2.4新理论框架的研究1.2.1马尔视觉计算理论•马尔1982年出版了《视觉》一书•MarrD.1982.VisionAComputationalInvestigationintotheHumanRepresentationandProcessingofVisualInformation.W.H.Freeman•一个理解视觉信息处理的框架•要先理解视觉目的再去理解其中细节1.2.1马尔视觉计算理论1.视觉是一个复杂的信息加工过程•视觉是一个远比人所想象更为复杂的信息加工任务和过程,而且其难度常不为人们所正视•为理解视觉这个复杂的过程,要解决两个问题•视觉信息的表达问题:某些信息是突出的和明确的,另一些信息则是隐藏的和模糊的•视觉信息的加工问题:对信息处理、分析、理解,将不同表达形式转换,逐步抽象1.2.1马尔视觉计算理论2.视觉信息加工的三个要素①计算理论;②算法实现;③硬件实现①计算理论可计算性问题:一个任务要用计算机完成,它应该是可以被计算的一般对于某个特定的问题,如果存在一个程序,对于给定的输入,这个程序都能在有限步内给出输出,这个问题就是可计算的1.2.1马尔视觉计算理论2.视觉信息加工的三个要素①计算理论•视觉问题是否可用现代计算机计算?•对计算机给定输入,能否得到人类视觉可获得的类似结果•两方面的研究内容:①计算的是什么以及为什么要计算它们;②提出一定的约束条件,它们可唯一地确定最终得到的运算结果1.2.1马尔视觉计算理论2.视觉信息加工的三个要素②算法实现需要给加工所操作的实体选择一种合适的表达选择加工的输入和输出表达确定完成表达转换的算法①一般情况下可以有许多可选的表达②算法的确定常取决于所选的表达③给定一种表达,可有多种完成任务的算法1.2.1马尔视觉计算理论2.视觉信息加工的三个要素③硬件实现有了表达和算法在物理上如何实现算法也是必不可少的算法的确定常依赖于物理上实现算法硬件的特点同一个算法也可由不同的技术途径实现1.2.1马尔视觉计算理论2.视觉信息加工的三个要素–计算理论:如何由系统的输入求出输出。视觉系统输入的是二维图像,输出则是三维物体的形状、位置和姿态,任务是研究如何建立输入输出之间的关系和约束,如何由二维灰度图像恢复物体的三维信息。–算法实现:如何表达输入和输出信息,如何实现计算理论所对应的功能算法,以及如何由一种表示变换成另一种表示。–硬件实现:用硬件实现上述表达和算法的问题。视觉信息加工三要素的含义要素名称含义和所解决的问题1计算理论什么是计算目的,为什么要这样计算2表达和算法怎样实现计算理论,什么是输入输出表达,用什么算法实现表达间的转换3硬件实现怎样在物理上实现表达和算法,什么是计算结构的具体细节1.2.1马尔视觉计算理论2.视觉信息加工的三个要素•它们之间有一定的逻辑因果联系,但并无绝对的依赖关系•实际上看成两个层次更恰当•一旦有了计算理论,表达和算法与硬件实现是互相影响的1.2.1马尔视觉计算理论表达和算法硬件实现计算理论1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(1)基素表达(primalsketch)•一种2-D表达,它是图象特征的集合,描述了物体上属性发生变化的轮廓部分•只用基素表达不能保证得到对场景的唯一解释(a)(b)(c)(d)(e)1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(2)2.5-D表达(2-Dsketch)①将物体可见面正交投影分解成单元表面②用法线代表单元表面的取向③将各法线画出,叠加于物体轮廓内可见面上1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(2)2.5-D表达(2-Dsketch)•本征图,表示了物体表面面元的朝向•可将2.5-D图转化成(相对)深度图•既表达了一部分物体轮廓的信息(这与基素表达类似)表达了以观察者为中心、可观察到的物体表面的取向信息•与人所理解的3-D物体一致(可见物体轮廓以内目标的3-D信息,如边界、深度,反射特性等)1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(2)2.5-D表达(2-Dsketch)•将2.5-D图转化成(相对)深度图•给定z(x,y)对x和y的偏导p和q,理论上讲可通过在平面上沿任意曲线的积分来恢复z(x,y)•为最小化误差可选择z(x,y)满足),(),(0000)dd(),(),(yxyxyqspyxzyxzyxqzpzIyxdd)()(221.2.1马尔视觉计算理论3.视觉信息的三级内部表达(3)3-D表达(3-Drepresentation)•以物体为中心(即也包括了物体不可见部分)的表达形式•在以物体为中心的坐标系中描述3-D物体的形状及其空间组织•①空间占有数组,②单元分解,③几何模型•广义圆柱体表达方法1.2.1马尔视觉计算理论3.视觉信息的三级内部表达•从计算机或信息加工的角度来说,视觉可计算性问题可分成几个步骤,步骤之间是某种表达形式,而每个步骤都是把前后两种表达形式联系起来的计算/加工方法3.视觉信息的三级内部表达名称目的基元图象表达场景的辉度或物体的照度象素(值)基素图表达图象中亮度变化位置、物体轮廓的几何分布和组织结构零交叉、端点、边缘段、边界等2.5-D图在以观察者为中心的坐标系中表达物体可见表面的取向、深度、边界等性质局部表面朝向(“针”基元)、表面朝向的不连续点、深度、深度上不连续点3-D图在以物体为中心的坐标系中,用体元或面元集合描述形状和形状的空间组织形式3-D模型,以轴线为骨架,将体元或面元附在轴线上1.2.1马尔视觉计算理论1.2.1马尔视觉计算理论4.视觉信息处理按照功能模块的形式组织•把视觉信息的系统看成由一组相对独立功能模块所组成的思想,不仅有计算方面进化论和认识论的论据支持,而且某些功能模块已经能用实验的方法分离出来•人通过使用多种线索或从它们的结合来获得各种本征视觉信息。这启示计算机视觉系统应该包括许多模块,每个模块获取某一特定的视觉线索,结合不同的模块来最终完成视觉任务1.2.1马尔视觉计算理论5.计算理论形式化表示必须考虑约束条件•在图象采集获取过程中,原始场景中的信息会发生各种变化(1)当3-D的场景被投影为2-D图象时,丢失了物体深度和不可见部分的信息(2)图象是从特定视角获取的,同一物体的不同视角图象会不同,另外由于物体遮挡也会丢失信息(3)成象投影使得照明、物体几何形状和表面反射特性、摄象机特性、光源