第1章图像处理与计算机视觉技术综述.ppt

zyx8151
2 ℃
2020-05-26

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

主要学科–图像处理、计算机视觉和模式识别计算机图形学1.1图像处理与计算机视觉的发展及系统构成1.图像（Image）–可以看作是对物体或场景的一种表现形式–抽象定义：二维函数f(x,y)•(x,y):点的空间坐标（实数）•f:点(x,y)的幅度（亮度、强度或灰度）–英文单词•Image：一般指用镜头等科技手段得到的视觉形象•Picture：强调手工描绘的人物或景物画•Drawings：人工绘制的工程图Lenna1.1.1图像处理与计算机视觉的概念•图像实例光学图像LennaIKONOS卫星光学图像423mile高16000miles/h1m分辨率EP－3,海南陵水,01-4-4大脑断层图像遥感图像2.数字图像–数字化：对x，y和f进行离散化-其中的每个点称为图像元素，即像素。–分类（根据f的性质）•灰度图像（特殊：二值图像）•彩色图像3.数字图像处理–DIP（DigitalImageProcessing）–广义：与图像相关的处理（图像分析、理解和计算机视觉等）–狭义（从输入和输出内容）：对图像进行各种加工，以改善图像的视觉效果或突出目标，强调图像之间进行的变换，是一个从图像到图像的过程–广义上分为三种类型：低、中、高级处理•图像处理主要是低级处理及部分中级处理3.数字图像处理–低级处理：输入输出都是图像–中级处理：图像分割及目标的描述，输出是目标的特征数据–高级处理：目标物体及相互关系的理解，输出是更抽象的数据4.图像处理与计算机视觉的区别与联系•图像处理主要集中在二维图像分析、识别和理解，如光学字符识别、工件表面、显微图片和航空照片的分析和解释等。•计算机视觉是采用图像处理、模式识别、人工智能技术相结合的手段，着重于一幅或多幅图像的计算机分析，图像可以由单个或多个传感器获取，也可以是单个传感器在不同时刻获取的图像序列。分析是对目标物体的识别，确定目标物体的位置和姿态，对三维景物进行符号描述和解释。•机器视觉：计算机视觉技术工程化，能够自动获取和分析特定的图像，以控制相应的行为。计算机视觉为机器视觉提供图像和景物分析的理论及算法基础，机器视觉为计算机视觉的实现提供传感器模型、系统构造和实现手段。1.1.2图像处理与计算机视觉的发展1.20世纪20年代：报纸业–图像的编码与重构技术•Bartlane电缆图片传输系统：从伦敦到纽约传送一幅图片从1周减少到3小时•色调质量和分辨率改善1921年，电报打印机，5个灰度级1922年，穿孔纸带，5个灰度级1929年，15级灰度2.1964年：航天技术–60年代初作为一门学科，主要目的是改善图像质量，采取的方法有图像增强和复原技术•美国JPL（喷气推进）实验室处理卫星发射回来的月球表面的照片应用图像畸变的校正、灰度变换、去除噪声3.20世纪70年代：遥感卫星和医学–图像增强和图像识别•利用遥感图片，进行地质资源探测，农作物估产，水文气象监测等–图像重构•X光断层图像重构技术，英国G.N.Hounsfield第一台脑断层摄像仪应用4.20世纪70年代末：人工智能兴起，开始计算机视觉研究，由2D获取3D空间信息5.80年代末到今：多媒体技术–高速计算机和大规模集成电路的发展：图像压缩和多媒体技术；文本图像的分析和理解，文字的识别取得重大的进展；图像通讯和传输等的广泛应用1.1.3图像处理与计算机视觉的系统构成•系统构成框图•采集–装置：两部分(1)传感器：能产生与所接受到的电磁能量成正比的模拟电信号（CCD，CMOS）(2)高速图像采集系统：它能将上述（模拟）电信号转化为数字（离散）的形式–输入设备•具备上述两种装置•如：数码相机，数码摄像机，扫描仪•处理–装置：两部分(1)专用图像处理系统：是计算机的辅助处理器，主要采用专用集成芯片（ASIC)、数字信号处理器(DSP)或者FPGA等设计的全硬件处理器。(2)计算机：是整个系统的核心，除了控制整个系统的各个模块的正常运行外，还承担最后结果运算和输出。数字图像处理的关键步骤图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：图像采集图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：图像增强图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：图像复原图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：形态学处理图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：分割图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：表示&描述图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：对象识别图像采集图像复原形态学处理分割对象识别图像增强表示&描述问题域彩色图像处理图像压缩数字图像处理的关键步骤：图像压缩表示&描述彩色图像处理图像压缩图像采集图像复原形态学处理分割图像增强对象识别问题域数字图像处理的关键步骤：彩色图像处理表示&描述彩色图像处理图像压缩图像采集图像复原形态学处理分割图像增强对象识别问题域•存储–数据量度单位•比特（bit），字节（byte=8bit）•千字节（Kbyte）•兆（106）字节（Mbyte）•吉（109）字节（Gbyte）•太（1012）字节（Tbyte）–图像信息量大•1024×1024，灰度图：1M字节（不压缩）•1024×1024，真彩图：3M字节（不压缩）•存储–图像存储器(1)处理过程中使用的快速存储器计算机内存，帧缓存(2)较快的在线或联机存储器磁盘，磁光盘(3)不经常使用的数据库（档案库）存储器磁带，光盘，光盘塔•存储–格式（表示格式和文件格式）(1)矢量格式用线段或线段的组合体来表示图像(WMF)(2)光栅格式用许多像素点的集合来表示图像BMP格式，GIF格式，TIFF格式，JPEG格式1.2图象理解理论框架1.2.1马尔视觉计算理论1.2.2对马尔理论框架的改进1.2.3关于马尔重建理论的讨论1.2.4新理论框架的研究1.2.1马尔视觉计算理论•马尔1982年出版了《视觉》一书•MarrD.1982.VisionAComputationalInvestigationintotheHumanRepresentationandProcessingofVisualInformation.W.H.Freeman•一个理解视觉信息处理的框架要先理解视觉目的再去理解其中细节1.2.1马尔视觉计算理论1.视觉是一个复杂的信息加工过程•视觉是一个远比人所想象更为复杂的信息加工任务和过程，而且其难度常不为人们所正视•为理解视觉这个复杂的过程，要解决两个问题•视觉信息的表达问题：某些信息是突出的和明确的，另一些信息则是隐藏的和模糊的•视觉信息的加工问题：对信息处理、分析、理解，将不同表达形式转换，逐步抽象1.2.1马尔视觉计算理论2.视觉信息加工的三个要素①计算理论；②算法实现；③硬件实现①计算理论可计算性问题：一个任务要用计算机完成，它应该是可以被计算的一般对于某个特定的问题，如果存在一个程序，对于给定的输入，这个程序都能在有限步内给出输出，这个问题就是可计算的1.2.1马尔视觉计算理论2.视觉信息加工的三个要素①计算理论目前视觉的可计算性常指对计算机给定输入，能否得到人类视觉可获得的类似结果两方面的研究内容：①计算的是什么以及为什么要计算它们；②提出一定的约束条件，它们可唯一地确定最终得到的运算结果1.2.1马尔视觉计算理论2.视觉信息加工的三个要素②算法实现需要给加工所操作的实体选择一种合适的表达选择加工的输入和输出表达确定完成表达转换的算法①一般情况下可以有许多可选的表达②算法的确定常取决于所选的表达③给定一种表达，可有多种完成任务的算法1.2.1马尔视觉计算理论2.视觉信息加工的三个要素③硬件实现有了表达和算法在物理上如何实现算法也是必不可少的算法的确定常依赖于物理上实现算法硬件的特点同一个算法也可由不同的技术途径实现1.2.1马尔视觉计算理论2.视觉信息加工的三个要素–计算理论：如何由系统的输入求出输出。视觉系统输入的是二维图像，输出则是三维物体的形状、位置和姿态，任务是研究如何建立输入输出之间的关系和约束，如何由二维灰度图像恢复物体的三维信息。–算法实现：如何表达输入和输出信息，如何实现计算理论所对应的功能算法，以及如何由一种表示变换成另一种表示。–硬件实现：用硬件实现上述表达和算法的问题。视觉信息加工三要素的含义要素名称含义和所解决的问题1计算理论什么是计算目的，为什么要这样计算2表达和算法怎样实现计算理论，什么是输入输出表达，用什么算法实现表达间的转换3硬件实现怎样在物理上实现表达和算法，什么是计算结构的具体细节1.2.1马尔视觉计算理论2.视觉信息加工的三个要素•它们之间有一定的逻辑因果联系，但并无绝对的依赖关系•实际上看成两个层次更恰当•一旦有了计算理论，表达和算法与硬件实现是互相影响的1.2.1马尔视觉计算理论表达和算法硬件实现计算理论1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(1)基素表达（primalsketch）•一种2-D表达，它是图象特征的集合，描述了物体上属性发生变化的轮廓部分•只用基素表达不能保证得到对场景的唯一解释(a)(b)(c)(d)(e)1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(2)2.5-D表达（2-Dsketch）①将物体可见面正交投影分解成单元表面②用法线代表单元表面的取向③将各法线画出，叠加于物体轮廓内可见面上1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(2)2.5-D表达（2-Dsketch）•本征图，表示了物体表面面元的朝向•可将2.5-D图转化成（相对）深度图•既表达了一部分物体轮廓的信息（这与基素表达类似）表达了以观察者为中心、可观察到的物体表面的取向信息•与人所理解的3-D物体一致（可见物体轮廓以内目标的3-D信息，如边界、深度，反射特性等）1.2.1马尔视觉计算理论3.视觉信息的三级内部表达(2)2.5-D表达（2-Dsketch）•将2.5-D图转化成（相对）深度图•给定z(x,y)对x和y的偏导p和q，理论上讲可通过在平面上沿任意曲线的积分来恢复z(x,y)•为最小化误差可选择z(x,y)满足),(),(0000)dd(),(),(yxyxyqspyxzyxzyxqzpzIyxdd)()(221.2.1马尔视觉计算理论3.视觉信息的三级内部表达(3)3-D表达（3-Drepresentation）•以物体为中心（即也包括了物体不可见部分）的表达形式•在以物体为中心的坐标系中描述3-D物体的形状及其空间组织①空间占有数组，②单元分解，③几何模型•广义圆柱体表达方法1.2.1马尔视觉计算理论3.视觉信息的三级内部表达•从计算机或信息加工的角度来说，视觉可计算性问题可分成几个步骤，步骤之间是某种表达形式，而每个步骤都是把前后两种表达形式联系起来的计算/加工方法3.视觉信息的三级内部表达名称目的基元图象表达场景的辉度或物体的照度象素（值）基素图表达图象中亮度变化位置、物体轮廓的几何分布和组织结构零交叉、端点、边缘段、边界等2.5-D图在以观察者为中心的坐标系中表达物体可见表面的取向、深度、边界等性质局部表面朝向（“针”基元）、表面朝向的不连续点、深度、深度上不连续点3-D图在以物体为中心的坐标系中，用体元或面元集合描述形状和形状的空间组织形式3-D模型，以轴线为骨架，将体元或面元附在轴线上1.2.1马尔视觉计算理论1.2.2对马尔理论框架的改进•四个有关整体框架的问题：(1)框架中输入是被动的(2)框架中加工目的不变，总是恢复场景中物体的位置和形状等(3)框架未足够重视高层知识的指导作用(4)整个框架中信息加工过程基本自下而上，