计算机视觉的应用与发展综述摘要:计算机视觉学是自二十世纪六十年代中期迅速发展起来的一门新学科。它是个边缘学科,集众家之所长,是个工程性很强的技术,主要需要有空间几何、矩阵分析、光电技术、图像处理、应用数学、离散数学及计算机技术等等各个方面的知识,才能正确的指导视觉系统的建模、解模及实际工程问题的解决方法。计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。由于算机视觉学在工农业生产、地质学、天文学、气象学、医学及军事并学等领域有着极大的潜在应用价值,所以它在国际上越来越受人重视。本文简要地介绍了计算机视觉学结构和研究内容,它同附近学科的关系,计算机视觉研究中面临的技术难点以及计算机视觉学的历史,现状和研究动向。关键字:计算机;视觉;图像;应用Abstract:Computervisionisanewrapidlydevelopedsubjectsincethe1960smedium-term.Computervisionisusedforananalogofbiologicalvisionwithcomputersandrelatedequipments.Itsmaintaskisobtainingcorrespondingscene3-dinformationbycollectingthepictureorvideoprocessed,justlikehumansandmanyothercreaturedoeveryday.Becauseofcomputervisionhasagreatpotentialapplicationvalueinindustrialandagriculturalproduction,geology,astronomy,meteorology,themedicineandthemilitaryandotherfields,soitisbecomingmoreandmoreattentionintheworld.Thispaperbrieflyintroducedthestudycontentofcomputervision,itsrelationshipwithnearbysubjects,thetechnicaldifficultiesthatcomputervisionresearchisfacingandcomputervision’shistory,presentsituationandresearchtrend.Keywords:computervisionpicturesapplication1绪论计算机视觉系统一般有光源、摄像机、采集卡及PC软件系统等组成,可以完成图像的采集与处理、目标的识别功能,视觉系统的结构一般是从系统的模型的角度理解的。计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。计算机视觉学所研究的对象,简单地说就是研究如何让计算机通过图象传感器或其它光传感器来感知、分析和理解周围环境。人类感知外界环境主要通过视觉,听觉和触觉等四大感觉系统。其中视觉系统是最复杂的。人类从外界获得的信息中视觉信号量最大。模仿人类的视觉系统,计算机视觉系统中信息的处理和分析大致可以分成两个阶段:图象处理阶段又称视觉处理中的低水平和中水平阶段;图象分析、理解阶段又称视觉处理中的高水平处理阶段。在图象处理阶段,计算机对图象信息进行一系列的加工处理,这主要是:1、校正成象过程中系统引进的光度学和几何学的畸变,抑制和去除成象过程中引进的噪声—统称为图象的恢复。2、从图象信息如亮度分布信息中提取诸如边沿信息,深度信息图象点沿轴方向的尺度,表面三维倾斜方向信息等反映客观景物特征的信息。3、根据抽取的特征信息把反映三维客体的各个图象基元,如轮廓、线条、纹理、边缘、边界、物体的各个面等从图象中分离出来,并且建立起各个基元之间的拓朴学上的和几何学上的关系—称之基元的分割和关系的确定。在图象分析和理解阶段,计算机根据事先存贮在数据库中的预知识模型,识别出各个基元或某些基元组合所代表的客观世界中的某些实体称之为模型匹配以及根据图象中各基元之间的关系在预知识的指导下得出图象所代表的实际景物的含义,得出图象的解释或描述。必须强调,预知识在视觉系统中起着相当重要的作用。在预知识库中存放着各种实际可能遇到的物体的知识模型,和实际景物中各种物体之间的约束关系。计算机的作用是根据被分析的图象中的各基元及其关系,利用预知识作为指导,通过匹配,搜索和推理等手段,最终得到对图象的描述。在整个过程中预知识时刻提供处理的样板和证据。每一步的处理结果随时同预知识进行对比。有时,处理的中间结果和最终结果还要馈送给预知识库作为知识的更新和积累。2图像分割研究图像分割是图像处理与机器视觉的基本问题之一。其要点是:把图像划分成若干互不交迭区域的集合。这些区域要么对当前的任务有意义,要么有助于说明它们与实际物体或物体的某些部分之间的对应关系。图像分割的应用十分广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。例如,在遥感应中,合成孔径雷达图像中目标的分割;遥感云图中不同云系和背景分布的分割;在交通图像分析中,把车辆目标从背景中分割出来。在这些应用中,分割通常是为了进一步对图像进行分析、识别、压缩编码,分割的准确性直接影响后续任务的有效性。一般来讲,分割出的区域需同时满足均匀性和连通性的条件。其中均匀性是指在该区域中的所有象素点都满足基于灰度、纹理、彩色等特征的某种相似性准则;连通性是指在该区域内存在任意两点的路径。尽管图像处理和机器视觉界的研究者们为此付出了长期的努力,符合以上两点的通用性分割仍面临着巨大的困难;大部分研究成果都是针对某一类型图像、某一具体应用的分割。可以概括为以下内容。2.1数据驱动的分割常见的数据驱动分割包括基于边缘检测的分割、基于区域的分割、边缘与区域相结合的分割等。对于基于边缘检测的分割,其基本思想是先检测图像中的边缘点,再按一定策略连接成轮廓,从而构成分割区域。难点在于边缘检测时抗噪声性能和检测精度的矛盾,若提高检测精度,则噪声产生的伪边缘会导致不合理的轮廓;若提高抗噪声性能,则会产生轮廓漏检和位置偏差。为此,人们提出各种多尺度边缘检测方法,根据实际问题设计多尺度边缘信息的结合方案,以较好地兼顾抗噪声性能和检测精度。基于区域的分割的基本思想是根据图像数据的特征将图像空间划分成不同的区域。常用的特征包括:直接来自原始图像的灰度或彩色特征;由原始灰度或彩色值变换得到的特征。方法有阈值法、区域生长法、聚类法、松弛法等。边缘检测能够获得灰度或彩色值的局部变化强度,区域分割能够检测特征的相似性与均匀性。将两者结合起来,通过边缘点的限制,避免区域的过分割;同时通过区域分割补充漏检的边缘,使轮廓更加完整。例如,先进行边缘检测与连接,再比较相邻区域的特征(灰度均值、方差),若相近则合并;对原始图像分别进行边缘检测和区域生长,获得边缘图和区域片段图后,再按一定的准则融合,得到最终分割结果。2.2模型驱动的分割常见的模型驱动分割包括基于动态轮廓(Snakes)模型、组合优化模型、目标几何与统计模型。Snakes模型用于描述分割目标的动态轮廓。由于其能量函数采用积分运算,具有较好的抗噪声性,对目标的局部模糊也不敏感,因而适用性很广。但这种分割方法容易收敛到局部最优,因此要求初始轮廓应尽可能靠近真实轮廓。近年来对通用分割方法的研究倾向于将分割看作一个组合优化问题,并采用一系列优化策略完成图像分割任务。主要思路是在分割定义的约束条件之外,根据具体任务再定义一个优化目标函数,所求分割的解就是该目标函数在约束条件下的全局最优解。以组合优化的观点处理分割问题,主要是利用一个目标函数综合表示分割的各种要求和约束,将分割变为目标函数的优化求解。由于目标函数通常是一个多变量函数,可采用随机优化方法。基于目标几何与统计模型的分割是将目标分割与识别集成在一起的方法,常称作目标检测或提取。基本思想是将有关目标的几何与统计知识表示成模型,将分割与识别变为匹配或监督分类。常用的模型有模板、特征矢量模型、基于连接的模型等。这种分割方法能够同时完成部分或全部识别任务,具有较高的效率。然而由于成像条件变化,实际图像中的目标往往与模型有一定的区别,需要面对误检与漏检的矛盾,匹配时的搜索步骤也颇为费时。2.3图像分割的半自动方法从人工参与程度来看,图像分割可分为人工、半自动、自动等三种类型。其中人工分割完全由操作者利用鼠标勾画出分割区域的轮廓,费时费力,且容易受操作者主观因素的影响,重复性差。自动分割不需人机交互,但适应性差,很难实现对一批图像同时获得满意的分割效果。半自动分割将人机交互与自动分割相结合,能够适应不同的图像和需求,且有效降低计算复杂度。目前半自动分割中人机交互的方式有:勾画目标的大致轮廓,构成自动分割的初始化;根据特定的图像和任务调整算法参数;在分割过程中加入人工交互节等。总之,从实用化的角度看,自动分割仍是长期努力的方向。目前更为现实的是在自动分割前或分割过程中加入人机交互的半自动分割。其发展方向为尽可能少和简便的人机交互。可见,图像分割是图像处理和机器视觉必不可少的重要环节,也是图像理论发展的瓶颈之一。随着计算机速度与容量的快速进展,图像处理与机器视觉实用化系统硕果累累。例如,基于内容的图像检索系统、智能监视系统、视觉引导的智能交通系统、手写体字符/人脸/指纹/虹膜识别系统等。然而有关的理论研究并没有取得突破性进展。3视觉技术的研究人类很多研究都是以延伸人类能力为目的的,早期的工作是在体力上延伸,计算机发明以来,就拓展到对人类脑力和感知能力的延伸上。对人类视觉感知能力的计算机模拟导致了计算机视觉的产生。计算机视觉也经常被称为图像理解,是指研究完成一项任务所需的视觉信息及如何从图像中获取这些信息的研究领域。其基本目的有三个:(1)根据一幅或多幅二维投影图像计算出观察点到目标物体的距离;(2)根据一幅或多幅二维投影图像计算出观察点到目标物体的运动参数;(3)根据一幅或多幅二维投影图像计算出观察点到目标物体的表面物理特性。要达到的最终目的是实现对于三维景物世界的理解,即实现人的视觉系统的某些功能。也就是利用二维投影图像来重构三维物体的可视部分。3.1计算机视觉研究的对象与方法3.1.1以模型世界为主要对象的视觉基本方法研究这个阶段以Roberts的开创性工作为标志。在Roberts的工作中引入了三维物体与二维成像的关系,采用了一些简单的边缘特征提取方法并引入了组合线段的方法。这些早期的工作对视觉的发展起了促进作用,但对于稍微复杂的景物便难于奏效。为他对三维关系的分析仅仅是靠简单的边缘线段的约束关系,并没有充分考虑人类或其他动物视觉系统感知三维空间关系的方式。3.1.2以计算理论为核心的视觉模型研究20世纪70年代开始,对计算机视觉的研究进入更为理性化的阶段,主要集中于各种本征特性的恢复,包括三维形状、运动、光源等的恢复。主要出发点是从生理学、光学和射影几何的方法出发,研究成像及其逆问题。在这一阶段中,以Marr为代表的一些研究者提出了以表示为核心、以算法为中间转换过程的一般性视觉处理模型。在其理论中强调表示的重要性以及从不同层次上去研究信息处理问题,在计算理论和算法实现上又特别强调计算理论的重要性。在三维信息的感知方面,根据人类感知深度的不同提出了一系列ShapefromX的方法。3.2计算机视觉的应用领域计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及智能人机接口等。早期进行数字图像处理的目的之一就是要