联为-稻草人自动化有限公司机器视觉及其应用一、机器视觉的研究内容人们从外界环境获取的信息中,80%来自于视觉。人们的眼睛从自己周围的环境获取大量信息,并传入大脑后,由大脑根据知识或经验,对信息进行加工、推理等处理工作,最后识别、理解周围环境,包括环境内的对象物。机器视觉就是用计算机模拟人眼的视觉功能,从图象或图象序列中提取信息,对客观世界的三维景物和物体进行形态和运动识别。机器视觉研究的目的之一就是要寻找人类视觉规律,从而开发出从图象输入到自然景物分析的图象理解系统。对于机器视觉系统来说,输入是表示三维景物投影的灰度阵列,可以有若干个输入阵列,这些阵列可提供从不同方向、不同视角、不同时刻得到的信息。希望的输出,是对图象所代表景物的符号描述。通常这些描述是关于物体的类别和物体间的关系,但也可能包括如表面空间结构、表面物理特性(形状、纹理、颜色、材料)、阴影以及光源位置等信息。目前许多机器视觉专家都是在马尔(Marr)创立的视觉计算理论框架下求索。本世纪70年代中后期,英国的Marr教授应邀在美国麻省理工学院的人工智能实验室创建并领导一个以博士生为主体的研究小组,从事视觉理论方面的研究,逐步形成关于视觉的计算理论。Marr认为,视觉可分为三个阶段(图1)。第一阶段是早期视觉(earlyvision),其目的是抽取观察者周围景物表面的物理特性,如距离、表面方向、材料特性(反射、颜色、纹理)等,具体来说包括边缘检测、双目立体匹配、由阴影确定形状、由纹理确定形状、光流计算等;第二阶段是二维半简图(2.5Dsketch)或本征图象(IntrinsicImage),它是在以观察者为中心的坐标系中描述表面的各种特性,根据这些描述,可以重建物体边界、按表面和体积分割景物,但在以观察者为中心的坐标系中只能得到可见表面的描述,得不到遮挡表面的描述,故称二维半简图;第三阶段是三维模型(视觉信息处理的最后一个层次),是用二维半简图中得到的表面信息建立适用于视觉识别的三维形状描述,这个描述应该与观察者的视角无关,也就是在以物体为中心的坐标系中,以各种符号和几何结构描述物体的三维结构和空间关系。二、机器视觉与人类视觉的差异对于人的视觉来说,由于人的大脑和神经的高度发展,其目标识别能力很强。但是,人的视觉也同样存在障碍,例如即使具有一双敏锐视觉和极为高度发达头脑的人,一旦置于某种特殊环境(即使曾经具备一定的先验知识),其目标识别能力也会急剧下降。事实上人们在这种环境下面对简单物体时,仍然可以有效而简便地识别,而在这种情况下面对复杂目标或特殊背景时,则在视觉功能上发生障碍,两者共同的结果是导致目标识别的有效性和可靠性的大幅度下降。将人的视觉引入机器视觉中,机器视觉也存在着这样的障碍。它主要表现在三个方面:一是如何准确、高速(实时)地识别出目标;二是如何有效地增大联为-稻草人自动化有限公司存储容量,以便容纳下足够细节的目标图象;三是如何有效地构造和组织出可靠的识别算法,并且顺利地实现。前两者相当于人的大脑这样的物质基础,这期待着高速的阵列处理单元,以及算法(如神经网络、分维算法、小波变换等算法)的新突破,用极少的计算量以及高度地并行性实现其功能。为了便于理解,现将人的视觉与机器视觉对比列于表1、表2。三、机器视觉研究现状与展望(1)传统的通用视觉模型传统的通用视觉模型是以Marr视觉理论为框架的。近30年来,Marr视觉计算理论取得了巨大成功,包括计算理论层上发现了许多重要的基本约束,数据结构算法层上发展了各种算法以及建立起一些早期视觉的实验系统等,但它也存在着一定的问题。Marr理论认为视觉任务是由2D图象恢复3D场景,而由于成像过程中存在投影、遮挡、各种场景因素的混合、畸变和噪声等,使作为成像过程逆过程的视觉过程不适应,且极为困难,而且由于真实世界极为复杂,要想通过高度结构化的表示获得3D模型的客观描述是很困难的。此外,近年来很多人认为视觉任务并不总以恢复3D场景为目标,很多情况下并不需要建立3D模型。Marr框架立足于建立通用视觉模型,尤其在视觉处理早期,基本不针对具体问题,为保证通用性而采用一些简单的假设和基本的约束,例如认为场景由规则表面构成,即满足平滑性约束等。Marr框架强调表示而不是过程,而后者允许在完成相同的视觉处理任务的前提下由一种表示变成另一种表示,故Marr框架对视觉处理是静态的。它对信息处理是一种单向串行的自低向上的3级加工过程,前一级处理结果的好坏直接影响后一级处理,而高层信息不对低层反馈,没有高层次的知识参与即可形成要素图和2.5D图,知识和经验只作用于从2.5D到3D的过渡,这种过于冯诺曼的结构使Marr框架缺乏灵活性和自适应性。该框架将视觉处理的早期看成是被动接受信号的过外界刺激不是简单的被动反应,而是通过身体移动或眼动等方式改变视场,有选择地感知感兴趣的信息。(2)目的视觉(PurposiveVision)与传统的通用视觉不同,主动视觉强调两点,一是认为视觉系统应具有主动感知的能力,二是认为视觉系统应基于一定的任务(TaskDirected)或目的(PurposiveDirected)。生物视觉系统的研究成果表明,感知不仅是对外界刺激的被动反映,而更应是有目的有选择地主动搜索感兴趣信息的过程,主动视觉认为在视觉信息获取过程中,应更主动地调整摄像机的参数如方向、焦距、孔径等并能使摄像机迅速对准感兴趣的物体。更一般地,它强调注视机制(Attention),强调对分布于不同空间范围和时间段上的信号采用不同的分辨率有选择性地感知,这种主动感知既可在硬件层上通过摄像机物理参数的调整实现,也可以在基于被动摄像机的前提下,在算法和表示层上通过对已获的数据有选择性地处理实现。同时,主动视觉认为不基于任何目的的视觉过程是毫无意义的,必须将视觉系统与具有的目的(如导航、识别、操作等)相联系,从而形成感知/作用环(Perception/ActionCycle)。目前,目的视觉研究中极具吸引力的研究领域有以下几个方面:选择注意联为-稻草人自动化有限公司(SelectiveAttention)机制及空间变化(SpaceVariant)的信号表示与处理;注视控制(GazeControl);学习能力。(3)机器视觉的进一步发展方向主张目的视觉的研究者普遍认为,以3D景物重建为特征基于3D世界统一模型表示的通用视觉是一种理想化的不现实的模型,只存在于理论中,有人认为继续沿用通用模型框架发展机器视觉是一种徒劳,这主要是基于如下考虑:目前的计算机远不具备生物视觉处理的高速并行的能力、丰富的视觉感知能力及各种暗示和知识推理能力,试图建立一种不基于具体目的的通用的人工视觉系统是极为困难的;由于客观世界比通用视觉模型假设要复杂得多,试图通过过于简化的约束和高度结构化的表示获得3D模型的客观描述是根本不可能的;通过视觉规定的视觉任务要求过高,而且也不必要,很多情况下根本不需要构造3D模型就可完成某种视觉任务;生物视觉系统与其所处的环境和所要完成的任务相结合,人工视觉系统也应与具体的任务相关,不基于具体目的研究视觉处理毫无意义,由此建立的视觉系统根本就是不实用的。而通用视觉理论主义者认为,通用视觉模型为机器视觉的研究奠定了坚实的基础,对它的研究可以促进对生物视觉机理的理解,不应放弃。仅基于目的视觉,机器视觉将无法看到一些意想不到的(unexpected)、不受欢迎的(unwelcome)或不大可能的(improbable)的东西。对于Marr框架所遇到的问题,目的视觉只是通过视觉处理与目的相联系将约束具体化,并没有提供解决问题的真正途径。四、机器视觉的应用(1)机器视觉的硬件组成当三维世界分别在人的左、右眼球视网膜上形成一幅二维图象后,人脑就把两幅视网膜图象在视觉皮层融合,从而获得清晰的深度信息,产生三维世界形状。由于智能机器人和其他应用领域对实时处理的迫切需要,用于机器视觉处理的专用硬件已出现。例如:专业并行处理计算机,它可以进行阵列处理(Arrayprocessing)、流水线处理(Pipelineprocessing)和多重处理(Multi-processing);用于照相机测距的大规模集成电路芯片;以视频速度完成二维DCG函数滤波的卷积器;实时实用立体视觉匹配器;目前已出现了在同一集成电路芯片上完成光信号敏感、模/数信号转换和初级视觉信息处理的功能组件;以芯片为基础构成能跟踪物体三维运动的组合件。(2)与机器视觉相关的领域机器视觉是一门已迅速发展的新领域,它从理论上、看法上涉及到人工智能、神经生物学、心理物理学、计算机科学、图象处理、图象理解、模式识别等多个领域,是一门多学科交叉的边缘科学,这些科学尤其是图象处理、图象理解、模式识别与机器视觉密切联系,现简单介绍如下(图2)。联为-稻草人自动化有限公司图象处理是把输入图象转换成具有所希望特性的另一幅图象,如滤波、锐化、增强等。模式识别是根据图象的统计特性或结构信息把输入图象分成预定的类别,它可以看作是输出为物体类别的机器视觉的特殊情况。图象理解与机器视觉有着基本相同的含义,对于给定的图象,图象理解不仅描述图象本身,而且描述图象所代表的景物。(3)机器视觉的应用机器视觉被称为自动化的眼睛,在国民经济、科学研究及国防建设等领域都有着广泛的应用。视觉的最大优点是与被观测的对象无接触,因此对观测与被观测者都不会产生任何损伤,十分安全可靠,这是其他感觉方式无法比拟的。另外,视觉方式所能检测的对象十分广泛,可以说是对对象不加选择。理论上,人眼观察不到的范围机器视觉也可以观察,例如红外线、微波、超声波等人类就观察不到,而机器视觉则可以利用这方面的敏感器件形成红外线、微波、超声波等图象。因此可以说是扩展了人类的视觉范围。另外,人无法长时间地观察对象,机器视觉则不知疲劳,始终如一地观测,所以机器视觉可以广泛地用于长时间恶劣的工作环境。下面列举的是已取得的一些应用成果:工业上的应用:生产线上部件安装,自动焊接,切割加工;大规模集成电路生产线上自动连接引线、对准芯片和封装;石油、煤矿等地钻探中数据流自动监测和滤波;在纺织、印染业进行自动分色、配色。在各类检验、监视中的应用:如检查印刷底板的裂痕、短路及不合格的连接部,检查标签文字标记,玻璃产品的裂痕和气泡等。商业上的应用:自动巡视商店或其他重要场所门廊,自动跟踪可疑的人并及时报警。在遥感方面:自动制图,卫生图象与地形图对准,自动测绘地图;国土资源管理,如森林、水面、土壤的管理等;还可以对环境、火警自动监测。医学方面:对染色体切片、癌细胞切片、X射线图象、超声波图象的自动检查,进而自动诊断等。军事方面:自动监视军事目标,自动发现、跟踪运动目标,自动巡航捕获目标和确定距离。残疾人引路:如为盲人带路的带路机器狗等。机器视觉的应用是多方面的,它已经取得并将继续取得越来越广泛的应用。