文献综述1引言在计算机视觉和模式识别领域,人脸识别技术(FaceRecognitionTechnology,简称FRT)是极具挑战性的课题之一。近年来,随着相关技术的飞速发展和实际需求的日益增长,它已逐渐引起越来越多研究人员的关注。人脸识别在许多领域有实际的和潜在的应用,在诸如证件检验、银行系统、军队安全、安全检查等方面都有相当广阔的应用前景。人脸识别技术用于司法领域,作为辅助手段,进行身份验证,罪犯识别等;用于商业领域,如银行信用卡的身份识别、安全识别系统等等。正是由于人脸识别有着广阔的应用前景,它才越来越成为当前模式识别和人工智能领域的一个研究热点。虽然人类能够毫不费力的识别出人脸及其表情,但是人脸的机器自动识别仍然是一个高难度的课题。它牵涉到模式识别、图像处理及生理、心理等方面的诸多知识。与指纹、视网膜、虹膜、基因、声音等其他人体生物特征识别系统相比,人脸识别系统更加友好、直接,使用者也没有心理障碍。并且通过人脸的表情/姿态分析,还能获得其他识别系统难以获得的一些信息。自动人脸识别可以表述为:对给定场景的静态或视频序列图像,利用人脸数据库验证、比对或指认校验场景中存在的人像,同时可以利用其他的间接信息,比如人种、年龄、性别、面部表情、语音等,以减小搜索范围提高识别效率。自上世纪90年代以来,人脸识别研究得到了长足发展,国内外许多知名的理工大学及TT公司都成立了专门的人脸识别研究组,相关的研究综述见文献[1-3]。本文对近年来自动人脸识别研究进行了综述,分别从人脸识别涉及的理论,人脸检测与定位相关算法及人脸识别核心算法等方面进行了分类整理,并对具有典型意义的方法进行了较为详尽的分析对比。此外,本文还分析介绍了当前人脸识别的优势与困难。2人脸识别相关理论图像是人们出生以来体验最丰富最重要的部分,图像可以以各种各样的形式出现,我们只有意识到不同种类图像的区别,才能更好的理解图像。要建立一套完整的人脸识别系统(FaceRecognetionSystem,简称FRS),必然要综合运用以下几大学科领域的知识:2.1数字图像处理技术数字图像处理又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算南昌大学硕士学位论文文献综述—人脸识别技术研究机对其进行处理的过程,数字图像处理最早出现于20世纪50年代,当时的电子计算机己经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。与人类对视觉机理研究的历史相比,数字图像处理是一门相对年轻的学科,但在其短短的历史中,它却以不同程度的成功使用于几乎所有与成像有关的领域。目前,数字图像处理技术己被广泛应用于办公自动化、工业机器人、地理数据处理、医学数据处理、地球资源遥感、交互式计算机辅助设计等领域,尤其在机器视觉应用系统中成为关键技术之一。一般的图像都是模拟图像,对于模拟图像只能采用模拟处理方式进行处理,计算机不能接受和处理模拟信号,只有将连续的模拟信号变换为离散的数字信号,或者说将模拟图像变换为数字图像才能接受。数字图像处理就是对给定的数字图像进行某些变换的过程。对含有噪声的图像,要除去噪声、滤去干扰,提高信噪比;对信息微弱的图像要进行灰度变换等增强处理;对已经退化的模糊图像要进行各种复原的处理;对失真的图像要进行几何校正等变换。除此之外,图像的合成,图像的边缘提取与分割,图像的编码、压缩与传输,图像的分析等技术也属于图像处理的内容。由此可见,图像处理就是为了达到改善图像的质量,将图像变换成便于人们观察和适于机器识别的目的[4]。2.2神经网络人工神经网络是一门以对大脑的生理研究成果为基础,以用机器模拟大脑的某些生理与机制,实现某方面功能为目的的学科[6]。研究神经网络,特别是神经学习的机理,对认识和促进人自身发展有特殊的意义。神经网络有许多具有非线性映射能力的神经元组成,神经元之间通过权系数连接。网络的信息分布式就存在连接系数中,使网络具有很高的容错性和鲁棒性。神经网络技术已经被有效地用到组合优化、图像处理、模式识别、自动控制等方面。基于神经网络技术的人脸识别方法是人脸识别研究领域中的一大重要分支。2.3模式识别模式识别[7],就是通过计算机用数学技术方法来研究模式的自动处理和判读。这门学科使用计算机的方法实现人的模式识别能力,即对各种事物或现象进行分析、描述、判别和识别。在人脸识别中,如果是个人识别,则每一个人就是一个模式,预先存在数据库里的图像就是样本;如果是性别识别、种族识别或年龄识别,则不同的性别、种族或年龄就构成一个模式;如果是表情识别,则不同的表情就是一个模式。人脸识别重在讨论个人识第1页15页南昌大学硕士学位论文文献综述—人脸识别技术研究别,人脸识别的最终目的就是利用人脸图像确定待识别的人究竟与数据库里的哪个人是同一个人,这是一个“是谁”的问题;或要判断这个人与库里的某个人是不是同一个人,这是一个“认识或不认识”的问题。图像识别是指对视觉图像目标按其物理特征进行分类,属于模式识别的范畴。图像识别系统的基本结构如图1所示。输入图像图像预处理图像特征提取分类决策结果图1图像识别系统的基本结构2.4计算机视觉在客观世界中,人类通过视觉识别文字和周围环境,感知外界信息。人们75%的信息量都来自视觉,因此让计算机或机器人具有视觉,是人工智能的重要环节,也是人类多年以来的梦想。在信号处理理论与高性能计算机出现后,这种希望正在逐步实现。用计算机实现对视觉信息的处理形成了一门新兴的学科——计算机视觉。计算机视觉是一门用计算机来实现人的视觉功能,实现客观三维世界的识别的学科。计算机视觉的最终目标是模拟人类的视觉能力,理解并解释周围的世界,其研究的一个关键内容是图像的识别。3人脸检测与定位人脸检测与定位是自动人脸识别系统首先需要解决的关键问题,也即检测图像中是否有人脸存在,若有,则将其从背景中分割出来并确定其在图像中的位置。在某些可以控制拍摄条件的场合,如警察拍摄罪犯照片时将人脸限定在标尺内,此时的人脸定位由于己经具备了人脸位置的先验知识而相对比较简单;证件照(身份证、护照等)由于背景相对简单,定位也比较容易。但在通常情况的实际应用中,人脸在图像中的位置预先未能得知,人脸检测与定位将受到以下因素的制约:(1)人脸在图像中的位置、角度和尺度不同以及光照的变化;(2)发型、眼镜、胡须以及人脸的表情变化等;(3)图像中的噪声影响。因此从某种程度上说,人脸检测与定位甚至比人脸模式的识别更为关键。按照人脸检测技术的发展历程,本文依据采用的主要技术方法将人脸检测分为以下四种类型:基于特征检测的方法、基于肤色检测的方法、基于模板匹配的方法、基于外观统计学习的方法。第2页15页表1基于特征的人脸检测与关键特征定位算法南昌大学硕士学位论文文献综述—人脸识别技术研究3.1基于特征检测的方法基于特征的人脸检测方法依据人脸的面部几何特征、纹理特征、肤色特征进行人脸和非人脸的判别,见下表:3.2基于肤色检测的方法利用人脸肤色信息进行人脸检测曾经一度成为人脸检测领域的研究热点,涌现了大量的学术文献,Lee等[14]最早利用人脸肤色信息进行人脸定位;Saber[15]利用肤色、人脸形状及几何对称信息实现人脸检测和面部特征的抽取;Jones[16]利用大量的样本图像对肤色检测问题进行了分析,并建立了人脸肤色的统计模型用于人脸检测,收到了较好的检测效果;Terrillon[17]使用高斯模型和混合高斯模型在不同色度空间建立肤色模型进行人脸检测,并进行了对比分析,结果发现混合高斯模型比一般高斯模型具有更好的泛化能力;Hadid[18]基于Skin-Locus建立肤色模型,提取彩色人脸区域实现人脸检测,但需要在固定成像参数下才保证有良好的性能,鲁棒性有待提高;Martinkauppi[19]对Skin-Locus理论进行了细致分析,发现人脸肤色在各种光照条件下可以用两个二次或者多次多项式进行拟合;Comanieiu[20]采用Mean-Shift算法进行局部搜索实现人脸的检测与跟踪,该算法提高了人脸的检测速度,对遮挡和光照的鲁棒性较好,但对于复杂背景和多个人脸目标的检测不够鲁棒;Hsu[21]采用光照补偿的办法克服光照问题,从一定程度上解决了偏色、复杂背景和多人脸目标的检测问题,对人脸的位置、尺度、旋转、姿态和表情等变化具有较好的鲁棒性;Sobottka和Pitas[22]结合肤色(HSV)和人脸的形状信息来定位人脸和进行面部特征的提取;Terrillon[23]等利用高斯模型对肤色象素进行聚类,并采用神经网络对二值图像的几何距进行学习实现人脸检测;Garcia和Tziritas[24]采用量化肤色区域合并结合小波分析实现人脸检测。第3页15页人脸特征主要算法主要参考文献边缘、轮廓边缘检测算子;椭圆拟合等[8,9]器官特征形态学运算;自适应域值;局部特征检测;模板匹配;概率决策等[10,11]纹理特征(肤色、头发、胡须等)灰度共生矩阵(二阶纹理统计特征);神经网络分类器;自组织映射网络等[12,13]表2基于模板匹配的人脸检测方法南昌大学硕士学位论文文献综述—人脸识别技术研究总的说来,基于肤色检测的方法鲁棒性的提高依赖于肤色模型的质量,在背景相对简单的情况下可以获得良好的检测效果;但在复杂背景中,尤其是背景中存在较多的类肤色区域时,检测质量将急剧下降。而且,肤色模型在不同人种之间会存在较大的差异,因而很难建立一个通用性很强的人脸肤色统计模型。因此,基于肤色检测的人脸检测方法的应用受到一定限制。3.3基于模板匹配的方法基于模板匹配的方法首先需要人工定义一组标准或参数化的人脸模式(通常为正面),称之为模板。对于给定输入图像,通过计算其与标准模板的相关系数并根据相关系数判断是否为人脸,详见表2。这种人脸检测方法实现简单,但是由于人脸尺度、姿态和形状的不确定性,基于模板的人脸检测方法通常达不到很高的准确率。3.4基于统计学习的方法与上述方法不同,基于统计学习的方法主要采用大量的人脸与非人脸样本对检测分类器进行训练,将人脸检测转化为二类模式分类问题。Propp等人是最早采用神经网络[34]进行人脸检测的学者之一,他们通过构造一个4层(两个隐藏层)神经网络实现人脸检测,但没有相关检测性能的报道;后人在他们的基础上通过优化神经网络结构提出了时延神经网络(TDNN),自组织映射神经网络(SOM)、第4页15页模板种类主要算法主要参考文献固定模板人脸子模板(眼睛、鼻子)梯度图像;相关匹配等[25,26]人脸形状模板边缘检测;相关匹配等[27,28]分块比例模板[29]重心模板Laplancian边缘检测;相关匹配等[30]变形模板弹性模型能量函数度量[31]Snakes能量函数度量[32]PDM模型ASM搜索[33]南昌大学硕士学位论文文献综述—人脸识别技术研究卷积神经网络(CNN)、概率决策神经网络(PDBNN)。Feraud等人通过构造自协商神经网络(SNNN)[35]进行非线性主元分析,可以检测正面到左右60度旋转的人脸,他们的方法后来被Listen和Multrak采用。Sung、Rowley、Lin&Kung等[36]采用K-mean聚类算法在特征空间建立“人脸”和“非人脸”族,采用自举(bootstrap)方法首先建立一个仅使用人脸样本和少量非人脸样本训练的初始神经网络分类器对一组图像进行训练,将误检的非人脸样本加入非人脸样本库;然后训练新的分类器,如此不断迭代,直到收集到足够多的非人脸样本,这种方法后来被许多学者所采用。Carleson、Yang等[37]人提出的SNoW(SparseNetworkofWinnows)学习方法,对检测不同特征、表情、姿态和光照条件下的人脸收到了较好的效果。其实质就是采用Winnow算法进行权值更新的稀疏神经网络;H.Schneiderman[38]提出的基于后验概率估计的方法,先对样本进行小波变换,然后对这些特征进行统计,通过统计计算训练样本的直方图求得人脸与非人脸的概率分布实现人脸检测。不同于传统基于经验风险最小化的分类器