用于人脸识别的方向梯度直方图摘要:方向梯度直方图已经被成功地应用于多个研究领域,并且表现出色,特别是在行人检测上表现不俗。然而,这项技术却很少被应用于人脸识别。为了给人脸识别开发出一个快速并高效的新功能,最初的方向梯度直方图和它的演变被应用于评估不同因素的影响。同时也开发了一个基于信息的标准去评估不同功能的潜在分类能力。比较试验表明,即时使用了一个相对简单的功能描述符,这项被提出的方向梯度直方图功能实现了几乎相同的识别率,但花费的计算时间比广泛用于FRGC和CAS-PEAL数据库的Gaber特征低得多。关键词:人脸识别,功能,方向梯度直方图。简介图像强度包括识别信息和噪声,而且在大多数情况下是对象识别的唯一来源。然而,真正重要的不是绝对值,而是反映了结构信息或对象的纹理变化的相对值。各种特征的提取和挑选方法已经使用广泛。除了如PCA和LDA的整体方法,局部描述符近来也在被研究。一个局部面部区域的理想描述符应该有大类的方差和小类的方差,这意味着描述符应该能强有力的应对不同的照明,轻微的变形,图像质量退化等等。信息理论被用于开发一个评估不同功能的潜在分类能力的标准。在这已经被纹理分析团队开发出的图像补丁的出现的各类描述符中,当用于代表面部图像时,局部二进制模式功能产生了最好的结果。这个使用局部二进制用于面部描述的想法可以被视为一个围观模式的复合,这能被这个操作符描述的很好。然而,有时候微观模式太多,以至于在实践中一个系统不得不减少局部区域的数量或形成一个合理长度特征向量的可能尺度的数量。Gabor小波,它的内核同哺乳动物的大脑皮层简单细胞的二维代表要点相似,是由Gabor在1946年第一次提出。Gabor转换同时提高了面部特征的方向和强度,并且作为一个有效的元素被广泛应用与图像处理和模式识别任务。Gabor小波是曾用于人脸识别的最受欢迎和最成功的功能。例如,它在动态链接架构框架和弹性图匹配方法等被用于人脸识别。方向梯度直方图的使用上也有很多前辈。Freeman和Roth将它应用于手势识别,Dalal和Triggs使用它提出了一个行人检测算法并取得了优秀的检测结果。方向梯度直方图提供了当劳氏尺度不变特征变换(SIFT)宽基线图像匹配时,与局部空间直方图和规划化结合的匹配规模不变要点的底层图像描述符。然而,几乎找不到可以证实这项功能在人脸识别上成功运用的出版物。1方向梯度直方图1.1基本理论方向梯度直方图功能的基本思想是即使没有相应的梯度或边缘的精确知识,局部对象的外观和形状特征也往往能被局部强度梯度的分布或边缘方向很好地特征化。自从直方图给出了平移不变性,定位分析能强有力的应对照明变化。方向梯度直方图特性总结了图像区域分布的测量,并且对识别纹理对象变形形状特别有用。这个方法同时简单快捷,所以直方图能够迅速计算。用于SIFT或EBGM方法时,原始的方向梯度直方图功能是由每个图像的关键点生成的。每个关键点的周边区域被分为若干均匀间隔的单元,对于每个单元来说,一个一维的局部直方图的梯度方向或边缘方向是由细胞的所有像素积累而成的。一个关键点周围的所有单元的直方图条目形成那个关键点的特征。所有要点结合的直方图特性形成图像表示。整个过程由图1所示。图1图像窗口分割成小的空间区域(单元),局部一维直方图的梯度方向或者边缘方向积累并连接形成最终的直方图特征。1.2方向表示方向可以表示为一单角或二倍角。一个单角把给定的边和对比的逆转区域当做具有相反的方向。二倍角表示是指这些有相同的方向。单角表示可能允许更多的重要模式。这项工作使用了单角表示为了使模式之间允许更多的差别。第4部分中的测试显示了单角表示比二倍角表示表现更为出色。注意这不同于使用了一个单角表示代替二倍角的经典的Gabor特性。如果一个图像窗口I能够被均分为N个单元,这个图像窗口能够被表示为:Ct是所有像素的集合,它属于t-th单元,对于图像窗口I的任意像素p(x,y),对比是由下列式子给出:梯度方向由下列式子给出:如果方法被分为H个,这就意味着每个单元的直方图向量长度为H,直方图向量可以如下计算:|Ct|表示集合Ct的大小。1.3归一化为了照明和噪声的更好的不变性,通常是在计算柱状图向量之后使用归一化步骤。有4个不同的归一化方案:L2-norm,L2-Hys,L1-sqrt和L1-norm。由于其更好的表现,该分析使用了L2-norm方案:Ε是一个小的积极量,当空单元被考虑到时,它被使用于正则化。1.4快速计算Liu等人为梯度方向不在定位中心的像素介绍了快速计算直方图重量的方法。如图2所示:图2投影梯度级最近的中心方向的平行四边形法2重叠的方向梯度直方图眼睛位置的准确性对匹配两个面部图像是非常重要的。然而,准确性不可能达到100%,而且当光照条件不好或动作模糊时,准确性将大大下降。直方图本身对这个问题提供了一些平衡,但这是不够的。因此,重叠的方向梯度直方图功能被提出去进一步克服这个问题。这个灵感来源于Dalal和Trigg的结论:虽然毫无根据,但被重叠引入的冗余信息明显提高了行人检测的表现。在重叠的方向梯度直方图被提出之前,必须首先解释使用方向梯度直方图功能的方法。方向梯度直方图的特性在这里并不是每个关键点生成的,但是面部图像是被均分为大小一致的相同单元。面部图像的最终特征是由每个单元首先生成的柱状图获得,然后简单的将它们连接在一起(图3a)。整个过程与LBP特征提取是相似的。为了生成一个重叠的方向梯度直方图特性,一些原始的方向梯度直方图特性伴随着基于一个独特的方向梯度直方图网格产生的每个方向梯度直方图特征首次独立生成。这些不同的网格可能包含不同大小的单元(虽然在我们的实验中,为了简单起见,它们是相同的),但是它们不得不被放到不同的位置。因此,这些不同的方向梯度直方图网格中的单元们可能如图3b一样相互重叠。然后,或者每个网格生成的特性为了特征级融合完全链接,或者两个具有个别特征的面部图像的相似分数为了分数级融合而计算。图3(a)图像窗口被均分为大小相同的单元,局部一维梯度方向直方图积累并连接形成最终的直方图特征。(b)两种不同网格相互重叠的部分区域。3测量特性的分类能力根据Devuver的说法,贝叶斯距离、错误概率和对数信息测量如下相关:Pe是贝叶斯错误概率,B(X|Y)是贝叶斯距离,H(X|Y)是对数信息测量。由信息理论,方程11表明一个更大的交互信息I(X|Y)将会减少Pe。让E表示身份空间,让F表示特征空间,熵H(E)是一个给定分类问题的常数,交互信息I(E|F)能被用于评估不同特征的潜在分类能力。伴随着同方差的假设和总离散的高斯分布假设,I(E|F)能够被写为:Sw是在类矩阵,Sb是类间矩阵,St是总离散矩阵。Λ是广义特征值和用于找到fisher基础向量的广义特征值问题的相关量,K是剩余维度的数量。然后不同特征的I(E|F)为分类而做比较。4实验结果各种不同的试验是用于研究方向梯度直方图特征的变化,并且比较不同特征的能量级别、识别率以及它们基于FRGCv2.0数据库和CAS-PEAL数据库的实际分辨率。在FRGCv2.0数据库(图4)训练集中存有222对象的超过10000个正面图像,验证集中存有466个对象的超过32000的正面图像。在训练过程中,对于训练集中每个对象,随机抽取其10张图像进行训练。验证图像过程采用466个对象的有表情和光照变化的图像。查询组中所用图像与在FRGCVer2.0上进行的标准实验4相同,由8014个不受控制的静止图像组成。目标级包括由466单一的受控制的静止图像组成,每个对象对应一个图像,这与在FRGC上进行的标准实验4稍有不同,因为在大多数实际应用中,每个对象并没有多个目标图像,而对于每一个对象的多个查询图像却是共同的。图4在FRGCv2.0数据库中受控制和不受控制的图像5结论方向梯度直方图特征描述符作为一个比较简单的局部特征描述符,广泛应用于行人探测和跟踪,但极少被用于人脸识别。随着一种快速的计算方法的产生,以及对影响方向梯度直方图性能的多种不同因素进行评估,,设计出具有精细渐变尺度,能够精确定位,单元尺度小且有重叠的HOG特征描述符梯度,同时,这种特征描述符能够实现与其他相同的性能,但是比Gabor描述符花费的时间少,且比LBP描述符更精确。在这里,把这种互信息作为潜在的不同能量等级的一般测量可能是比方向梯度直方图功能在人脸识别中的成功应用更重要的理论。这种互信息能够实现不同特征的比较,而不管它具体的应用环境。本文深入探索的基于方向梯度直方图特征的人脸识别在未来的工作将会得到进一步扩展,并把这种特征与其他特征融合起来,因为其他功能能够通过精确匹配来提高稳定性,并且对计算量几乎没有影响。相对简单而有效的HOG特征描述符对融合任务来说是最佳选择。