调研报告目前人脸识别的主要研究方法有3种。①基于模板匹配的方法。模板匹配是指固定模板匹配和形变模板匹配。固定模板匹配是通过计算人脸图像和分布模型之间特征向量的差值来识别人脸。形变模板匹配是通过参数化的简单人脸图元模型来识别人脸;②基于主分量分析的方法。主分量分析的实质是对人脸图像进行压缩,用一个低维向量来代替人脸图像,该向量包含原始图像的重要信息即特征脸,利用该方法可以重建和识别人脸;③基于神经网络的方法。神经网络是一种基于样本统计模型的方法,通过监督学习方法对人脸样本进行训练,并根据提取的特征构建分类器,从而对测试样本进行人脸识别。一般在实际运用中,会综合以上几种方法。自从2006年Hiton提出深度学习的概念以来,对于深度学习的研究便广泛进行,在理论和运用方面都有巨大进展。深度学习的主要框架如下。无监督+有监督的有受限波尔兹曼机和自动编码机两种框架。自动编码机又拓展为稀疏自动编码机(降低隐层维度)和降噪自动编码机(加入随机噪声)。纯有监督的主要是卷积神经网络。在实际的运用中主要还是采用深度卷积神经网络的模式。人脸识别的技术运用广泛,在追踪嫌犯、养老生存认证、考生身份验证、金融银行、交通、社区、景点检票、门禁、考勤等各种各样的社会化场景中都可以看到人脸识别技术的应用。当今的人脸识别系统虽然包含无数细节和各种工程技巧,但大的系统框架不外乎如下图所示的流程:一张人脸图片输入后,需要先找到人脸的位置(人脸检测),然后在这个基础上定位人脸关键点的位置(如眼睛中心或嘴角等),每个系统关键提取的数量相差很大,有的只有左右眼睛中心两个点,有的可能多达近百个点。这些点的位置一是用来做人脸的几何校正,即把人脸通过缩放、旋转、拉伸等图像变化变到一个比较标准的大小位置。这样待识别的人脸区域会更加规整,便于后续进行匹配。同时,现在的实际系统一般也都配有人脸光学校正模块,通过一些滤波的方法,去除一些对光照更加敏感的面部特征。在做完这些预处理之后,就是从人脸区域提取各种特征,包括LBP、HOG、Gabor等。最终相关的特征会连接成一个长的特征向量(FeatureVector),然后匹配出人脸的相似度,根据相似度的大小,系统会判定两张图片到底是不是一个人。人脸识别技术是一个系统链条较长,较为有技术门槛的领域。因为这条流水线的每个环节可能都会严重影响最终系统性能,所以一个好的人脸识别技术需要在各个环节上追求细节,最终才有可能在最后的人脸识别精度上有出色的表现。接下来介绍几个具有代表性的研究人脸识别的企业及主要算法。Deepface:Deepface是facebook公司研发的人脸识别算法。DeepFace利用面部多点的稠密对齐,借助于3D模型对有姿态的人脸进行校正,同时利用一个9层深度卷积神经网络在400万规模的人脸库上训练了一个深度人脸表示模型,在LFW数据集上取得了97.25%的平均精度。DeepID:DeepID是香港中文大学汤晓鸥课题组发明的一种人脸识别算法。孙祎团队研发的技术和产品已经在当今备受关注的互联网金融领域被应用于“人脸在线身份认证”,让用户无需面签即可通过人脸识别在手机端认证身份,继而开户、转账、借贷,这项身份认证服务已达到了百万级/天的调用量。其经过了三代的发展。第一代DeepID结构与普通的卷积神经网络的结构相似,但是在隐含层,也就是倒数第二层,与Convolutionallayer4和Max-poolinglayer3相连,鉴于卷积神经网络层数越高视野域越大的特性,这样的连接方式可以既考虑局部的特征,又考虑全局的特征。DeepID2在DeepID的基础上添加了验证信号。具体来说,原本的卷积神经网络最后一层softmax使用的是LogisticRegression作为最终的目标函数,也就是识别信号;但在DeepID2中,目标函数上添加了验证信号,两个信号使用加权的方式进行了组合。第三代DeepID2+有如下贡献,第一点是继续更改了网络结构;第二点是对卷积神经网络进行了大量的分析,发现了几大特征,包括:1神经单元的适度稀疏性,该性质甚至可以保证即便经过二值化后,仍然可以达到较好的识别效果;2高层的神经单元对人比较敏感,即对同一个人的头像来说,总有一些单元处于一直激活或者一直抑制的状态;3DeepID2+的输出对遮挡非常鲁棒。Facenet:FacenNet是Google开发的深度学习算法。与其他的深度学习方法在人脸上的应用不同,FaceNet并没有用传统的softmax的方式去进行分类学习,然后抽取其中某一层作为特征,而是直接进行端对端学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别、人脸验证和人脸聚类等。FaceNet算法有如下要点:去掉了最后的softmax,而是用元组计算距离的方式来进行模型的训练。使用这种方式学到的图像表示非常紧致,使用128位足矣。元组的选择非常重要,选的好可以很快的收敛。三元组比softmax的优势在于:softmax不直接,(三元组直接优化距离),因而性能也不好。softmax产生的特征表示向量都很大,一般超过1000维。商汤科技:SenseTime(商汤科技),是中国一家致力于计算机视觉和深度学习原创技术的创新型科技公司,总部位于北京。Face++:Face++TM是北京旷视科技有限公司旗下的新型视觉服务平台,Face++TM平台通过提供云端API、离线SDK、以及面向用户的自主研发产品形式,将人脸识别技术广泛应用到互联网及移动应用场景中,人脸识别云计算平台市场前景广阔。和蚂蚁金服共同开发的SmiletoPay,可以进行扫脸支付。Face++和蚂蚁金服今年开发的人工智能机器人——蚂可,于6月30日和“水哥”进行了一次网红脸识别的比赛。近日,CVPR2016刚刚召开,会议上深度学习基本占据了主导,成了计算机视觉研究的标配。以下是关于人脸识别的几篇文章的概括。商汤科技这次提交的其中一篇文章为JointTrainingofCascadedCNNforFaceDetection。文章考虑了一个如何联合训练检测器的问题,可以认为是卷积神经网络方案中的一个,但是不局限于某个特定的CNN检测方法。不管是人工设计的特征的方法,还是基于卷积神经网络的检测算法,往往都需要做级联。而级联的缺点是不太好直接联合训练,这恰恰破坏了卷积神经网络可以端到端训练的性质。由于传统的级联训练往往是单步求解最优,得到的结果可能没有多步联合最优的效果好。为此,文章提出了一种可以联合训练整个级联分类器的一种方式。得益于神经网络可以反向传播的性质,给出了如何联合训练整个级联分类器。并且,我们说明了如何在简单的cascadeCNN和更复杂一点的faster-RCNN上都可以用这种方式来联合训练,并且可以取得非常优异的性能。特别是当网络的规模比较小的时候,这种联合训练的方法提升非常大。这个工作做完之后,我们进一步大幅度提升了检测的速度和精度,并把完全基于CNN的方法做到了包括ARM,CPU和GPU各个平台上,并且跑到了非常好的速度。如今,商汤科技基于深度学习的人脸检测技术适配于多个品牌不同型号的手机上,支持着几十个各类APP的人脸分析功能;在单核CPU上可以跑到上百FPS,并每天支持着大量的金融人脸认证服务;在单个GPU上可以实时的处理超过12路以上的高清视频,并运用到很多的安防监控系统中;甚至不久的将来,还会集成到相机前端的人脸抓拍芯片中。汤晓鸥课题组的SparsifyingNeuralNetworkConnectionsforFaceRecognition:提出通过稀疏神经网络的连接来提升人脸识别的效果。稀疏卷积网络通过迭代的方法来学习,每次将一个额外的层进行稀疏化,将整个模型在之前迭代所得的权重下再训练。一个重要的发现,一开始就使用稀疏卷积网络训练无法得到很好地人脸识别效果,但使用之前训练好的密集模型来初始化一个稀疏模型对学习人脸识别的有效特征很关键。本文还提出来一种基于相关性的权重选择标准,并从经验上证实了它每次迭代中从之前学习的模型中选择有益连接的有效性。选择合适的稀疏模型(大概为密集模型的26-76%),使用同样的数据集,它提升了最新的DeepID2+模型的人脸识别效果。他只需要12%的原来的参数就能达到基准模型的表现。研究发现,神经元之间的相关系数比权重的大小或二阶导能更好地衡量神经元连接的重要性。经过这几年的研究,在现有的人脸数据库如LFW中,现有的算法已经达到几乎完美的水平,识别能力已经超过人眼,但这并不能代表在现实中会有这样的效果。于是提出创建更大更有挑战性的数据库TheMegaFaceBenchmark。TheMegaFaceBenchmark:1MillionFacesforRecognitionatScale:新建的数据库,包含690000人的1百万张照片。参加测试的算法,能够在LFW数据库(相当于只有10个干扰项)上达到95%以上的识别率,在这个有1M的干扰项中只达到35-75%的识别率,LBP和联合贝叶斯算法作为基准则降到了不足10%。如谷歌的FaceNet和FaceN这样在大的数据集上进行训练的算法,在MegaFace中测试时的效果更好。而且在Face-Scrub数据集中,在18M照片中训练的FaceN达到了和在500M照片中训练的FaceNet相当的效果。验证集和注册集之间人物的年龄差别对于识别影响很大。验证集和注册集之间的动作变化导致识别率减低,对于大规模的数据尤其重要。WIDERFACE:AFaceDetectionBenchmark。汤晓欧课题组也提出了一个用于人脸识别的数据库---WINDERFACE,比现有的数据库大10倍多,包含丰富的注释,包括地点,姿势,活动类别,和脸部边框。用这个数据库训练,当前最好的算法也只能达到70%的正确率。这个数据库更像现实中的人脸采集状况,也是将来研究的方向。本次CVPR最佳论文DeepResidualLearningforImageRecognition。这是微软方面的最新研究成果,在第六届ImageNet年度图像识别测试中,微软研究院的计算机图像识别系统在几个类别的测试中获得第一名。之前的研究发现,卷积网络的深度越深,训练效果越好。本文是解决超深度CNN网络训练问题,152层及尝试了1000层。本文主要解决的是随着深度的增大,训练误差也增加的问题。求取残差映射F(x):=H(x)-x,那么原先的映射就是F(x)+x,对原先的平原网络(plainnetwork)上加入快捷连接(shortcutconnections)构成残差网络,以此随着网络深度的增加检测效果也更好。Pose-AwareFaceRecognitionintheWild。只要是来研究在对于不同的人脸姿态的识别,不同于其他的方法,要么通过训练大量的数据来希望找到一个模型来学习姿态的不变性,要么将图像标准化为一个正面姿态,该方法是使用多种姿态确定模型和提取的脸部图像来解决姿态的变化。用训练多个深度卷积神经网络来学习不同角度的人脸图像。FaceAlignmentAcrossLargePoses:A3DSolution。也是研究人脸对齐的文章。他主要考虑了人脸姿态特别偏的情况,会到时人脸的一些特征点看不到。于是他们提出一种三维密集脸部模型的方法,构建人的三维人脸,而不是用离散的特征点来对其,这样解决了局部特征看不到的问题。然后用卷积神经网络来拟合三维人脸模型。FACEALIGNMENTBYDEEPCONVOLUTIONALNETWORKWITHADAPTIVELEARNINGRATE。是在2016年ICASSP会议上的一篇文章。主要是研究使用深度卷积网络来进行人脸对齐。该方法是基于数据增加和自适应学习速率的对于人脸特征点的检测。数据增加解决缺少图像的问题,自适应学习来得到定位的最优解。该网络可以学习全局的高级特征,直接预测人脸特征点的坐标。各项测试表明,该方法效果很好,尤其在复杂环境,姿势,光照等情况下。文章DEEPPAIR-WISESIMILARITYLEARNINGFORFACE