人脸识别技术提升及实用方案设计

发布时间:2018-12-28  栏目:w88优德官网电脑版  评论:0 Comments

人脸识别技术不仅吸引了Google、非死不可、阿里、腾讯、百度等国内外互联网巨头的汪洋研发投入,也催生了Face++、商汤科技、Linkface、中科云从、依图等一大波明星创业公司,在视频监控、刑事侦破、互联网经济身份核验、自助通关连串等体系化创设了好多中标拔取案例。本文试图梳理人脸识别技术提升,并遵照作者在相关领域的履行给出一些实用方案设计,期待能对感兴趣的读者有所裨益。

一、概述

浅显地讲,任何一个的机械学习问题都得以等价于一个搜索适合变换函数的问题。例如语音识别,就是在求取合适的变换函数,将输入的一维时序语信息号变换来语义空间;而如今引发全民关注的围棋人工智能AlphaGo则是将输入的二维布局图像变换到决策空间以决定下一步的最优走法;相应的,人脸识别也是在求取合适的变换函数,将输入的二维人脸图像变换来特征空间,从而唯一确定对应人的地方。

平素以来,人们都认为围棋的难度要远超过人脸识别,由此,当AlphaGo以相对优势轻易克服世界季军李世乭九段和柯洁九段时,人们更奇怪于人工智能的强硬。实际上,这一定论只是人们的依照“常识”的误会,因为从大多数人的亲肢体会来讲,尽管通过严苛锻练,打败围棋世界冠军的几率也是微乎其微;相反,绝大多数普通人,虽然未经过严厉磨练,也能自在完成人脸识其余任务。然则,我们不妨仔细分析一下这两者之间的难易程度:在微机的“眼里”,围棋的棋盘然则是个19×19的矩阵,矩阵的每一个元素可能的取值都来源于于一个三元组{0,1,2},分别代表无子,白子及黑子,由此输入向量可能的取值数为3361;而对这个人脸识别来讲,以一幅512×512的输入图像为例,它在总括机的“眼中”是一个512x512x3维的矩阵,矩阵的每一个要素可能的取值范围为0~255,由此输入向量可能的取值数为256786432。即使,围棋AI和人脸识别都是寻求合适的变换函数f,但后者输入空间的复杂度显明远远高于前者。

对于一个非凡的变换函数f而言,为了达成最优的归类功效,在转换后的表征空间上,咱们目的在于同类样本的类内差尽可能小,同时不同类样本的类间差尽可能大。不过,理想是丰裕的,现实却是骨感的。由于光照、表情、遮挡、姿态等重重元素(如图1)的震慑,往往造成不同人之间的差异比相同人之间差别更小,如图2。人脸识别算法发展的野史就是与这多少个分辨影响因子斗争的历史。

                                                        图1
人脸识此外影响因素                                            

                    图2 神态导致不同人相似度比同人更高

二、人脸识别技术提高

早在20世纪50年间,认知科学家就已最先对人脸识别展开讨论。20世纪60年份,人脸识别工程化应用研商专业拉开。当时的法子重要利用了面孔的几何结构,通过分析人脸器官特征点及其之间的拓扑关系举行甄别。这种艺术简便直观,可是只要人脸姿态、表情暴发变化,则精度严重下滑。

1991年,著名的“特征脸”方法[1]w88优德官网电脑版,先是次将主成分分析和总结特征技术引入人脸识别,在实用效能上获取了飞速的升华。这一思路也在继续研讨中得到进一步发扬,例如,Belhumer成功将Fisher判别准则应用于人脸分类,指出了基于线性判别分析的Fisherface方法[2]。

21世纪的前十年,随着机器学习理论的向上,学者们挨个探索出了依照遗传算法、辅助向量机(Support
Vector Machine, SVM)、boosting、流形学习以及核方法等展开人脸识别。
二〇〇九年至二零一二年,稀疏表明(Sparse
Representation)[3]因为其姣好的驳斥和对遮挡因素的鲁棒性成为当下的钻研热点。

再就是,业界也基本达到共识:基于人工精心设计的一对描述子举办特征提取和子空间方法开展特色采用可以获取最好的辨认效用。Gabor[4]及LBP[5]特性描述子是迄今在人脸识别领域最为成功的二种人工设计有些描述子。这期间,对各类人脸识别影响因子的对准处理也是那一等级的钻研热点,比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。也是在这一等级,研讨者的关注点先导从受限场景下的人脸识别转移到非受限环境下的人脸识别。LFW人脸识别公开竞技在此背景下先导流行,当时最好的识别系统固然在受限的FRGC测试集上能取得99%之上的辨别精度,不过在LFW上的最高精度仅仅在80%左右,距离实用看起来距离颇远。

二零一三年,MSRA的研讨者首度尝试了10万局面的大训练多少,并按照高维LBP特征和Joint
Bayesian方法[6]在LFW上拿到了95.17%的精度。这一结果表明:大练习数据集对于有效提高非受限环境下的人脸识别很重点。不过,以上所有这个经典方法,都难以处理大规模数据集的训练情景。

2014年左右,随着大数额和深度学习的前行,神经网络重受瞩目,并在图像分类、手写体识别、语音识别等应用中拿走了远超经典方法的结果。香港(香岛)粤语大学的Sun
Yi等人提出将卷积神经网络选拔到人脸识别上[7],接纳20万训练多少,在LFW上率先次得到超越人类水平的识别精度,这是人脸识别发展历史上的一座里程碑。自此之后,探究者们不断革新网络布局,同时扩大训练样本规模,将LFW上的鉴别精度推到99.5%之上。如表1所示,我们提交了人脸识别发展历程中有的经典的主意及其在LFW上的精度,一个中坚的来头是:训练多少规模更为大,识别精度越来越高。如若读者阅读有趣味理解人脸识别更细节的进步历史,可以参考文献。

表2 较为健康的人脸识别磨炼集

表3 本文用到的测试集

表4 一种高效可靠的教练多少清洗方法

图4付给了一套行之有效的人脸识别技术方案,紧要不外乎多patch划分、CNN特征抽取、多任务学习/多loss融合,以及特色融合模块。

图4 人脸识别技术方案

1、多patch划分重倘使采纳人脸不同patch之间的增补信息加强识别性能。尤其是多个patch之间的休戚与共能使得提升遮挡情形下的识别性能。当前,在LFW评测中领先99.50%的结果大多数是由五个patch融合拿到。

2、经过验证较理想的人脸特征抽取卷积神经网络包括:Deep-ID体系、VGG-Net、ResNet、GoogleInception结构。读者可以依据自己对精度及效率的要求选拔适合的网络。本文以19层resnet举例。

3、多任务学习重点是运用其他相关信息升级人脸识别性能。本文以性别和种族识别为例,这二种特性都是和切实人的身份强相关的,而此外的属性如表情、年龄都尚未这一个特点。我们在resnet的中间层引出分支进行种族和性其余多任务学习,那样CNN网络的前几层相当于拥有了种族、性别鉴别力的高层语义消息,在CNN网络的后几层我们越来越深造了身份的细化鉴别信息。同时,练习集中样本的性别和种族属性可以通过一个baseline分类器举办多数投票得到。

4、多loss融合关键是应用不同loss之间的增补特性学习出适合的人脸特征向量,使得类内差尽可能小,类间差尽可能大。当前人脸识别领域较为常用的集中loss包括:pair-wise
loss、triplet loss、softmax loss、center loss等。其中triplet
loss直接定义了附加类内类间差gap的优化目的,然而在切实可行工程执行中,其trick较多,不易于把握。而如今提议的center
loss,结合softmax
loss,能较好地度量特征空间中的类内、类间差,磨练安排也较为有利,因而使用较为普遍。

5、通过六个patch磨炼取得的模型将生出六个特征向量,如何融合多特征向量举办最终的地位识别也是一个着重的技术问题。较为常用的方案包括:特征向量拼接、分数级加权融合以及决策级融合(如投票)等。

表5 数据清洗前后识别模型性能相比

表5付出了教练多少清洗前后在测试集上的特性相比较结果。据此可以赢得以下结论:

1、数据的保洁不但能加速模型磨炼,也能管用提高识别精度;

2、在西方人为主的教练集MSCeleb1M上锻练取得的模型,在同一以西方人为主的测试集LFW上达成了周密的泛化性能;然而在以东方人为主的工作测试集的泛化性能则有较大的降落;

3、在以东方人为主的事体教练集操练取得的模型,在东方人为主的政工测试集上性能特别好,可是在西方人为主的测试集LFW上相对MSCeleb1M有必然差距;

4、将业务锻练集和MSCeleb1M举行统一,操练取得的模子在LFW和工作数据上都有近似完美的习性。其中,基于多少个patch融合的模子在LFW上拿到了99.58%的分辨精度。

5、由此,大家得以领悟,为了达到尽可能高的实用识别性能,大家理应尽可能采用与运用条件一致的训练多少举办操练。同样的下结论也出现在舆论[12]中。

实际上,一个完好的人脸识别实用系统除去包括上述识别算法以外,还相应包括人脸检测,人脸关键点定位,人脸对齐等模块,在某些安全级别要求较高的使用中,为了防范照片、视频重播、3D打印模型等对识别系统的伪造攻击,还索要引入活体检测模块;为了在视频输入中获得最优的识别功效,还需要引入图像质料评估模块选用最合适的录像帧举行分辨,以尽可能排除不均匀光照、大姿态、低分辨和活动模糊等元素对分辨的影响。此外,也有广大研商者和公司试图通过积极的法门躲避那么些元素的震慑:引入红外/3D录像头。典型的实用人脸识别方案如图5所示。

图5 实用人脸识别方案流程图

四、总结

本文简单总计了人脸识别技术的提升历史,并付诸了实用方案设计的参阅。即便人脸识别技术在LFW公开比赛中收获了99%之上的精度,可是在录像监控等实用场景下的1:N识别距离真正实用还有一段路要走,尤其是在N很大的情形下。将来,我们还亟需在磨炼多少扩展、新模型设计及度量学习等地方投入更多的生机,让广大人脸识别早日走入实用。

五、参考文献 

[1]Turkand M A, Pengland A P. Eigenfaces for recognition [J].
Journal of Cognitve Neuroscience, 1991, 3(1): 71-86. 

[2]Belhumeur P, Hespanha J, Kriegman D. Eigenfaces vs. fisherfaces:
Recognition using class specific linear projection [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7):
711-720. 

[3]Liu C, Wechsler. Gabor feature based classification using enhanced
fisher linear model for face recognition [J]. IEEE Transactions on
Image Processing, 2002, 11(4): 467-476. 

[4]Ahonen T, Hadid A, Pietikäinen M. Face description with local
binary patterns: Application to face recognition [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12):
2037-2041. 

[5]Wright J, Yang A, Ganesh A, Sastry S, Ma Y. Robust face recognition
via sparse representation [J]. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 2009, 31(2): 210-227. 

[6]Chen D, Cao X, Wen F, Sun J. Blessing of dimensionality:
high-dimensional feature and its efficient compression for face
verification [C]. IEEE International Conference on Computer Vision and
Pattern Recognition, 2013. 

[7]Sun Y, Wang X, Tang X. Deep learning face representation by joint
identification-Verification [C]. 

[8]Zhao W, Chellappa R, Rosenfeld A, Phillips P J. Face recognition: A
literature survey [J]. ACM Computing Surveys, 2003, 35(4): 399-458. 

[9]Li S Z, Jain A K. Handbook of face recognition (2nd Edition) [M].
Springer-Verlag, 2011. 

[10]Wang B, Li W, Yang W, Liao Q. Illumination normalization based on
Weber’s law with application to face recognition [J]. IEEE Signal
Processing Letters, 2011, 18(8): 462-465. 

[11]Wang Biao, Feng X, Gong L, Feng H, Hwang W, Han J. Robust Pose
normalization for face recognition under varying views [C]. ICIP,
2015, 

[12]Kan M. Domain Adaptation for face recognition: Targetize source
domain briged by common subspace, IJCV, 2014.

留下评论