人脸识别技术发展和实用方案设计

发布时间:2018-09-03  栏目:w88优德官网电脑版  评论:0 Comments

人脸识别技术不仅吸引了Google、Facebook、阿里、腾讯、百度等国内外互联网巨头的大气研发投入,也催生了Face++、商汤科技、Linkface、中科云从、依图等一律格外波明星创业企业,在视频监控、刑事侦破、互联网经济身份核验、自助通关体系等倾向创造了诸多打响采用案例。本文拟梳理人脸识别技术进步,并冲作者以相关领域的推行为闹一些实用方案设计,期待能够针对谢兴趣之读者有裨益。

一、概述

初步地讲,任何一个底机械上问题还得等价于一个搜索适合变换函数的题目。例如语音识别,就是在求取合适的变换函数,将输入的同等维时序语音信号变换到语义空间;而最近引发全民关注的围棋人工智能AlphaGo则是用输入的亚维布局图像变换到决策空间以控制下一致步之太优走法;相应的,人脸识别也是当求取合适的变换函数,将输入的第二维人脸图像变换到特征空间,从而唯一确定针对性应人的身份。

直接以来,人们都以为围棋的难度要多超出人脸识别,因此,当AlphaGo以绝对优势轻易打败世界冠军李世乭九段与柯洁九段落经常,人们又奇怪于人工智能的有力。实际上,这等同定论只是众人的因“常识”的误解,因为从大多数人数之亲身体会来讲,即使通过严格训练,打败围棋世界冠军的几引领为是硕果仅存;相反,绝大多数小人物,即便非经过严格训练,也会轻轻松松做到人脸识别的任务。然而,我们不妨仔细分析一下这两者之间的难易程度:在处理器的“眼里”,围棋的棋盘不过大凡只19×19底矩阵,矩阵的各个一个素或的取值都来源于于一个三元组{0,1,2},分别代表无子,白子及黑子,因此输入向量可能的取值数为3361;而对于人脸识别来讲,以同帧512×512底输入图像为例,它以处理器的“眼中”是一个512x512x3维的矩阵,矩阵的各个一个元素或的取值范围为0~255,因此输入向量可能的取值数为256786432。虽然,围棋AI和人脸识别都是寻求合适的变换函数f,但后者输入空间的复杂度显然远远高于前者。

对一个优质的变换函数f而言,为了上最好优良的分类功能,在变后底特征空间及,我们期望同类样本的类似内不同尽可能小,同时不同类样本的类间差尽可能大。但是,理想是富于之,现实也是骨感的。由于光照、表情、遮挡、姿态等许多元素(如图1)的震慑,往往导致不同人中间的别比较相同人之间差距更有些,如图2。人脸识别算法发展的历史就是和这些分辨影响因子斗争的史。

                                                        图1
人脸识别的震慑因素                                            

                    图2 态度导致不同人相似度比同人又胜似

第二、人脸识别技术提高

早以20世纪50年代,认知科学家就曾经着手对人脸识别展开切磋。20世纪60年份,人脸识别工程化应用研究专业开。当时之方式要利用了面孔的几乎哪里结构,通过分析人脸器官特征点及其内的拓扑关系进行甄别。这种艺术大概直观,但是若人脸姿态、表情发生变化,则精度严重下降。

1991年,著名的“特征脸”方法[1]先是次于用主成分分析与统计特征技术引入人脸识别,在实用功能达到沾了快捷的进步。这同一思路也于继续研究中取更进一步弘扬,例如,Belhumer成功将Fisher判别准则下被人口脸分类,提出了基于线性判别分析的Fisherface方法[2]。

21世纪之前十年,随着机器上理论的上扬,学者们逐一探索有了基于遗传算法、支持为量机(Support
Vector Machine, SVM)、boosting、流形学习及核方法等展开人脸识别。
2009年到2012年,稀疏表达(Sparse
Representation)[3]为该美丽之论争及针对遮挡因素的鲁棒性成为这底钻研热点。

以,业界为基本达到共识:基于人工精心设计的一些描述子进行特征提取和子空间法开展特色选择会获取最好的辨别功能。Gabor[4]及LBP[5]特征描述子是至今在人脸识别领域太成功之星星点点种人工设计有描述子。这里面,对各种人脸识别影响因子的指向处理呢是那同样阶段的钻热点,比如人脸光照归一化、人脸姿态校正、人脸越分辨和遮挡处理等。也是以当时同一路,研究者的关注点开始打受限场景下的人脸识别转移到无受限环境下之人脸识别。LFW人脸识别公开竞在此背景下起流行,当时太好之识别系统尽管在受限的FRGC测试集齐能收获99%上述的分辨精度,但是以LFW上之万丈精度就在80%横,距离实用看起去颇远。

2013年,MSRA的研究者首度尝试了10万界的大训练多少,并依据高维LBP特征跟Joint
Bayesian方法[6]每当LFW上得了95.17%底精度。这同一结果表明:大训练数据集对于中提升非受限环境下之人脸识别很关键。然而,以上有这些经典方法,都难以处理大规模数据集的教练场景。

2014年左右,随着大数据以及深上的进化,神经网络重受瞩目,并于图像分类、手写体识别、语音识别等采取中获取了远超经典方法的结果。香港中文大学之Sun
Yi等丁提出将卷积神经网络应用到人脸识别上[7],采用20万训练多少,在LFW上第一赖沾过人类水平的分辨精度,这是人脸识别发展历史及的平所里程碑。自此之后,研究者们不断改进网络布局,同时扩充训练样本规模,将LFW上的辨别精度推至99.5%之上。如表1所显示,我们为来了人脸识别发展进程中一些藏的法门及其于LFW上的精度,一个着力的来头是:训练多少规模更为大,识别精度越来越高。如果读者读书来趣味了解人脸识别更细节之向上历史,可以参考文献。

表2 比较健康的人脸识别训练集

说明3 本文用到的测试集

申4 一种高效可靠的教练多少清洗方式

祈求4于来了一致仿行之有效的人脸识别技术方案,主要概括多patch划分、CNN特征抽取、多任务上/多loss融合,以及特色融合模块。

图4 人脸识别技术方案

1、多patch划分主要是动人脸不同patch之间的补偿信息加强识别性。尤其是大半个patch之间的同甘共苦会行提升遮挡情况下之鉴别性。当前,在LFW评测中过99.50%底结果大多数凡是由于多单patch融合得。

2、经过验证较佳之人头脸特征抽取卷积神经网络包括:Deep-ID系列、VGG-Net、ResNet、Google
Inception结构。读者可以因自己对精度与效率的需选择当的大网。本文为19层resnet举例。

3、多任务上要是下另外有关信息升级人脸识别性能。本文为性与种识别为条例,这点儿栽属性都是同实际人数的身份强相关的,而其余的特性如神、年龄都并未是特点。我们在resnet的中间层引出分支进行种族和性别的大半任务上,这样CNN网络的先头几乎交汇相当给拥有了种、性别鉴别力的高层语义信息,在CNN网络的继几乎重合我们更是读书了身份的细化鉴别信息。同时,训练集中样本的性别和种族属性可以透过一个baseline分类器进行多数投票得到。

4、多loss融合关键是利用不同loss之间的填补特性学习产生当的人数脸特征向量,使得类内不同尽可能小,类间差尽可能大。当前人脸识别领域较常用之汇集loss包括:pair-wise
loss、triplet loss、softmax loss、center loss等。其中triplet
loss直接定义了增大类内类间差gap的优化目标,但是于现实工程执行着,其trick较多,不易于把。而近年来提出的center
loss,结合softmax
loss,能于好地量特征空间受到之近乎内、类间差,训练安排为较有利,因此利用较为普遍。

5、通过多只patch训练取得的型将出多个特征向量,如何融合多特点向量进行最后之位置辨别为是一个生死攸关之技能问题。较为常用的方案包括:特征向量拼接、分数级加权融合与决策级融合(如投票)等。

说明5 数据清洗前后识别模型性能比

表5为起了训多少清洗前后在测试集及的性质比结果。据这可以取以下结论:

1、数据的清洗不但会加速模型训练,也能够行提升辨精度;

2、在西方人为主的训集MSCeleb1M上训练得的型,在同样以西方人为主底测试集LFW上及了一揽子的泛化性能;但是当坐东方人为主底业务测试集的泛化性能则生比较生之降低;

3、在坐东方人为主底作业教练集训练取得的型,在东方人为主底事情测试集上性特别好,但是当西方人为主的测试集LFW上针锋相对MSCeleb1M有必然别;

4、将工作训练集和MSCeleb1M进行合并,训练取得的模子在LFW和事务数据达还来像样完美的习性。其中,基于三只patch融合之模子在LFW上收获了99.58%底辨认精度。

5、由此,我们得以知道,为了达到尽可能大的实用识别性,我们当尽可能采取和使用环境一致之训多少开展训练。同样的下结论也起于舆论[12]中。

其实,一个完完全全的人脸识别实用系统除了包括上述识别算法以外,还当包括人口脸检测,人脸要点一定,人脸对旅等模块,在某些安全级别要求比高的采用中,为了预防照片、视频回放、3D打印模型等对识别系统的制假攻击,还待引入活体检测模块;为了在视频输入被获最优质的甄别功能,还需引入图像质量评估模块选择最好相宜的视频帧进行辨认,以尽量排除不都匀光照、大姿态、低分辨和活动模糊等因素对分辨的熏陶。另外,也来众多研究者与商社拟通过积极的方规避这些要素的震慑:引入红外/3D摄像头。典型的实用人脸识别方案要图5所出示。

祈求5 实用人脸识别方案流程图

四、总结

正文简单总结了人脸识别技术的前行历史,并受起了实用方案设计的参阅。虽然人脸识别技术于LFW公开竞赛被获得了99%上述之精度,但是在视频监控等实用场景下之1:N识别距离真正实用还有平等段子总长如果走,尤其是于N很怪之状态下。未来,我们尚用以教练多少扩充、新模型设计与度量学习等方面投入还多之肥力,让广大人脸识别早日走符合实用。

五、参考文献 

[1]Turkand M A, Pengland A P. Eigenfaces for recognition [J].
Journal of Cognitve Neuroscience, 1991, 3(1): 71-86. 

[2]Belhumeur P, Hespanha J, Kriegman D. Eigenfaces vs. fisherfaces:
Recognition using class specific linear projection [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7):
711-720. 

[3]Liu C, Wechsler. Gabor feature based classification using enhanced
fisher linear model for face recognition [J]. IEEE Transactions on
Image Processing, 2002, 11(4): 467-476. 

[4]Ahonen T, Hadid A, Pietikäinen M. Face description with local
binary patterns: Application to face recognition [J]. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12):
2037-2041. 

[5]Wright J, Yang A, Ganesh A, Sastry S, Ma Y. Robust face recognition
via sparse representation [J]. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 2009, 31(2): 210-227. 

[6]Chen D, Cao X, Wen F, Sun J. Blessing of dimensionality:
high-dimensional feature and its efficient compression for face
verification [C]. IEEE International Conference on Computer Vision and
Pattern Recognition, 2013. 

[7]Sun Y, Wang X, Tang X. Deep learning face representation by joint
identification-Verification [C]. 

[8]Zhao W, Chellappa R, Rosenfeld A, Phillips P J. Face recognition: A
literature survey [J]. ACM Computing Surveys, 2003, 35(4): 399-458. 

[9]Li S Z, Jain A K. Handbook of face recognition (2nd Edition) [M].
Springer-Verlag, 2011. 

[10]Wang B, Li W, Yang W, Liao Q. Illumination normalization based on
Weber’s law with application to face recognition [J]. IEEE Signal
Processing Letters, 2011, 18(8): 462-465. 

[11]Wang Biao, Feng X, Gong L, Feng H, Hwang W, Han J. Robust Pose
normalization for face recognition under varying views [C]. ICIP,
2015, 

[12]Kan M. Domain Adaptation for face recognition: Targetize source
domain briged by common subspace, IJCV, 2014.

留下评论