2024年5月1日发(作者:)
第
44
卷第
5
期
2018
年
5
月
自动化学报
ACTAAUTOMATICASINICA
Vol.44,No.5
May,2018
基于生成式对抗网络的鲁棒人脸表情识别
姚乃明
1,2
郭清沛
1,2
乔逢春
1,2
陈辉
1,2
王宏安
1,2,3
摘要人们在自然情感交流中经常伴随着头部旋转和肢体动作
,
它们往往导致较大范围的人脸遮挡
,
使得人脸图像损失部
分表情信息
.
现有的表情识别方法大多基于通用的人脸特征和识别算法
,
未考虑表情和身份的差异
,
导致对新用户的识别不够
鲁棒
.
本文提出了一种对人脸局部遮挡图像进行用户无关表情识别的方法
.
该方法包括一个基于
Wasserstein
生成式对抗网络
(Wassersteingenerativeadversarialnet,WGAN)
的人脸图像生成网络
,
能够为图像中的遮挡区域生成上下文一致的补全图
像
;
以及一个表情识别网络
,
能够通过在表情识别任务和身份识别任务之间建立对抗关系来提取用户无关的表情特征并推断
表情类别
.
实验结果表明
,
我们的方法在由
CK+,Multi-PIE
和
JAFFE
构成的混合数据集上用户无关的平均识别准确率超
过了
90%.
在
CK+
上用户无关的识别准确率达到了
96%,
其中
4.5%
的性能提升得益于本文提出的对抗式表情特征提取方
法
.
此外
,
在
45
◦
头部旋转范围内
,
本文方法还能够用于提高非正面表情的识别准确率
.
关键词人脸补全
,
用户无关
,
人脸表情识别
,
生成式对抗网络
,
卷积神经网络
姚乃明
,
郭清沛
,
乔逢春
,
陈辉
,
王宏安
.
基于生成式对抗网络的鲁棒人脸表情识别
.
自动化学报
,2018,44(5):
引用格式
865−877
DOI10.16383/.2018.c170477
RobustFacialExpressionRecognitionWithGenerativeAdversarialNetworks
YAONai-Ming
1,2
GUOQing-Pei
1,2
QIAOFeng-Chun
1,2
CHENHui
1,2
WANGHong-An
1,2,3
AbstractInnaturalcommunication,peoplewouldexpresstheirexpressionswithheadrotationandbodymovement,
whichmayresultinpartialocclus,most
oftheexistingapproachestofacialexpressionrecognitionarenotrobustenoughtounseenusersbecausetheyrelyon
generalfacialfeaturesoralgorithmswithoutconsideringdiff
paper,weproposeaperson-indnWasser-
steingenerativeadversarialnet(WGAN),agenerativenetworkoffacialimageistrainedtoperformcontext-consistent
adversariallearningstrategy,furthermore,a
facialexpressionrecognitionnetworkandafacialidentityrecognitionnetworkareestablishedtoimprovetheaccuracyand
robustnessoiveexperimentalresultsdemon-
stratethat90%averagerecognitionaccuracyoffacialexpressionhasbeenreachedonamixeddatasetcomposedofCK+,
Multi-PIE,er,ourmethodachieves96%accuracyofuser-independentrecognitiononCK+.A4.5%
performanhodisalsocapableofimproving
recognitionaccuracyfornon-frontalfacialexpressionswithinarangeof45-degreeheadrotation.
KeywordsFacecompletion,person-independent,facialexpressionrecognition,generativeadversarialnet(GAN),con-
volutionalneuralnetwork(CNN)
CitationYaoNai-Ming,GuoQing-Pei,QiaoFeng-Chun,ChenHui,facialexpressionrecogni-
tomaticaSinica,2018,44(5):865−877
收稿日期
2017-08-30
录用日期
2018-02-07
ManuscriptreceivedAugust30,2017;acceptedFebruary7,
2018
国家自然科学基金
(61661146002,61572479),
国家重点研发计划
(20
17YFB1002805),
中国科学院前沿科学重点研究计划
(QYZDY-SSW
-JSC041)
资助
SupportedbyNationalNaturalScienceFoundationofChina
(61661146002,61572479),NationalFundamentalResearch
GrantofScienceandTechnology(2017YFB1002805),andFron-
tierScienceKeyProgramofChineseAcademyofSciences(QYZ
DY-SSW-JSC041)
本文责任编委左旺孟
赋予机器感知人类情绪的能力
,
使得机器能够
识别人的情绪状态
,
已经成为提高人机交互系统自
动化水平的关键
.
在过去的十年中
,
人脸表情的识别
方法得到了深入研究
[1−4]
,
并逐渐成为分析用户情
绪的一种强效技术
.
其中
,
识别自然的人脸表情是一
个重要的研究方向
.
在自然交流中
,
人的情绪表达往
往伴随着丰富的头部姿态和肢体动作
,
使得提取有
效的表情特征非常困难
.
许多方法要求或假设在表达
InstituteofSoftware,ChineseAcademyofSciences,Beijing
sityofChineseAcademyofSciences,Beijing
eyLaboratoryofComputerScience,Insti-
tuteofSoftware,ChineseAcademyofSciences,Beijing100190
RecommendedbyAssociateEditorZUOWang-Meng
1.
中国科学院软件研究所人机交互北京市重点实验室北京
100190
2.
中国科学院大学北京
1000493.
中国科学院软件研究所计算机科
学国家重点实验室北京
100190
gKeyLaboratoryofHuman-ComputerInteraction,
Copyright©博看网. All Rights Reserved.
866
自动化学报
44
卷
情绪时
,
用户头部始终位于正面或近正面
,
并且没有
受到人脸局部遮挡的影响
.
然而
,
这样的限制条件显
著降低了表情识别算法的鲁棒性
.
此外
,
一些方法直
接对用户施加约束
,
学习用户相关的表情特征
.
这种
特征对用户身份信息非常敏感
,
因而对未知用户的
鲁棒性较差
.
一个可靠的表情识别系统应当对人脸
局部遮挡和用户身份具有较强的鲁棒性
,
即能够对
存在遮挡的人脸图像进行用户无关的表情识别
.
人脸表情识别算法通常需要直接从图像中提取
可用于推断表情类别的特征
,
然而当人脸局部遮挡
存在时
,
大多数表情特征的有效性和准确性会因遮
挡而降低
.
通过图像合成方法还原遮挡图像
,
然后再
进行表情识别
,
是缓解该问题的一类有效方法
.
一
些研究者为已对齐的人脸图像建立稀疏编码
,
通过
图像重构来实现遮挡还原
[5]
.
这种方法假设在相同
图像中能够找到相似的模式
,
然而对于人脸表情图
像
,
图像重构不能为遮挡区域恢复充分的表情信息
,
因为人脸中的不同部分均含有反映用户身份和表情
状态的独特模式
,
难以简单地通过组合其它图像部
分来得到
[6]
.
另一方面
,
随着卷积神经网络
(Convo-
lutionalneuralnetworks,CNN)
在图像分类任务
上的突破
[7]
,
许多基于
CNN
的表情识别方法被提
出
,
弥补了传统方法在鲁棒性方面的不足
[8−11]
.
对
于局部遮挡问题
,
一些研究者提出使用
CNN
建立无
监督学习模型
,
通过编解码网络从遮挡图像中学习
特征编码
,
在完成保留身份和表情特征的图像合成
或变换之后
,
再进行表情识别
[12−15]
.
另外一些研究
工作使用生成式对抗网络
(Generativeadversarial
net,GAN)
[16−17]
,
先局部或完整地生成保持上下文
一致性的人脸图像
,
然后再对其进行识别
[6]
.
在基于
GAN
的方法中
,
生成器网络
(Generator)
尽可能生
成真实的人脸图像
,
判别器网络
(Discriminator)
尽
可能辨别面部遮挡区域被补全后的图像真实性
.
提取表情的本质特征是表情识别算法有效性的
关键
.
表情特征应对表情变化丰富的区域具有较高
的响应
,
对身份相关性高而表情相关性低的区域具
有较低的响应
.
用户相关的表情识别算法能够比较
准确地识别在训练时出现过的用户的表情
,
然而实
际当中的用户身份是难以限定的
.
由于对未知用
户的泛化能力较差
,
这种方法很少被单独使用
.
与
此不同
,
用户无关的表情识别方法对用户身份不敏
感
,
它通过稀疏编码
[18]
,
差分图像
[19]
以及图像融
合
[20]
等方法对表情图像中的用户身份特征进行抑
制
,
然后再识别表情
.
随着
VGG
[21]
,GoogLeNet
[22]
和
ResNet
[23]
等
CNN
模型的广泛应用
,
表情识别
算法能够以数据驱动的方式从表观信息中提取用户
无关的表情特征
.
尽管如此
,
直接使用
CNN
对表情
图像数据进行特征提取的方法仍然受到类内差异的
限制
,
从而难以获得期望的性能
.
在同种表情的图像
样本之间
,
用户身份和图像采集条件等表观差异带
来了表情的类内差异
,
容易导致表情特征的可辨别
性不够鲁棒
.
为此
,
展示了一种通过抑制类内差异信
息来突出表情特征的学习方法
,
能够使用
CNN
自
动地提取用户无关的表情特征
.
本文提出了一种鲁棒的人脸表情识别方法
,
能
够以用户无关方式识别具有局部遮挡的人脸表情
.
基于
WassersteinGAN(WGAN),
训练了一个稳定
的人脸图像生成网络
,
然后使用遮挡图像集优化网
络的输入隐变量
,
对遮挡区域进行保持上下文一致
性的人脸图像补全
.
对无遮挡图像和遮挡补全图像
,
在表情识别任务和身份识别任务之间建立了一种对
抗关系
,
通过在表情特征提取过程中抑制由身份信
息导致的类内差异来提升表情识别的准确性和鲁棒
性
.
本文的主要贡献
:1)
提出了一种基于
WGAN
的人脸图像补全算法
,
能够以生成方式近似还原被
遮挡的人脸图像
,
缓解因局部表情信息缺失带来的
影响
,
提高识别算法的鲁棒性
.2)
提出了一种新颖
的表情特征学习方法
,
通过在表情信息和身份信息
之间建立对抗关系来抑制身份特征对表情特征的影
响
.
该方法能够有效地消除类内差异带来的影响
,
从
而提高表情识别的准确性和鲁棒性
.3)
展示了一种
联合的表情识别算法框架
,
在多个基准表情数据集
上取得了准确的表情识别结果
,
并且能够对
45
◦
头
部旋转范围以内的非正面人脸图像进行用户无关的
表情识别
.
1
相关工作概述
1.1
生成式对抗网络
生成式对抗网络
(GAN)
是一种无监督的概率
分布学习方法
,
能够学习真实数据的分布并生成具
有较高相似性的新数据集
.
设置隐变量
z,
生成器
网络能够将它映射为新的图像集合
,
然后由判别器
网络度量真实图像分布与生成图像分布之间的相似
性
.
判别器网络通过调整自身参数使其分类面远离
生成图像分布
,
直到最终输出随机判别结果
,
即无法
区分生成图像和真实图像
.
当真实分布和生成分布
之间没有交集时
,
使用
Jensen-Shannon(JS)
散度
度量概率分布距离的经典
GAN
模型
,
由于不能获
得稳定的回传梯度信息而难以训练
.Radford
等
[24]
提出了使用具有卷积和反卷积对称结构的
DCGAN
模型
,
加强了
GAN
训练的稳定性
,
但仍然使用
JS
散度作为概率分布的距离度量
.
与此不同
,Arjovsky
等
[25]
提出了
WassersteinGAN
模型
,
采用
Wasser-
stein
距离来度量两个概率分布之间的相似性
,
缓解
Copyright©博看网. All Rights Reserved.
5
期姚乃明等
:
基于生成式对抗网络的鲁棒人脸表情识别
867
了
GAN
训练过程中梯度消失的问题
.WGAN
模型
的损失函数值为生成的图像质量提供了量化标准
,
更小的损失值意味着生成的图像更加真实
.
此外
,
在
训练
WGAN
时
,
不用小心地平衡生成器网络和判
别器网络的训练进程
,
而是可以采用先优化判别器
网络直到收敛
,
然后再更新生成器网络的方法
,
以使
整个网络更快收敛
.
为了能够将生成的补全图像直
接用于人脸表情识别
,
本文基于
WGAN
建立人脸
图像补全网络
.
1.2
人脸图像补全
局部遮挡使得人脸图像损失了一部分表情信息
,
妨碍了识别算法对表情的推断
.
通过对遮挡区域中
的图像信息进行估计
,
能够尽可能还原缺失的表情
信息
.
从图像编辑的角度
,Ding
等
[26]
和
Li
等
[27]
使
用人脸对称位置上的像素对遮挡部分进行填充
,
但
补全后的图像不够自然
.Zhu
等
[28]
使用人脸对称
位置上的像素梯度对缺失部分进行泊松编辑
,
可以
令补全部分的肤色和光照更加自然
.
从图像生成的
角度
,
人脸图像补全可以被形式化为概率分布的学
习问题
.
每一个像素的取值都可以被认为是在图像
概率空间中的一次抽样
,
而生成图像的过程则是从
所有像素的联合概率分布中进行一次采样
.
由于邻
近的像素之间存在较强的上下文语义关联
,
补全图
像需要保持与真实图像一致的身份和表情上下文
.
Pathak
等
[29]
提出了一种基于
CNN
的图像上下文
信息编解码网络
,
能够联合图像遮挡部分和未遮挡
部分来补全图像
.Yeh
等
[30]
提出了一种针对大范围
图像补全问题的
GAN
模型
.
通过向生成器网络中
增加未遮挡部分的上下文损失和服从训练集分布的
先验损失
,
该方法能够补全不同遮挡区域中的图像
内容
.Li
等
[6]
提出了一种基于自编码器的生成式人
脸补全算法
,
通过增加人脸语义对象
(
例如五官
)
的
损失来增强生成图像的真实性
.
本文通过优化图像
真实性
,
上下文相似性和平滑性目标
,
控制图像生成
网络估计遮挡区域内的像素分布
,
从而补全缺失的
图像信息
.
疏表示来提取用户无关的表情特征
.Zafeiriou
等
[19]
通过待识别表情图像和相同身份的中性图像之间的
差分图像来抑制身份特征
,
但只限于能够预先获取
当前身份中性图像的情况
.Lee
等
[31]
为每类表情
的图像构造与待识别表情图像具有相似身份的图像
,
然后通过在二者之间进行差分来抑制类内差异
.
基
于稀疏表示的方法对训练表情数据有较高的要求
,
并且在数据量较大的训练集上难以直接求解
.
受到
以上工作和对抗网络的启发
,
本文以多任务学习的
方式
,
在表情识别任务和身份识别任务之间建立一
种对抗关系
,
使其能够区分表情特征和身份特征
,
从
而提取到更本质的表情特征
.
2
基于
WGAN
的人脸图像补全
本文提出的鲁棒人脸表情识别方法由人脸遮挡
图像补全和表情识别两个阶段组成
,
如图
1
所示
.
1)
训练一个基于
WGAN
的人脸图像生成网络
,
对
输入图像中由二值掩码矩阵标记的遮挡部分进行
补全
,
如图
1
中上半部分所示
;2)
训练一个基于
VGG16
[21]
的卷积神经网络对补全图像进行人脸特
征提取
,
然后采用对抗学习策略
,
提取用户无关的表
情特征并推断表情类别
,
如图
1
中下半部分所示
.
本
节介绍人脸图像的补全方法
,
下一节介绍用户身份
抑制的表情识别方法
.
2.1
人脸图像补全网络
补全局部遮挡的人脸图像可以转化为保持上下
文一致性的图像生成
.
首先建立一个能够产生人脸
图像的
GAN
网络
,
然后使用该模型生成与遮挡图
像最相似的图像
,
再用它填充遮挡区域
.
生成器网络
产生与真实图像集最相似的人脸图像
,
然后由判别
器网络通过
Wasserstein
距离度量生成图像集的真
实性
.
生成器网络使用核大小为
5
像素
×5
像素的
卷积层对隐变量
z
进行上采样
,
将输出通道数逐层
缩减为前一层的一半
,
同时
featuremap
的尺寸扩
大为原来的
2
倍
.
除第一层卷积外
,
在其余各卷积层
后增加
BatchNormalization(BN)
层
[32]
防止协变
量漂移
(Covariateshift).
使用
ReLU
[33]
作为各卷
积层的激活函数
.
判别器网络与生成器网络保持对
称结构
,
以加快模型参数在对抗训练过程中的收敛
速度
.
Wasserstein
距离的定义为
1.3
用户无关的表情识别
在同类表情的不同用户数据之间往往存在着较
大差异
,
提取不受这些差异影响的表情特征关系到
识别算法的鲁棒性
.
一些工作通过对二维图像或三
维头部模型进行融合来获得用户无关的表情表示
.
Chen
等
[20]
将身份不同但表情相同的图像进行融
合
,
得到一种用户无关的表情表示
,
弱化了身份特
征
,
增强了表情特征
.Zhu
等
[28]
将三维头部模型分
解为中性模型
,
身份模型和表情模型
,
将身份和表情
的类内差异通过两种形变模型进行分离
,
但没有考
虑表情与身份之间的关联
.
另一些工作尝试通过稀
W(p
r
,p
g
)=
γ∼Π(p
r
,p
g
)
infE
(x,y
y
)∼γ
发布者:admin,转转请注明出处:http://www.yc00.com/web/1714493141a2457089.html
评论列表(0条)