Press "Enter" to skip to content

AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型

©PaperWeekly 原创 · 作者|Chen Ma

 

学校|清华大学

 

研究方向|人脸识别和物体检测

 

这篇论文率先利用先验知识和物体检测技术做 Action Unit 人脸表情识别,在 BP4D 和 DISFA 两个数据库达到了 SOTA 的实验结果:BP4D 数据库的 F1 score 63%。

 

 

论文标题: AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection

 

论文链接: https://arxiv.org/abs/1812.05788

 

代码链接: https://github.com/sharpstill/AU_R-CNN

 

 

介绍

 

FACS (Facial Action Coding System) 是人脸国际标准组织定义的 44 种人脸运动单元(AU),这些运动单元可以组合表示人脸表情所有可能的表情(包含皱眉,抿嘴等),AU 是组成人脸表情的基石。

 

本论文中所谓的人脸 AU 检测的任务是指:识别一段视频中每一帧图像的人脸上出现哪些 AU。因为 AU 只是面部肌肉的细微运动,而且不同的面部肌肉运动幅度大小不同,所以 AU 检测任务具有挑战性。AU 检测在测谎仪、汽车驾驶辅助系统(探测是否驾驶员瞌睡)等有重要应用。

 

 

▲ 图1. Action Unit 的例子

 

图 1 是 Action Unit的例子,关于 Action Unit 的表情到底定义了怎样的细微的面部表情。以下链接 提供了动画演示,读者可以自行观看。

 

https://imotions.com/blog/facial-action-coding-system/

 

总结一下已有方法的缺点:

 

1. 已有的方法虽然提出了 AU center 的概念作为 AU 发生的重要区域,并被定义为人脸关键点的附近,这种定义粗糙而位置不精确。AU 发生在人脸肌肉运动的特定区域,但不一定是某个 landmark 附近。

 

2. 已有的研究使用 CNN 去识别整张脸的图像,而非局部区域的 AU。

 

3. 人脸 AU 识别是一个多 label 的分类问题,这种多 label 的约束可以被限制在更细的粒度上:人脸的局部区域上,从而达到更高的精度。

 

 

方法

 

AU R-CNN 的方法框架如图 2 所示,AU 检测最困难之处在于人脸的五官大小不定,每个人长相不同,而且发出的表情的位置也不相同,这种难题之下如何检测呢?

 

本文站在前人的肩膀上,利用人脸关键点!人脸关键点提供了丰富的人脸位置信息,若能充分利用,则消除了五官的差异,更能细微精确地检测 AU。所以该框架首先将人脸划分成不同的区域,每个区域独立地进行检测,如图 2 所示:

 

 

▲ 图2. AU R-CNN方法的整体概览框架

 

首先用 landmark 将人脸的 68 个关键点定位,再依照不同区域 ROI 独立检测,最后将每个 ROI 的检测汇总,便得到了全脸的检测结果!

 

 

▲  图3. 关键点和面部分割图

 

为了利用这些关键点的信息和 AU 的定义,本文引入了专家先验知识的概念,AU R-CNN 方法将 AU 与其相关的人脸区域的划分定义为专家知识,提出了 AU partition rule 的规则。该规则如表 1 所示:

 

 

▲  表1. AU partition rule(也即专家先验知识)

 

AU partition rule 将不同的 AU 分组,同一个位置区域发生的 AU 被分为一组,比如都是眼睛部位的 AU,所以诞生了 AU group 的概念。(表 1 左),由此全脸被划分成九个区域,每个区域是一组 ROI 表示,最后本文使用该 ROI 的最小外包矩形来表示该 AU group 区域,如图 4 所示。

 

 

图4. AU group和其外包矩形,之后这些矩形被送入R-CNN的检测头

 

另外一个难题在于即使同一个区域也可能发生多个 AU 的表情出现,因此本文使用了 sigmoid cross entropy 的损失函数来计算损失并反向传播优化网络参数:

 

 

 

图5. AU R-CNN 整体网络结构图,左侧由先验知识截取出不同区域的 bounding box,右侧是检测头去分别检测,与此同时,ground-truth label 也被按照不同区域分割了,最后计算 sigmoid cross entropy 损失

 

 

AU R-CNN扩展

 

AU R-CNN 可以被作为一个基础框架产生出来很多扩展和变种,这是由于视频的先后帧之间有时间顺序关系,所以可以使用 ConvLSTM 建模先后帧之间的关系。如下图所示,每个部位的小 box 被单独的时间轴建模,用一个独立的 ConvLSTM 去建模并学习。

 

 

但是在具体实验中,作者发现这种利用上下帧的建模方法效果不是很好,甚至总体的平均 F1 score 不如单帧检测。作者在实验部分也分析了其中的原因。

 

另外除了 ConvLSTM 这种时空卷积,还可以使用双流法等其他方法进行扩展,总体如下表:

 

 

 

实验

 

实验在 BP4D 和 DISFA 两个数据库上进行,该文的实验部分值得称道的一点是,作者采用了标准的 AU R-CNN,并在 ResNet-101 和 VGG-16、VGG-19 几个网络上进行测试:

 

实验结果如下,可以看到 AU R-CNN 结合 ResNet-101 的 backbone 取得最佳的实验结果:

 

 

 

剥离实验中,主要探究这种局部检测到底比标准的 CNN 那种全脸检测效果好多少,所以在不同分辨率下与标准 CNN 也进行了比较:

 

 

DISFA 数据库都是连续的表情视频,实验结果如下:

 

 

 

最后,作者总结了不同的 AU R-CNN 扩展及其适用范围:

 

 

 

总结

 

在本文中,作者研究了如何将先验知识融合进 R-CNN 这种物体检测框架,并使用 RoI pooling 层在每个位置分别检测,丰富的实验证明了该做法的有效性,也取得了 State-of-the-art 的实验结果。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注