中国中文信息学会

当前位置：首页 > 业内新闻

深度阅读丨一种联合峰值帧检测与原型注意力网络的微表情识别方法

来源：情感计算Affective Computing发布时间：2023-02-06

本工作由中国科学技术大学、西南科技大学和南洋理工大学联合完成。相关成果已被SCI一区国际期刊Neural Networks(NN)录用，论文信息如下：

论文标题：

ME-PLAN: A deep prototypical learning with local attention network for dynamic micro-expression recognition

期刊名称：

Neural Networks(NN)

论文链接：

https://www.sciencedirect.com/science/article/abs/pii/S0893608022002398

论文作者：

Sirui Zhao, Huaying Tang, Shifeng Liu, Yangsong Zhang, Hao Wang, Tong Xu, Enhong Chen, Cuntai Guan

01 引言

作为重要的心理应激微反应，微表情是一种快速发生（500ms以内）在人脸面部的微弱反应。由于能真实地反应个体的真实情感和意图，微表情识别在公共安全、临床心理、商业洽谈等领域都有重要的应用。

精准地检测微表情峰值帧对于微表情识别具有关键作用。因为基于峰值帧构造的微表情关键帧序列，能在充分保留微表情重要时空变化信息的同时，有效地避免原始视频中的冗余信息。现有的方法，大多采用数据集给定的人工事先标注的峰值帧进行微表情识别，具有主观性。此外，一些方法利用手工先验特征作为模型输入，但极为耗时，极大的限制了模型端到端的高效训练以及实时的应用部署。此外，微表情只发生在人脸局部区域，模型在学习的过程中还应该加强对人脸局部区域运动的关注。

为了解决以上挑战，同时受原型网络在小样本数据情景下有效的归纳偏置的启发，我们提出了一种联合峰值帧检测和原型注意力网络的微表情识别方法ME-PLAN。具体而言，ME-PLAN由3D残差原型网络和局部注意模块组成，其中前者旨在通过与表情相关的知识转移和情景训练来学习精确的ME特征原型，而后者可以提高模型对ME的局部面部运动的关注。此外，为了减轻当前MER方法对人工标注的顶点帧的依赖性，我们提出了一种具有单峰模式约束的峰值帧定位方法。然后，我们提取了基于峰值帧的关键帧序列来训练ME-PLAN。最后，通过大量实验和定性定量分析，我们验证了提出的峰值帧检测算法和ME-PLAN方法的有效性和优越性。

本工作由中国科学技术大学、西南科技大学和南洋理工大学联合完成。相关成果已被SCI一区国际期刊Neural Networks(NN)录用，论文信息如下：

02 预备知识

2.1 数据描述

本文使用了三个最流行的自发ME数据集及其复合数据库：SMIC-HS、 CASME II、 SAMM和3DB-Combined数据集。我们将上述数据集的所有ME样本被组合成单个复合数据集，从而将情绪类别简化为3类，即负面情绪(包括“压抑”、“愤怒”、“蔑视”、“厌恶”、“恐惧”和“悲伤”)、正面情绪(“快乐”)和惊讶。三种情绪类型的ME样本分布如下：

此外，本文使用的预训练数据集，是由CK+、Oulu-CASIA和DFEW 中相同类别的宏表情样本构建而成的。数据集包括六种情绪类别：愤怒(2698)、厌恶(684)、恐惧(1407)、快乐(2994)、悲伤(2402)和惊讶(2032)。

由于每个ME数据集的样本量很小，模型容易出现过拟合现象，因此我们也采用了数据增强技术来缓解这一问题。我们对每个ME样本进行了12种数据增强，包括对ME样本的每一帧提出的相同的亮度调整、对比度调整、5度内的随机旋转以及9个不同位置的裁剪等等。

2.2 原型网络

为了提升模型在小样本数据下的泛化能力和解决对应的过拟合问题，Snell等人提出原型网络（Prototypical Network, ProtoNet）学习一个度量空间，在该空间下，可以简单的通过计算每一个样本到每个原型的距离来进行分类。假设给定了一个带有C类标签的样本集，ProtoNet通过平均S中所有属于类别c的样本的嵌入特征，为每一个类别计算一个m维的原型：

其中，是嵌入函数，通过一个神经网络来将输入的样本映射到一个M维的嵌入特征空间；表示神经网络模型的学习参数。

而对于分类，当输入一个查询样本时，ProtoNet通过Softmax计算的嵌入特征相对于每个类别原型距离的概率分布，则样本属于第c类的概率如下：

其中，是距离度量函数，此处为Euclidean距离。并且通过极小化负对数概率获取最优的嵌入函数，其中负对数概率定义如下：

。

03 技术细节

本部分将介绍我们所提出的模型细节。如下图所示，我们的框架主要由数据预处理和微表情时空特征学习两部分组成。

图1 系统整体框架图

3.1 数据预处理

数据预处理主要为了获取高效简洁的微表情动态序列。本部分，我们首先提出一种基于单峰值模式限制（Unimodal Pattern Constraint, UPC）的峰值帧检测方法，并基于检测到的峰值帧以及时序自适应和均匀采样得到有效的微表情关键帧序列。图2展示了我们方法的整个流程，主要包括：人脸兴趣区域（Regions of Interest, ROIs）选择、光流运动特征提取、平滑滤波和基于UPC的峰值定位。

图2 基于UPC的峰值帧检测

1) ROIs选择。我们选择了左右眉毛、左右嘴角这四个区域作为我们的ROIs，具体的ROIs区域如图3所示。

图3 选定的ROIs及关键点信息

2) 光流运动强度估计。我们通过Farneback光流法来计算ROI中的稠密光流以得到微表情的变化情况，并得到了光流向量幅值变化曲线。

图4 微表情光流幅值曲线图

3) 平滑滤波。我们使用Savitzky-Golay平滑滤波算法对幅值变化曲线进行滤波。

具体地，假设我们要对时刻t进行滤波，滑动窗口大小取为2n+1，即从t−n到t+n每间隔一个单位时间取一个点进行拟合。为了起到平滑的效果，窗口大小2n+1应大于选择的多项式次数k。那么对于时刻t的光流强度我们可以得到拟合方程：

对于其他2n个点我们也可以同样得到2n个方程，记为：

，，，

那么整体方程组可以记为。由于方程数量大于多项式次数，因此我们需要用最小二乘法求解一个最优拟合多项式，即求解最优的多项式系数向量。由最小二乘拟合的理论，最优的如下式所示：

图5 平滑滤波前后效果对比

4) 基于UPC的峰值定位。我们使用UPC来消除噪声峰值的干扰。具体地，我们的首先找到曲线上所有局部极大值点组成候选峰值帧集合C，其定义如下式所示：

其中是平滑滤波后的第i帧的光流运动强度。随后，我们对每个候选点i向两侧对称地进行扩展，以寻找以它为中心的最大单峰模式区间，即寻找最大的整数，并且满足如下条件：

其中j表示i的单峰模式区间中的任意一点。那么根据上述定义，第i帧的单峰模式区间宽度为。在得到候选点的单峰模式区间宽度后，为了消除全局背景噪声和局部偶然噪声的干扰，我们引入了区间宽度限制对候选峰值帧进行过滤。合法的候选峰值帧的单峰区间宽度应该满足如下限制：

其中是整个微表情片段的长度，是可以调整的超参数。最后，在通过上述流程过滤后剩余的候选峰值点中，我们选择其中光流强度最大的点对应的一帧作为预测的峰值帧。

图6 UPC示意图

3.2 时空微表情特征学习

在数据预处理后，本文提出了一种基于原型注意力学习的微表情识别框架ME-PLAN，进行微表情时空特征提取，并且为了增强模型对局部人脸微表情运动的关注，我们在模型中加入了局部空间注意力机制。ME-PLAN利用三维残差原型注意力网络（3D-RPLAN）进行微表情时空特征提取，并结合了表情相关的知识迁移（Expression-related Knowledge Transfer）和情景训练（Episodic Training）学习显著的微表情特征和微表情原型。微表情时空特征性学习的整体框架如图7所示。

图7 ME-PLAN

在进行微表情原型学习时，我们利用3D-RPLAN将每个输入的微表情序列映射到微表情特征空间，并且平均训练集中每个类别的微表情样本对应的嵌入特征作为微表情原型。对于模型分类，我们不需要利用带大量学习参数的全连接层进行推理，而是为每个输入的样本，在微表情嵌入空间上寻找与之最为接近的微表情原型，对应输出与之关联的类别。

1) 3D-RPLAN模型。3D-RPLAN模型结构主要根据3D ResNe-18改造而来，由三个主要的模块组成，分别是前级的3DCNN模块，中间的3D残差模块和最后的自适应池化层。

表1 3D-RPLAN模型的网络参数

2) 局部空间注意力模块。我们的局部空间注意力模块由两个带很小局部空间感受野(3x1x1)的三维卷积组成。假设表示第i个残差层的第二个残差块输出的全局时空特征，那么第i个残差层的局部空间注意力权重可以通过sigmod激活映射得到：

表示局部空间注意力模块的参数。且拥有和输入特征一样的维度，并且的表示如下：

其中代表带学习参数的Res_block_i_1，代表带学习参数的Res_block_i_2，表示第一个三维卷积块之后得到的全局时空特征。在获取得到注意力激活权值之后，我们可以得到注意力激活后的特征，表示element-wise的乘法。

3.3 训练策略

我们先使用大规模的动态人脸宏表情数据样本训练3D-RPLAN得到表情相关的知识，然后迁移到目标微表情识别上, 并利用插曲训练来获取显著的、易区分的时空微表情特征，同时计算得到精确的微表情原型。训练算法描述如下：

04 实验结果

首先，我们将本文提出的使用UPC的峰值帧定位方法与一些SOTA的峰值帧定位方法进行了对比，结果如下：

实验结果证实了本文提出的使用UPC的峰值帧定位方法的有效性[MM1]。此外，我们进一步探讨了模型对局部偶然噪声和全局背景噪声的处理效果。从下图这两个带有极端噪声的例子中可以看出，我们的算法在噪声干扰下仍然具有鲁棒性和有效性。

同时，我们将ME-PLAN的识别性能与当前最先进的方法进行比较，结果如下：

可以看出，ME-PLAN在CASME II和复合数据集上取得了最好的识别性能，这清楚地证明了ME-PLAN的有效性[MM2]。此外，我们比较了原型学习策略与一般监督训练策略的识别精度。结果证实，在ME样本稀少的情况下，原型学习策略可以显著提高识别精度。

同时，我们使用t分布随机邻居嵌入(t-SNE)，来投影和可视化部分受试者通过两种学习策略获得的ME特征分布。结果证明，就不同类之间的可区分性和同一类内聚类的紧密性而言，原型学习策略优于一般监督策略。而且，我们还发现，原型学习策略在各被试的验证结果中取得了良好的一致性。

此外，我们还对模型的局部注意模块做了消融实验。结果显示局部注意模块对于最后的结果有提升作用。

[MM3]

05 总结

在本文中，我们探索了针对 MER 问题的深度原型学习，并尝试解决该主题中的三个挑战，即模型训练缺乏足够的 ME 样本、ME 转瞬即逝且仅出现在局部面部区域、和难以准确定位峰值帧。其次，我们提出了一种新的深度原型学习框架，即 ME-PLAN，使用带有情景训练的 3D 残差原型网络和局部注意力模块，从不充足的 ME 数据中学习精确的 ME 特征表示，并促进模型对局部 ME 运动的关注。然后，为了有效消除噪声干扰，准确定位峰值帧，我们提出了一种基于单峰模式约束的峰值帧定位方法。最后，实验结果证明了ME-PLAN 在峰值帧定位和 MER 任务上的有效性。此外，我们还通过消融研究和可解释分析，进一步证实了每个组件的有效性以及峰值帧定位方法对数据噪声的鲁棒性。

附：PRAI 2023 “智能情感计算和人机交互系统”专题论坛征稿

情感分析是人工智能不可或缺的重要因素之一。作为智能人机交互的基石，情感分析主要着眼于理解潜藏于文本、视频、表情、手势、姿态等信息中的情感因素。近年来，随着深度学习技术的发展，智能情感分析技术已成为人际交互中的热门话题。作为入选IEEE支持官方列表的知名学术会议，第六届模式识别与人工智能国际会议（PRAI 2023）将于今年8月于海口召开。在本次会议上，我们受邀组织了“智能情感计算与交互系统”专题论坛，旨在邀请本领域专家、学者和专业技术人员，共同分享和交流情感计算相关的最新技术进步。

本次专题论坛所涉及的主题包括并不限于以下内容：

 Sentiment and emotion analvsis

 Facial expression or micro-expression analysis

 Emotionally driven Al virtual digital human

 Personalized human-computer interaction system

 Human body motion and gesture based interaction

 Multi-modal Emotion Recognition and Sentiment Analysis

PRAI 2023 现已进入IEEE支持官方列表，所有文章将由程序委员会严格审稿，包括分论坛在内的所有录用文章将以PRAI2023论文集形式由IEEE出版，并由在线数据库收录，被EI Compendex 和Scopus检索。

投稿截止日期	2023.3.25
论文通知时间	2023.4.25