题目:MSA-GCN: Multiscale Adaptive Graph Convolution Network for Gait Emotion Recognition
期刊:Pattern Recognition
作者:尹云飞1、景莉1、黄发良2*、杨广超1、王卓炜3
单位:1重庆大学、2南宁师范大学、3联邦科学与工业研究组织(CSIRO)
论文链接:https://www.sciencedirect.com/science/article/pii/S0031320323008142
摘要
现有的情绪识别使用基于骨架的步态情绪感知广泛采用时空图卷积网络(ST-GCN)。这一方法通过关注随时间推移的局部行为来识别情绪,其关键是有效建模时序信息和鲁棒的步态情绪表征。然而,现有的方法具有一定缺陷。第一,提取时序信息手段生硬,其采用固定卷积核等方式提取特征的策略忽略了不同情绪在时间维度上的有效距离是不一样的。第二,在全局-局部关系建模中,侧重关注局部信息,忽略了全局特征在表征情绪上的作用。该论文针对上述问题提出了一种多尺度自适应图卷积网络(MSA-GCN, MultiScale Adaptive Graph Convolution Network)。该模型由自适应选择时空图卷积(ASST-GCN)和跨尺度映射交互机制(CSMI)组成。ASST-GCN利用注意力机制动态选择卷积核进行特征提取,得到不同情绪的时空特征;CSMI构建自适应邻接矩阵,实现多尺度信息的融合。经过详细的分析比较和对各种不同网络参数的多次实验,结果表明,MSA-GCN在两个公开数据集中,相比其他步态情绪识别的方法具有明显的优势。且在Emotion Gait数据集上,MSA-GCN的mAP高出了2 %。
表1 MSA-GCN在Emotion Gait数据集上的性能对比
方法
1.框架
MSA-GCN的框架如图1所示。它包含数个自适应选择时空图卷积网络 (ASST-GCN) 模块和跨尺度映射交互机制 (CSMI) 模块,用于在多尺度初始化后从骨架序列中提取特征,并在最后输入全连接层和 softmax 分类器。ASST-GCN和CSMI的交叉部署可以同时捕获复杂的区域时空相关性和动态时空依赖关系。在MSA-GCN中,图像首先通过初始化三维骨架序列来构建不同尺度的骨架图。骨架图输入堆叠块后,由堆叠块内的ASST-GCN模块提取图像中不同尺度的空间和时间特征。这些特征由CSMI进行融合,以实现不同尺度特征的交互。随后不同尺度的特征图通过注意力机制融合成一个尺度,输出堆叠块,随后由堆叠块外的ASST-GCN模块进行整体时空特征提取。最后,经过全连接层和softmax输出最终分类结果:happy、sad、angry或neutral。
图1 MSA-GCN的整体框架
2. 自适应选择时空图卷积(ASST-GCN)
ASST-GCN用于对不同尺度进行时空特征提取。视频数据在时间维度上具有极其复杂的动态特性,不同情绪的步态在时间维度上包含不同的运动模式。如果所有视频数据共享相一个卷积核,采用同样的感受野,会导致提取情感相关的特征时缺乏足够的表达能力。ASST-GCN使用了一种多卷积核自适应融合机制,每个样本都有不同的感受野,可以更有效地提取不同情绪的时间信息。ASST-GCN由两个组件组成,即GCN(空间图卷积网络)和AS-TCN(自适应选择时间卷积网络)。在图2中,浅绿色方块表示GCN,橙色和棕色方块表示两个不同卷积核的时间卷积,GAP表示全局平均池化,FC表示全连接层。GCN是一种传统的图卷积操作,用于提取空间域中的信息。AS-TCN用于提取时间信息。AS-TCN在普通的时间卷积的基础上使用具有不同卷积核的TCN1和TCN2。通过全局平均池化、全连接层、softmax并加权求和,产生自适应感受野,提取不同层次的特征,实现时域特征的自适应选择和融合。最后通过残差连接加速收敛,并缓解图卷积的过度平滑。
图2 自适应选择时空图卷积(ASST-GCN)
3. 跨尺度映射交互机制(CSMI)
不同尺度的信息处理可以相互帮助。例如,以骨骼表示人类步态时,在手和肘的动作中的情绪信息可用于分析隐藏在手臂运动中的情绪模式。CSMI可以通过在两个相邻尺度之间构建邻接矩阵,将特征从一个尺度转换为另一个尺度。据此,CSMI建立不同图中不同关节之间的对应关系,使不同尺度的信息在特征提取过程中能够交互。例如,图3(b)中的节点2可以映射到图3(a)中的节点4和5。
图3 不同尺度特征的交互
CSMI的基本步骤如图4所示。将两个不同尺度的特征X和Y输入CSMI,最终可以获得具有特征Y交互信息的增强特征X。特征X和Y是ASST-GCN的两个不同尺度的输出。首先通过注意力机制分别增强X和Y的局部空间特征,以更有效地捕捉不同情绪的特征。随后,受推荐系统中因式分解机模型(the factorization machine model in the recommender system)的启发,CSMI对X和Y进行内积计算和一次softmax计算,获得X和Y之间的对应关系,即邻接矩阵。使用邻接矩阵可以实现X和Y两个尺度间的信息交互,同时避免一些信息融合带来的冗余。最后,邻接矩阵与原始特征进行图卷积运算,输出多尺度信息融合后的特征。
图4 CSMI的工作原理
实验结果
1. 数据集
本文采用两个公共数据集来验证该方法的有效性。
第一个数据集是Emotion-Gait-16数据集,该数据集由2177个真实步态序列组成,分别标注为happy、sad、angry和neutral四种情绪类别。其中的步态被定义为有16个节点的模型,步态序列的步长统一为240。
第二个数据集是Emotion-Gait-21数据集。该数据集由1835个真实步态序列组成,由10位注释者提供情感标签,分别标注位happy、sad、angry和neutral。其中的步态被定义为21个节点的关节姿态模型,步态序列的步长统一为48。
评价标准包括准确率、精密度、召回率和F1分数。
2.实验结果
本文将MSA-GCN与有关步态情绪识别的几种最先进的方法进行了比较。为了进行公平的比较,所有模型使用同样的数据集划分策略从头进行训练,并使用相同的评估方法。
在Emotion-Gait-16上的结果如表2所示。最先进的步态情绪识别(GER)方法包括基于序列的方法[16,17]、基于图像的方法[1]和基于图的方法[19,37]。可以看出,MSA-GCN在happy、angry、neutral和平均准确率上都取得了更好的性能,准确率高出0.02-0.05左右。而sad的准确率与效果最好的方法差距仅有0.01左右。在精密度、召回率和F1方面,MSA-GCN都有0.1左右的较大性能提升,这意味着该方法对正样本的分类能力非常优秀。与 AR 和 SGR 方法的比较则可以证明该方法更关注步态到一组情感标签的映射,而非与动作的映射。在happy和angry上,MSA-GCN都取得了最好的结果,这比其他的最佳结果高出约 0.005。在sad和neutral上,性能差距也较小。neutral仅比最佳的方法低约 0.005。该方法的平均准确率是所有方法中最高的,这证明该方法比使用 AR 建模更能找到以情感为中心的映射。在精确度、召回率和 F1 方面,MSA-GCN都取得了优势,并且都达到了 0.8 以上。特别是与2S-AGCN[50]和MS-G3D[45]相比,虽然这两种方法在单类中具有最高的精度,其他类的精度也较高。然而,与2S-AGCN相比,MSA-GCN的分类能力更好,受不平衡数据的影响较小。这充分证明了MSA-GCN的优越性。
表2 在Emotion-Gait-16数据集上的性能对比
在Emotion-Gait-21上的结果如表3所示。与最先进的情绪识别方法相比,MSA-GCN在sad和平均准确度上取得了最佳的性能,其准确率提高了约0.02-0.03。该方法在精密度、召回率和F1方面也均有较大提升,提升幅度约为0.1,这意味着该方法对正样本的分类能力非常优秀。表3还显示了该方法与 AR 和 SGR 方法的比较结果。在happy、angry、neutral和召回率上,它没有得到最好的结果。但精度仅比最佳方法低约 0.002-0.015。MSA-GCN的平均准确率是所有方法中最高的,这证明该方法更能关注情感的情绪映射。在准确度和F1上,该方法都表现出最优的性能,达到了0.78以上。虽然召回率没有达到最高,但差距并不显著。有些方法在单个种类的准确度上较高,但在精密度、召回率和F1上明显偏低,这表明这两种方法只是对某一类别的情感有更强的偏好,因此仅单个类别表现出较高的准确率。根据表2-3中给出的结果,GER方法在两个数据集上的准确性都偏低。这可能是由于不同情绪下出现相似了的局部动作。这证实了MSA-GCN对全局信息的考虑是必要的。图5显示的混淆矩阵,证明了MSA-GCN的鉴别能力。两个数据集上每个类的分类器准确率均大于 80%,这表明分类器在两个数据集上对每个种类的识别同样优秀。
表3 在Emotion-Gait-21数据集上的性能对比
图5
(a)MSA-GCN在Emotion-Gait-16上的混淆矩阵 (b) MSA-GCN在Emotion-Gait-21上的混淆矩阵
表4显示了最先进的GER方法的模型参数。不同方法的模型参数数量差异很大。虽然LSTM方法的模型参数最少,但准确率不高,其准确率在不同数据集之间差异很大。而MSA-GCN为了稳定的高精度而引入了多尺度融合机制,模型架构更复杂,因此参数量较大。
表4 各模型参数量对比
3.可视化
为了证明所提方法的鲁棒性和局限性,可视化结果如图6所示。
图6(a)显示了在难以分类的样本下MSA-GCN和G-GCSN(GER性能方面的最佳竞争对手)的可视化。上半部分显示了G-GCSN的分类错误,这些给出的样本具有鲜明的特征。这些样本不直接面向相机,而是与相机有一定的倾斜角度(第一个样本除外),这类样本的关节点容易重叠遮挡最能表现情感的肩膀。比较悲伤和愤怒样本,由于行走的关节点重叠,上肢趋于相同,这可能是G-GCSN将愤怒样本归类为悲伤标签的原因。图6(a)的下半部分显示了MSA-GCN的分类错误,可以看出,在错误的分类中,样本往往被归类为happy、sad和neutral。因为愤怒时四肢的运动特征较为明显,MSA-GCN能有更稳定的性能。图中4个样本被错误分类,原因可能是这些样本表达情绪的步态相对克制,骨架上的姿势塌陷程度和摆手幅度较小,因此网络可提取的判别特征过少。
图6(b)显示了两种情绪具有相同局部动作的情况。由于步态本身的相似性,不同情绪的局部运动在某些帧中表现出了相似性,这种状况在下肢运动中尤其明显。
图6 可视化分析
总结
本文的主要贡献有以下三点:1)提出了一种新颖的多尺度自适应图卷积网络MSA-GCN来提取多尺度的情绪特征,并实现对快乐、愤怒、悲伤和中立等离散情绪的有效感知。2)设计自适应选择性时空图卷积网络(ASST-GCN)和跨尺度映射交互机制(CSMI)两个关键组件提取时空特征,增强信息交互,减少冗余。3)对基准步态情绪感知数据集的实验显示,MSA-GCN与大多数最先进的方法相比有显著的性能改进。
需要指出的是,由于行人的情绪波动相对较小,为了进一步提高情绪分类的准确度,未来的研究可能需要转向探索细粒度的情感特征。
该方法率先尝试利用多尺度和不同情绪的时域信息识别视频中行人的情绪,为基于步态的情绪识别的进一步研究奠定了基础。本文的工作可以使情感计算、计算机视觉和机器学习领域的研究人员受益,并可以为更复杂、更准确的基于步态的情绪识别系统铺平道路,在人机交互、行为预测、角色生成等方面带来更多便利。