Arxiv:MERBench——面向多模态情感识别的评估基准
论文链接:https://arxiv.org/pdf/2401.03429.pdf
代码链接:https://github.com/zeroQiaoba/MERTools
论文作者:连政1、孙立才1、任勇1、顾浩1、孙海洋1、陈岚1、刘斌1、陶建华2
单位:1中国科学院自动化研究所,2清华大学
引言:
多模态情感识别在增强人机交互体验方面发挥着至关重要的作用。在过去几十年里,研究人员提出了一系列算法,并取得了令人瞩目的进展。尽管每种方法都表现出卓越的性能,但由于特征提取器、评估策略、实验设置等方面的不同,导致不同方法之间缺乏公平的比较,阻碍了该领域的发展。因此,我们构建了MERBench,一个用于多模态情感识别的统一评估基准。我们的目标是验证先前工作中一些重要技术的作用,例如特征选择、多模态融合、鲁棒性分析、微调、预训练等。基于MERBench的评估结果,我们进一步指出一些可待探索的方向。我们希望后续研究人员在与MERBench相同的实验设置下评估其算法的优越性,以便于公平比较。
数据集:
MERBench涉及多个主流的多模态情感数据集,包括IEMOCAP、MELD、CMU-MOSI、CMU-MOSEI、CH-SIMS、CH-SIMS v2、MER-MULTI。
单模态评估基准:
单模态评估基准包含了目前主流的特征提取器。特征提取器的介绍详见原始论文。评估结果如下所示:
(1)对于视觉模态,尽管不同数据集的最佳视觉特征不同,但是最佳特征一致地来自于弱监督或自监督模型。这表明弱监督或自监督模型能够学习通用的视觉表示,这些表示对于情感识别也是有用的。值得注意的是,当前的视觉编码器通常是在动作识别数据集(例如Kinetics-400)或图像数据(例如LVD-142M)上进行训练。一个启发性的想法是将模型在以人为主的视频上进行训练,以缩小领域差距。因此,我们选择了一个有代表性的自监督模型VideoMAE,并在以人为中心的语料库MER-SEMI和VoxCeleb2上训练。我们发现这种方法显著提高了性能,这为未来的视觉编码器研究方向提供了启示。在情感识别中,一个优秀的视觉编码器应该专注于弱监督或自监督学习,并在大量以人为中心的视频上进行训练。
(2)对于音频模态,我们观察到在中文为主的数据上训练的声学编码器通常在中文情感语料库上表现良好(例如MER-MULTI和CH-SIMS),而在英文为主的数据上训练的声学编码器通常在英文情感语料库上表现良好(例如CMU-MOSI和CMU-MOSEI)。这些结果表明声学编码器对于语言的敏感性。为了揭示这一现象背后的原因,我们进行了更多探索。
音频包含语言和副语言信息。为了消除与情感相关的副语言信息的干扰,我们使用中性声音合成音频。为了生成目标语言的音频,我们使用ChatGPT 3.5进行翻译,并使用目前语言的TTS系统进行音频生成。我们测试了在不同语言中训练的声学编码器的性能。我们观察到语言匹配的编码器始终取得更好的性能。这表明声学编码器虽然采用语音波形作为输入,但是可以隐式捕捉语音中的文本内容,从而导致其对语言的敏感性。
然后,我们进一步研究了声学编码器的主要训练语言与输入语言之间的关系。我们发现,尽管语言匹配的声学编码器通常表现更好,但也存在一些例外。我们推测原因在于,音频通过语言和副语言信息传达情感。虽然语言匹配的声学编码器可以捕捉更多的语言相关信息,但强大的声学编码器可以捕捉更多与情感相关的副语言信息,从而实现更好的性能。
因此,声学编码器可以捕捉语言和副语言信息。为了捕捉语言信息,最好使用语言匹配的声学编码器。为了捕捉副语言信息,最好使用更具表现力的音频训练编码器,而不仅仅是中性音频。如果想得到一个多语言通用的声学编码器,我们建议在大量具有表现力的多语言音频上对声学编码器进行训练。
(3)对于文本模态,不同的文本编码器支持不同的语言。在表 5中,我们重点研究了支持中文的文本编码器。对于英文情感数据集,我们使用ChatGPT 3.5将它们翻译成中文。在表5中,我们观察到一些有趣的现象。对于情感识别,Baichuan-13B可以取得比较好的结果,但一些强大的LLMs(如Llama-13B和OPT-13B)表现不佳。为了弄清楚这一现象背后的原因,我们进一步调查语言匹配对文本编码器的影响。
我们评估了支持多语言的文本编码器,但是每个文本编码器都有不同的主要训练语言。我们利用ChatGPT 3.5将输入文本翻译成目标语言。对于Baichuan-13B和BLOOM-7B,我们发现就算用ChatGPT 3.5这样强大的翻译系统,在翻译过程中仍然会丢失与情感相关的信息,导致情感识别性能下降。有趣的是,我们将MER-MULTI从中文翻译成英文时,Llama2-13B展示出了更好的结果。原因在于尽管Llama2-13B支持中文,但其主要训练语言是英文,因此他对于英文的理解会更好。
因此,我们应该关注文本编码器的主要训练语言(而不是它支持的语言),尽量让其与输入语言相匹配;此外,避免使用翻译系统,因为这会造成情感信息的损失。
多模态评估基准:
单模态特征会影响多模态融合结果,因此,我们选择了2个多模态特征集,并选择了10种有代表性的融合算法,建立多模态评估基准。
我们发现,不同特征集和数据集的组合下,最优融合算法并不相同,这说明每种算法都有存在的必要。此外,基于注意力机制的融合算法,虽然不能在所有情感数据集上取得最佳结果,但是相比于所有融合算法,这种方式能够取得相对不错的结果。主要原因在于,由于情感数据集规模较小,复杂的融合算法容易导致模型过拟合。反而简单却有效的注意力机制能实现相对不错的性能。
图6展示了每个数据集的单模态和多模态结果。有趣的是,不同的数据集传达情感的方式并不相同。例如,MER-MULTI 主要通过音频传达情感,而 CMU-MOSI 更依赖文本传达情感。换而言之,尽管多模态情感数据集提供了所有模态信息,并不意味着他们适用于单模态情感识别任务。例如,IEMOCAP较少通过视频传达情感,因此在这个数据集上进行视觉情感识别并不合适。此外,一些数据集同样不适用于多模态融合研究。例如,CMU-MOSI、CMU-MOSEI 和 MELD 过度关注文本,使得即使强大的融合算法也很难展示出优势。
跨模态评估基准:
图7展示了单模态特征下的跨语料库结果。根据within-corpus结果,我们为每个模态选择两个特征:一个表现良好的和一个表现不佳的。我们发现,within-corpus性能好的特征,其在cross-corpus设置下的结果一般也比较好。因此,一个直观的想法是利用多模态融合来提升跨语料库性能。
表11展示了多模态融合对within-corpus和cross-corpus结果的影响。一般而言,多模态融合可以提高within-corpus和cross-corpus结果。但是,在跨语料库设置中,多模态融合的作用被减弱了。原因在于,不同数据集以不同的方式传达情感(见图6)。多模态融合可能导致模型过度拟合目标数据集,导致其在跨语料库设置中的作用有限。
此外,我们评估了GPT-4V在多模态情感识别任务上的性能。我们发现,尽管GPT-4V的表现不如within-corpus的结果,但它能够接近甚至超越cross-corpus下的结果,这为解决跨语料库情感识别任务指出了可能的方向。多模态情感识别是一个复杂的任务,需要像GPT-4V那种整合多种任务的知识,例如单模态情感识别和一些背景知识(例如,昏暗的环境可能会诱发负面情绪)。此外,正如我们在AffectGPT中所建议的那样,最好使用可解释的推理过程作为标签,以增强不同数据集的标签一致性和标签可靠性。更加一致的标签同样有助于提高跨语料库性能。
标点鲁棒性分析:
标点符号也可以传达情感。例如,感叹号可以表达惊讶或兴奋,问号可以表达困惑。因此,我们评估了不同文本编码器对标点符号缺失的鲁棒性。我们将所有标点符号分类为三类:与情感相关的标点符号(即感叹号、问号、省略号)、与停顿相关的标点符号(即逗号)和其他标点符号。表13揭示了不同标点符号对情感识别的影响。实验结果表明,去除标点符号通常会导致性能下降,但这种下降通常不太明显(除了MELD数据集之外)。这些结果表明,词汇编码器对缺失的标点符号具有一定的鲁棒性。
为了解释为什么MELD对缺失标点符号敏感,我们计算了不同数据集情感相关标点符号的平均数量。相比于其他数据集,MELD数据集的情感相关标点符号异常的多,可能是因为该数据集的文本是从《老友记》电视剧脚本中直接获取的,相比于ASR的输出,电视剧脚本的标点符号一般比较丰富。此外,我们观察到MELD数据集中的许多样本主要通过标点符号表达情感。例如,“`Hi Joey! What are you doing here?”表达了喜悦,而“Rachel!”传达了愤怒。
因此,尽管文本编码器对缺失标点符号具有一定的鲁棒性,但我们仍需要考虑一些标点符号丰富的数据集中的标点符号。从另一个角度来看,如果我们能够使用自动语音识别系统来预测详细的标点符号,将有助于我们更好地理解情感。
微调必要性分析:
上述实验通常利用预训练模型作为特征提取器,然后使用浅层分类器进行情感识别。换句话说,我们冻结了预训练模型的权重,只优化浅层分类器。但是最近一些研究表明,联合优化特征提取器和分类器对于提升情感识别性能的有效的。因此,我们进一步研究了对预训练特征提取器进行微调的作用。
在表16中,我们为每个模态选择了两个具有代表性特征编码器,并研究了微调的效果。实验结果显示,微调在不同的特征和数据集组合上表现不同。我们推测原因有两方面:一方面,当编码器与情感数据集不兼容时,微调可以提高性能;另一方面,由于情感数据集规模较小,微调增加了可训练参数,导致模型在训练数据上过拟合,从而导致模型在集外数据上表现不佳。因此,我们需要综合考虑兼容性和过拟合问题。
表17 进一步比较了采用与不采用微调策略的计算复杂性。我们观察到,微调增加了可训练参数量,导致训练时间变长。此外,在实际应用中,我们需要为每个下游情感数据集进行微调,这进一步增加了计算成本。相比之下,预训练操作只需要进行一次,就可以冻结预训练权重,并仅仅优化浅层分类器,这种方式更加高效。此外,与表 6中的结果进行对比,微调带来的性能提升小于预训练。因此,对于样本有限的情感识别任务,我们建议后续研究更关注预训练而不是微调。
总结:
我们构建了MERBench,一个适用于多模态情感识别任务的统一评估基准。我们的目标是探讨这一领域一些关键技术的作用,并指出未来可能的研究方向:
(1)对于视觉编码器,我们注意到弱监督和自监督模型的优势。为了获得更好的结果,有必要进一步在以人为主的视频上对它们进行预训练,以减小与情感识别任务之间的领域差异;
(2)文本编码器对语言敏感。尽管我们可以将源语言翻译成目标语言,但这个翻译过程通常会导致情感相关信息的丢失;
(3)声学编码器可以从音频中隐式捕捉文本信息,从而导致其对语言的敏感。为了获得更强大和多语言通用的声学编码器,我们建议在富有表现力(而不是中性语音)的多语言音频(而不是单一语言数据)上进行声学编码器训练;
(4)对于多模态融合,在所有融合算法中,注意力机制可以取得相对不错的性能。此外,并非所有多模态情感数据集都适用于多模态融合研究,因为一些数据集主要通过单一模态表达情感;
(5)在跨语料库设置下,更强大的within-corpus模型通常能够取得更好的cross-corpus结果。但要真正解决跨语料库问题,我们应该结合不同任务的知识联合训练模型,并使用可解释的推理过程提高不同数据集的标签一致性;
(6)文本编码器对于标点符号缺失具有一定鲁棒性。但对于标点丰富的样本,标点符号缺失仍然会导致情感识别性能下降。从另一个角度来看,如果我们能够从音频中预测详细的标点符号,将有助于我们识别情感状态;
(7)为了提高声学编码器的噪声鲁棒性,应该在声学编码器预训练过程中增加各种质量的音频数据。同时,数据增强可以有效处理噪声数据,但应当为数据增强选择合适的信噪比;
(8)相比于预训练,微调需要更多的计算成本,但是带来的情感识别性能提升较小。因此,我们建议后续研究人员更多地关注预训练,尤其是在与下游任务兼容的数据集上进行预训练。
未来工作:
除了情感识别,我们计划将更多与情感相关的任务纳入MERBench,例如压力、幽默、讽刺、抑郁等。此外,我们将包含更多特征和多模态融合策略,扩展MERBench的评估范围。我们希望MERBench能够为后续开发更加鲁棒和强大的情感识别系统提供指导。
引用信息:
Zheng Lian, Licai Sun, Yong Ren, Hao Gu, Haiyang Sun, Lan Chen, Bin Liu, Jianhua Tao. “MERBench: A Unified Evaluation Benchmark for Multimodal Emotion Recognition”. arXiv preprint arXiv:2401.03429
连政,助理研究员,2021年于中科院自动化研究所模式识别与智能系统专业获得工学博士学位。2021年7月至今在中科院自动化所工作。研究方向为情感计算。
刘斌,副研究员,硕士生导师。2007年毕业于北京理工大学获得学士学位,2009年毕业于北京理工大学获得硕士学位,2015年于中科院自动化研究所模式识别与智能系统专业获得博士学位。2015年7月至今在中科院自动化所工作。研究方向为情感计算、音频处理等。
陶建华,清华大学长聘教授、博士生导师,国家杰出青年科学基金获得者,国家万人计划科技创新领军人才,享受国务院政府特殊津贴人员。完成多项国家和国际标准,论文和成果曾多次获国内外学术会议奖励。兼任中国计算机学会会士和常务理事、中国人工智能学会常务理事等职务。