【论文精读】MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recogni

        本文并非逐句翻译,添加个人理解与疑惑,如有需要,请自行阅读原文。

 

        

 

MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations

MultiEMO:一种用于会话中情感识别的基于注意力的相关性感知多模态融合框架

会议:ACL 2023

数据集:MELD、IEMOCAP

实验运行环境:

Github:GitHub - TaoShi1998/MultiEMO-ACL2023: MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations (ACL 2023)

Abstract

        会话中的情感识别(ERC)是自然语言处理界越来越流行的一项任务,旨在对说话人在会话中表达的话语进行准确的情感分类。

        大多数现有方法侧重于基于文本模态对说话者和上下文信息进行建模,而多模态信息的互补性没有得到很好的利用,目前很少有方法能够充分捕捉不同模态之间的复杂相关性和映射关系。此外,现有的最先进的ERC模型很难对少数群体和语义相似的情感类别进行分类

        为了应对这些挑战,本文提出了一种新的基于注意力的相关性感知多模态融合框架MultiEMO,该框架通过基于双向多头交叉注意力层捕获文本、音频和视觉模态之间的跨模态映射关系,有效地集成了多模态线索cues。("线索"指的是情感识别模型中用于识别、分类情感的各种信息或特征,可以是文本、音频或视觉数据中的特定模式或信号。 "线索"可以帮助模型更准确地理解和分类不同的情感类别。)本文提出的样本加权焦点对比度(SWFC)损失减轻了识别少数和语义上难以区分的情绪类别的困难。在两个基准ERC数据集上进行的大量实验表明,本文的MultiEMO框架在两个数据集上的所有情绪类别中始终优于现有的最先进方法,在少数群体和语义相似的情绪方面的改进尤其显著。


1 Introduction

        会话中的情绪识别(ERC)是自然语言处理(NLP)领域的一项新兴任务,旨在根据说话人的文本、音频和视觉线索识别会话中每个话语的情绪。

        为了解决ERC的问题,已经提出了许多方法。现有的大多数工作都集中在对说话者依赖性和会话上下文进行建模上(Poria et al.,2017;Hazarika et al.,2018a,c;Majumder et al.,2019;Ghosal et al.,20192020;Shen et al.,2021;Hu等人,2021a,b;Li et al.,2021a;Joshi et al.,2022;Lee和Lee,2022),但仍存在一些未解决的挑战:

        (1)多模态信息的互补性没有得到很好的利用。除了语篇模态中包含的丰富信息外,说话人的语气和语调可以指示情绪的强度,对话者的面部表情也能够明确地揭示情绪倾向(Li et al.,2022)。图1显示了一个例子,其中除了文本模态之外,声音和视觉信号的互补性对于准确的情绪分类至关重要。然而,大多数现有的方法都专注于话语的文本模态,或者简单地利用特征级联作为多模态融合机制(Poria et al.,2017;Hazarika et al.,2018a,c;Majumder et al.,2019;张和柴,2021;李等人,2022),而没有对文本、音频和视觉模态之间的复杂相关性和映射关系进行建模,这导致多模态cues的不充分整合。

        

        (2) 少数群体和语义相似的情绪类别方面有困难。(注:"少数群体"并不是指人口中的少数民族或少数群体,而是指在情感分类中出现频率较低的、相对罕见的情感类别。因为这些情感类别出现的次数较少,所以情感识别模型可能会在将其正确分类时遇到困难。)ERC领域现有的基准数据集(如IEMOCAP和MELD)存在类别不平衡的问题。如图2所示,MELD和IEMOCAP都存在类别不平衡的情况,特别是在MELD中,中性情绪这个占据大多数的类别比厌恶和恐惧这两个少数类别所占比例要高得多。目前最先进的方法无法解决类别不平衡问题,并且在少数类别上的表现较差。

        (3) 区分语义相似的情感的困难。正确分类语义相关的不同情绪,如MELD中的厌恶和愤怒,仍然是一项具有挑战性的任务,因为它们具有相似的潜在认知、情感和生理特征,并且往往由说话者在相似的上下文中表达。

        

         为了解决上述问题,本文提出了一种新的基于注意力的相关感知多模态融合框架MultiEMO。

        首先,对每种模态进行单模态特征提取和上下文建模,其中引入了一种基于多任务级联卷积网络(MTCNN)(Zhang et al.,2016)和VGGFace2(Cao et al.,2018)预训练的ResNet-101(He et al.,16)的视觉特征提取器VisExtNet。VisExtNet通过提取对话者富含情感的面部表情,准确捕捉话语视频的视觉线索,而无需建模冗余的场景相关视觉信息。

        其次,提出了一种称为MultiAttn的多模态融合模型,以有效地集成基于双向多头交叉注意力层的多模态信息(Vaswani et al.,2017),该模型成功地捕捉了上下文化文本、音频和视觉特征之间复杂的跨模态相关性和映射关系。

        第三,为了减轻对少群体数和语义相似的情绪类别进行分类的困难,在焦点对比度损失(Zhang et al.,2021)的启发下,提出了一种样本加权焦点对比度(SWFC)损失,将更多的关注点分配给难以分类的少数类,并使具有不同情绪标签的样本对彼此互斥,从而可以更好地区分语义相似的情绪。

        此外,利用Soft Hirschfeld GebeleinRényi(Soft HGR)损失(Wang et al.,2019)来最大化从MultiAttn中提取的多模态融合文本、音频和视觉特征表示之间的相关性。

        最后,在两个ERC基准数据集MELD和IEMOCAP上进行了广泛的实验。实验结果表明,与现有的最先进的方法相比,本文提出的MultiEMO框架具有有效性和优越性,在少数和语义相似的情绪类别方面的改进尤其显著。

Contributions:

  1.  提出了一种新的视觉特征提取网络VisExtNet,该网络在不建模冗余场景信息的情况下有效地捕捉对话者的视觉cues。
  2. 设计了一个基于双向多头交叉注意力层(bidirectional multi-head cross-attention layers)的多模态融合模型MultiAttn,该模型成功地对文本、音频和视觉模态之间的复杂相关性进行了建模。
  3. 创新性地引入了SWFC损失,以解决对少数群体和语义相似的情绪类别进行分类的困难。
  4. 在MELD和IEMOCAP上进行了广泛的实验,结果表明,本文提出的MultiEMO框架在这两个数据集上都实现了最先进的性能,在少数群体和语义相似的情绪方面的改进尤其显著。


2 Related Work

2.1 Recurrence-based Models 基于递归的模型

        (Poria et al.,2017)提出了一种基于长短期记忆(LSTM)的网络,名为BC-LSTM,用于从对话中提取上下文信息。(Hazarika et al.,2018b)提出了交互式会话记忆网络(ICON),该网络基于门控递归单元(GRU)对自我和说话者间的影响进行建模。(Majumder et al.,2019)介绍了一种使用GRU对说话者状态和上下文信息进行建模的DialogueRNN。(Lu et al.,2020)提出了一种基于GRU的迭代情感交互网络(IterativeERC),该网络通过迭代使用预测的情感标签来对情感交互进行建模。(Ma et al.,2022)设计了一个多视图网络(MVN),基于注意力机制和双向GRU,对来自

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

西皮呦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值