PS-Mixer: A Polar-Vector and Strength-Vector Mixer Model for Multimodal Sentiment Analysis
PS-Mixer:用于多模态情感分析的极向量和强度向量混合模型
发表在一区 Information Processing and Management
数据集:CMU-MOSEI、CMU-MOSE
实验运行环境:
Abstract
- 一方面,现有研究侧重于文本、音频和视觉等多模式数据的融合机制,而忽视了文本和音频、文本和视觉的相似性以及音频和视觉的异质性,导致情绪分析出现偏差。
- 另一方面,多模式数据带来了与情绪分析无关的噪声,影响了融合的效果。
本文提出了一种称为PS mixer的极向量和强度向量混合模型,该模型基于MLP mixer,以实现不同模态数据之间更好的通信,用于多模态情感分析。
具体来说,分别设计了一个极性向量(PV)和一个强度向量(SV)来判断情绪的极性和强度。PV是从文本和视觉特征的交流中获得的,用来决定情绪是积极的、消极的还是中性的。SV是从文本和音频特征之间的通信中获得的,用于分析0到3范围内的情感强度。
此外,设计了一个由几个全连接层和激活函数组成的MLP通信模块(MLP-C),使不同的模态特征在水平和垂直方向上充分交互,这是将MLP用于多模态信息通信的一种新尝试。
最后,将PV和SV混合得到一个融合向量来判断情绪状态。
所提出的PS Mixer在CMU-MOSEI和CMU-MOSI这两个公开可用的数据集上进行了测试,与基线方法相比,它在CMU-MOSEI上实现了最先进的(SOTA)性能。
1 Introduction
首先介绍多模态数据相关背景,如何充分利用每个模态的互补信息来共同进行情绪分析是一个挑战。尽管避免了单模态数据的信息奇异性,提高建模效果,但是引入了不同模态数据之间的异质性,增加了语义理解的难度,破坏了语义的完整性;其次带来了大量与特定场景无关的噪声,增加了模型训练的计算量,降低了效率。
根据融合阶段的不同,现有的方法可分为早期融合、晚期融合和混合融合。早期融合的方法在特征提取后立即融合特征,但不仅不能完全融合不同模态之间的有用信息,还会带来大量冗余信息,影响模型的学习效率。因此,提出使用主成分分析(PCA)方法来降低数据的维数,去除数据中的冗余信息。后期融合,不受原始数据分布影响,每个模态的数据首先由它们自己独特的预训练模型计算,然后将每个模型的结果融合到最终向量中。例如,Yu、Xu、Yuan和Wu(2021)提出了一个基于自监督学习的标签生成模块,以获得每个名为self-mm的个体模态的标签,并设计了权重调整策略来引导子任务专注于模态之间更不同的采样。与早期融合相比,后期融合是更好的语义信息融合解决方案,但模型结构变得更加复杂。混合融合结合了早期融合和后期融合,允许在模型的多个阶段融合特征。例如,在Sahu和Vechtomova(2021)中,首先融合任意两种模态(如视频和音频)的特征,然后训练其余模态(如文本)的特征以获得最终融合向量。Kumar和Vepa(2020)提出了一种可学习的门控机制来选择性地学习交叉参与特征,该机制可以控制信息的传递和丢弃,并使用自注意机制来捕捉长期上下文。此外,将通过门控机制获得的向量拟合在深度多模式融合模块中,以获得用于情绪状态分析的最终向量。通过规划模型中的融合阶段,可以显著提高模型的性能。
如图1所示,有许多融合机制可以用来解决多模式数据的异质性挑战,例如基于张量融合、基于生成对抗性网络(GAN)、基于注意力机制等。例如,Zadeh等人(2017)设计了一种早期的基于张量融合的方法,称为TFN。它执行笛卡尔乘积来融合维度扩展后的三种模态的特征,并将从多模态融合中获得的特征与各自的单峰特征相结合来进行决策,这不仅可以保留每个模态信息,还可以保留所有模态信息。尽管这种方法相对简单,但它面临着巨大的计算量和内存消耗,模型参数的数量也会增加,容易存在过拟合的风险。后来,刘等人(2018)提出了一种低阶多模态融合方法,称为LMF,通过并行分解张量和权重来解决TFN的问题,可以减少参数的数量,同时提高计算速度。尽管LMF已经解决了TFN的一些问题,但一旦输入特征维数变大,LMF仍然会导致参数急剧增长的问题。后来基于GAN机制的方法Mai,Hu和Xing(2020)Tsai,Liang,Zadeh,Morency和Salakhuttinov(2019)放弃了特征的直接计算,采用了双人游戏的思想,利用生成器和鉴别器的相互对抗,使不同的模态特征逐渐接近。Mai,Hu和Xing(2020)提出了一种新的基于分层图形神经网络的生成对抗性网络(GAN),通过学习与模态不变的嵌入空间并将源模态的分布转换为目标模态的分布来实现统一。尽管GAN利用重建损失和分类损失对嵌入空间施加约束,但训练中可能出现的崩溃将导致训练不稳定。后来在NLP领域,由于Transformer(Vaswani et al.,2017)使用了多头注意力机制来提高模型训练的稳定性,Zadeh,Liang,Mazumder,et al.(2018),Wang等人(2019)Tsai,Bai,et al.。(2019)和Su,Hu,Li,and Cao(2020)试图将注意力机制应用于多模式融合。Zadeh,Liang,Mazumder等人(2018)提出存储器融合网络(MFN)方法,通过与增量存储器注意力网络(DMAN)模块和多视图门控存储器模块中的信息交互来处理用于视图特定交互和跨视图交互的多模式序列数据。尽管在上述方法中取得了进展,但由于不同模式之间的异质性,这些融合方法仍然面临着复杂的挑战。
最近,有许多研究集中在多层感知器(MLP)上,例如MLP-Mixer(Tolstikhin et al.,2021),𝑆2-MLP(2022),𝑆2-MLPv2(2021),hire-MLP(2022),ResMLP(Touvron et al.,2021)、CycleMLP(Chen,Xie,Ge,Liang,&Luo,2022)、gMLP(Liu,Dai,So,&Le,2021)和VIP(Hou et al.,2020)等,证实了MLP可以与Transformer相媲美。Tolstikhin等人(2021)首先设计了一种基于多层感知器(MLP)的架构,称为MLP-Mixer,该架构由两部分组成。第一部分将MLP单独应用于图像块,以混合每个位置的特征,另一部分使用MLP交叉块,从而混合空间信息。在Chen,Xie等人(2022)中,设计了一种通过将不同空间位置的特征对准同一通道来实现局部特征的CycleMLP块,其精度达到83.2%,优于基于Transformer的模型。聂等人(2021)从Transformer中去除了多头注意力,并将其替换为MLP,然后将双模态数据(视觉和文本)馈送到纯MLP框架中,以在预训练后获得与Transformer相似的结果,这成功地证实了MLP融合多模态数据的可行性。
Contributions:
- 提出了一种称为PS mixer的极性矢量和强度矢量混合模型,该模型基于MLP mixer,用于在不同模态特征之间进行通信。使用设计的MLP-Communicator(MLP-C),特征可以在垂直和水平方向上进行通信和交互。这是MLP首次用于三模态(视觉、音频和文本)情感分析任务。
- 设计了两个判断极向量(PV)和强度向量(SV)来共同用于情绪预测的决策。PV表示积极、消极或中性情绪。SV表示在0到3的范围内的情绪强度。
- 提出了三个损失函数:极性损失、强度损失和任务损失,通过测量情绪极性、强度的预测值与真实值之间的差距,根据多模态数据使预测的情绪更加准确。
- 与基线方法相比,进行了广泛的实验,并实现了多模态情感分析的SOTA性能,特别是在CMU-MOSEI数据集的七个分类任务上,准确率为86.1%。实验结果表明,我们提出的MLP-C模块的参数数量比Transformer模块少1.1M。
2 Related Work
2.1 Sentiment analysis
一些视频包含文本信息,这些信息也可以用于情绪分析。Arjmand、Dousti和Moradi(2021)提出了一种用于多模态情感分析的基于变换器的语音前缀语言模型(TEASEL),该模型实现了轻量级注意力聚合模块以生成高效的空间编码。TEASEL可以实现与花费长时间重新培训变压器而不培训整个变压器相同的性能水平。Shenoy和Sardana(2020)设计了一种用于会话中情绪分析和情绪检测的递归神经网络架构,使用状态GRU(sGRU)对对话者的状态进行建模,使用上下文GRU(cGRU)跟踪会话的上下文,使用情绪GRU(eGRU)以跟踪参与者的情绪状态,以及成对关注机制来组合相关状态以进行情绪预测。人类感知模型强调自上而下整合的重要性,即认知影响感知。Paraskevopoulos、Georgiou和Potamianos(2022)提出了一个名为MMLatch的反馈模块,该模块允许对高层和底层架构之间自上而下的跨模态交互进行建模。该架构在前向传播中使用反馈机制来捕捉网络训练期间自上而下的跨