本文并非逐句翻译,添加个人理解与疑惑,如有需要,请自行阅读原文。
CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Network
基于耦合翻译融合网络的多模态情感分析的层次学习
发表在 2021 ACL-long
数据集:CMU-MOSI、MELD
代码地址:GitHub - deepsuperviser/CTFN: This is the code for Coupled-translation Fusion Network.
多模态情感分析涉及多个异构模态的融合。主要挑战在于在多模态融合过程中可能会出现一些缺失的模态。然而,现有的技术需要所有模态作为输入,因此对于预测时缺失的模态非常敏感。
在这项工作中,首次提出了耦合翻译融合网络(CTFN),通过耦合学习来建模双向交互作用,确保了对缺失模态的鲁棒性。
- 具体而言,引入了循环一致性约束来提高翻译性能,使本文直接丢弃了解码器,只保留了Transformer的编码器。这有助于构建一个更轻量级的模型。
- 由于耦合学习的存在,CTFN能够并行地进行双向跨模态互相关。
- 基于CTFN,进一步建立了一个分层架构来利用多个双向翻译,与传统的翻译方法相比,可以得到双倍的多模态融合嵌入。
- 此外,利用卷积块进一步突出了这些翻译之间的显式交互作用。
对于评估,CTFN在两个多模态基准数据集上进行了验证,并进行了广泛的消融研究。实验表明,所提出的框架在性能上达到了最先进或通常有竞争力的水平。此外,CTFN在考虑缺失模态时仍保持了鲁棒性。
1 Introduction
直观地说,由于不同来源之间的一致性和互补性,联合表示关注多模态消息的推理,这能够提高特定任务的性能。
现有的融合通常是通过利用模型不可知的过程来完成的,考虑到早期融合、晚期融合和混合融合技术。其中,早期融合侧重于单模态表示的串联。相反,后期融合通过在所有模型结果中进行投票,在决策层进行集成。关于混合融合,输出来自早期融合和单模态预测的结合。
然而,多模态情感序列往往由不一致的属性组成,传统的融合方式未能仔细考虑异质性和不一致性,这就提出了研究更复杂的模型和估计情感信息的问题。
最近,基于Transformer的多模态融合框架已经被开发出来,以在多头注意力机制的帮助下解决上述问题。然而,使用标准Transformer的解码器组件来提高翻译性能,这可能会导致一些冗余。此外,没有考虑跨模态翻译之间的显式互动。从本质上讲,与本文的CTFN相比,它们的架构需要访问所有模态,作为探索与顺序融合策略的多模态相互作用的输入,因此在多个缺失模态的情况下相当敏感。
现有多模态情感融合架构包含:translation-based、non-translation based model.。
Translation-based:GEM-LSTM、bc-LSTM、MELD-base、CHFusion、MMMU-BA.
Non-translation based model:seqseq2sent、MCTN、TransModality.
CTFN与现有基于翻译的模型的比较:
3 Methodology
首先介绍了CTFN(图2),它能够通过配对学习探索双向跨模态翻译。
在CTFN的基础上,建立了一个层次结构来利用多个双向翻译,从而产生双多模态融合嵌入(图4)。
该论文的模型是一个分层体系结构,主要由3个CTFN结合构成的Coupled-Translation Fu