【论文泛读】Deep-HOSeq: Deep Higher Order Sequence Fusion for Multimodal Sentiment Analysis

最新推荐文章于 2025-03-28 09:29:55 发布

原创最新推荐文章于 2025-03-28 09:29:55 发布 · 729 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #多模态

论文泛读专栏收录该内容

65 篇文章

订阅专栏

Deep-HOSeq是一种针对多模态情感分析的深度学习模型，旨在通过提取模态内和模态间信息以及时间粒度的特性来增强预测性能。该模型不依赖于注意力机制，而是采用公共网络和独特网络来分别融合信息和捕捉时间动态。公共网络利用LSTM和卷积层，而独特网络则通过前馈层和池化操作处理时间序列信息。实验证明，这种方法在多模态情感预测任务上表现出色，且参数量相对较小。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文题目：Deep-HOSeq: Deep Higher Order Sequence Fusion for Multimodal Sentiment Analysis
时间：2020
来源：ICDM
论文链接：https://arxiv.org/pdf/2010.08218.pdf

摘要

介绍

研究原因

在社交媒体平台（如 YouTube、Facebook 等）上，演讲者的情绪可通过多种异构形式的信息获得，如语言（口语）、视觉手势和声音（语音）。利用来自这些交互模式的线索通常可以更全面地了解潜在现象，从而增强情感预测的泛化性能。尽管基于表现多模态融合的情绪预测本身就是一项具有挑战性的任务，因为存在多个反复出现的问题，例如视觉和声学模式中的缺失值、错位等。当在时间域中需要融合时，挑战会加剧，因为多模式时间交互具有承诺数据粒度和隐藏其模糊性作为危险的双重性质。图中展示了这个场景的一个激励示例，其中两个序列中的说话者使用相同的词以不同的方式表达他们的情绪。
在这里插入图片描述
图中两个序列中的说话者都使用相同的词语来表达他们的情感，但与每个口语异步发生的面部表情和声调之间的相互作用揭示了需要对序列进行不同标记的关键信息。特别是， $t_3$ 时刻的面部表情驱动了序列中说话者情绪的识别。因此，丢弃这种时间粒度会导致关键信息的丢失实质性的帮助识别说话者的真实情绪。这些交互可以以同步和异步多模式交互的形式发生，结合这些时间线索将增强多模式时间序列情感预测的鲁棒性。

前人研究缺点

在这方面，为了通过利用这种时间线索来增强预测能力，最近的多模态方法如 MARN（多注意循环网络）和 MFN（记忆融合网络）结合了模态间和模态内交互在进行多模态融合时。这些方案利用一系列 LSTM 来获得模态内动态，并用复杂的注意力方案（MARN 中的多注意力头和 MFN 中的增量注意力记忆）约束它们以利用模态间的时间交互。尽管这两种技术一致得出结论，利用这两种类型的信息都会对多模态情感分析产生积极影响，但是这些方案完全依赖于注意力机制来发现模态间信息并将其与模态内信息合并。由于两个原因，他们完全依赖注意力机制是有问题的：
1）他们有欺骗性的注意力mask（在 MFN 中），因此无法确定预测中提升是否归因于模式间交互
2）训练过程（training dynamics）（在 MARN 中）代替多头训练。
尽管如此，这两种方案都需要付出大量努力来优化其整合架构的超参数，以有效地执行多模态序列融合。为了减轻这些缺点，我们建议使用 Deep-HOSeq 来执行多模态融合，特别是当模态可用作时间序列时。

本文研究简介

Deep-HOSeq 通过从多模态时间序列中提取两种对比信息来执行多模态融合。第一种信息是模态间和模态内信息的融合，可以看作是从模态交互中提取的common信息。第二种信息利用多模态序列之间的时间粒度，并在执行多模态融合时作为唯一信息导出。
通用网络（Common Network） 提取两种信息：
1）利用基本的 LSTM 从每个单峰中获取模内信息。
2）从每个模态获得的模内信息，通过模间信息合并为多模张量。
这个多模式张量中的元素将模态间相互作用的强度反映为相关性 ，并且最终通过利用卷积核和全连接层来捕获这种丰富的模态间信息。

独特网络（Unique Network） 来利用多模式序列之间的时间粒度（temporal-granularity）。首先通过利用前馈层增加其判别能力从每个单峰获得潜在特征来实现的。然后，我们在每个时间步骤中获得模态内的高阶交互，然后使用卷积层和完全连接层（如在公共网络中）进行特征提取。我们最终通过池化操作统一来自所有时间步骤的信息，该操作将时间粒度封装为 Deep-HOSeq 中的唯一信息。虽然有人可能会争辩说我们选择的统一方案并不复杂，但该方案有效地捕获了多模态序列中的时间动态，并在结果部分进行了演示。

本模型优点

Deep-HOSeq 的一个重要特征是它不依赖于基于注意力的方案，因此不会面临与 MARN 和 MFN 等最先进 (SOTA) 技术相同的批评。它的优势在于简单而谨慎的设计选择，能够联合发现和利用不等信息来执行多模态融合。
在这项工作中的主要贡献总结如下：

我们设计了一个通用网络，以在多模态融合的级联框架中提取模态内和模态间信息。从概念上讲，我们的公共网络获得的信息比 SOTA 更具表现力，因为我们在多模张量上利用卷积，它有效地捕获了所有必要的模态间交互。此外，基本 LSTM 的使用有效地发现了潜在的模内动态，并且不需要为参数优化付出艰苦的努力。
我们设计了一个独特的网络，它封装了多模态序列的时间粒度。通过多模式同步和异步交互增强了 Deep-HOSeq 的鲁棒性。
我们设计了一个深度整合网络，用于联合发现和利用来自多模态时间序列的共同和独特信息，我们称之为 Deep-HOSeq。
我们对多模态 CMU-MOSEI 和 CMU-MOSI 数据集进行了全面的实验，并证明了与其他技术相比，利用共同和独特信息的有效性。

提出的方法（proposed methodology）

我们的目标是通过将模内和模型间动力学合并为公共信息和时间粒度的动力学作为多模态融合的独特信息来利用它们。为了实现这一点，我们提出了两个网络：

以级联方式提取模态内和模态间信息的公共子网络，如Sec.III-A中所述
用于封装时间粒度的独特子网络，如Sec.III-B中所述
然后通过融合层整合两个网络获得的信息以执行多模态情感预测，如Sec.III-C中所述。

在这里插入图片描述
我们从语音、视觉和语言形式的原始特征向量开始，分别表示为 $Z_a\in R^ {1×t_k×d_a}$ ， $Z_v\in R^ {1×t_k×d_v}$ ， $Z_l\in R^ {1×t_k×d_l}$ ，其中 $d_a$ 、 $d_v$ 和 $d_l$ 表示特征向量的维数， $t_k$ 表示序列长度。然后，这些特征向量用公共网络中的基本 LSTM 和唯一网络中的前馈层独立处理，该网络约束两个子网络以获得未共享的潜在表示。这种限制允许子网络在较低层获得互补的特征表示，因为独特子网络的潜在空间不受公共子网络梯度的影响，反之亦然。此外，优化未共享的潜在空间也增强了 Deep-HOSeq 的表达能力，并且在工作中经验表明是有益的。

A. 公共网络(Common Network)

公共网络首先通过使用基本的单向 LSTM 处理单个模态来获得模态内动态；我们选择了基本的 LSTM，因为它们既简单又强大，足以发现模态中的相关部分。然后，我们处理所有具有完全连接层的单峰 LSTM（LSTM 的最终状态）获得的潜在特征，以增加它们的判别强度，然后是外积以获得多模张量。这些张量表示多模态序列内的模态内和模型间信息的合并。
在这里插入图片描述
张量 $T_{VAL}$ 的元素将模态间相互作用表示为相关强度，可以通过使用一系列卷积和全连接层处理张量来有效地推导出（2）。解剖TV AL 后可用的高度区分信息表示为 $h_{com}$ ，代表了被视为Deep-HOSeq 中的公共信息的模态内和模态间信息的合并。尽管这些公共信息，即 $h_{com}$ 仍然可以用于执行多模态预测，如（3）；它仍然不如同时使用公共和独特信息那么有效，并且在实验部分提供了使用公共和信息与仅使用公共信息的相对比较。应该注意的是，我们的公共网络可以使用复杂的卷积方案（例如 ResNet等）进行扩展，以提高其泛化能力。
在这里插入图片描述
其中 $g_{VAL}$ 是通过flattening $G_{VAL}$ 来处理全连接层的卷积输出。利用(3)中的 $h_{com}$ 可以获得具有公共信息的多模态情感预测。

B. 独特的网络(Unique Network)

独特的网络首先通过处理一系列前馈层来获得原始单峰特征的潜在表示，然后利用获得的判别表示以多模式张量的形式捕获跨类别相关性。这些张量适应复杂的动态因素，例如时间序列之间的区域间空间相关性。因此，我们用卷积和全连接层（如在公共网络中）处理它们以提取其中隐藏的独特信息。整个特征提取过程在数学上描述为（4），其中k= 1,2, …, $t_k$ 是序列长度。
在这里插入图片描述
发现此类复杂因素至关重要，因为它们促进了数据的时间和语义视图之间的协作，从而通过学习多种模态中的动态关系提高了分类器的预测性能。我们最终通过（5）中的池化操作统一了每个时间步骤的顺序信息。可以说，我们再次利用简单而有效的操作来总结来自中间层的最具辨别力的模式。重要的是，这种统一不会增加任何额外的参数，并提供了进一步增加独特特征的辨别力的机会。
在这里插入图片描述
这些表示为 $h_pool$ 表示封装了来自模态交互的时间粒度，并被视为本文中的唯一信息。与通用信息类似，也可以利用独特的信息来执行多模态情感预测，如（6）中所示。

C. 融合层

来自公共和独特子网络的最后一个隐藏层的特征向量通过执行均值池操作和前馈层进行集成，以在 Deep-HOSeqin (7) 中导出具有公共和独特信息的组合预测。我们应用均值池而不是任何其他池（以集成公共和独特信息）的动机是均值池将在公共和独特的子网络中强制执行相等的学习，因为训练时的网络允许两个网络中的梯度流相等。但是，在使用 max-Pooling（或任何其他池化层）的情况下不能保证这种情况，因为在训练时单个网络可能占主导地位，因此将导致缺少任何一种信息。通过比较不同类型信息的性能，该假设的有效性如图 3 所示。
在这里插入图片描述
我们提出的Deep-CUSeqis的权重通过最小化（8）中的均方误差（MSE）损失进行优化，其中χ表示多模态训练数据实例集，y(x)表示instancex的目标，而 $\hat{y}(x)$ 表示预测从Deep-HOSeq获得。

D. 复杂性分析

Deep-HOSeq 中最重要的计算复杂性源于在独特网络中获得未共享的潜在特征。这是因为我们利用前馈层从模态内的每个时间序列中获取潜在特征，这累积到 Deep-HOSeq 中可训练神经元总数的大约 43%。
因为使用的框架不同不能直接对比运行的时间，所以对比参数量和epoch。

参数量，MFN 模型参数量 $2.34×10^5$ ，MARN模型参数量 $4.58×10^5$ ，本文模型Deep-HOSeq 参数量 $2.61×10^5$
epoch，MFN 和 Deep-HOSeq 在 CMU-MOSEI 数据集上收敛不到 30 个 epoch，而 MARN 在 1000 个 epoch 上没有收敛。