深度解析iTransformer：维度倒置与高效注意力机制的结合

本文链接：https://blog.csdn.net/weixin_44402973/article/details/145369807

今天，我想和大家一起探讨一篇非常有意思的Paper——iTransformer。作为一种针对多变量时间序列预测的新型架构，iTransformer 引入了颠覆性的设计思路，特别是在维度倒置和高效自注意力机制上的创新，展现出了出色的性能和适应性。

在接下来的讨论中，我将详细探讨iTransformer模型的架构、优势以及在多个时间序列预测任务中的实验表现。老样子，我还是会按照论文的框架来对文章进行详细解读。

1. Abstract

近年来，线性预测模型的迅速发展对基于 Transformer 的预测模型的架构改进热潮提出了质疑。这些预测模型利用 Transformer 来建模时间序列中时间片段（temporal tokens）之间的全局依赖关系，其中每个时间片段由同一时间点的多个变量组成。然而，当处理具有较长回溯窗口的时间序列时，Transformer 面临性能下降和计算成本爆炸的问题。此外，每个时间片段的嵌入融合了多个变量，这些变量可能代表潜在的延迟事件或不同的物理测量值，这可能导致无法学习基于变量的表示，从而生成无意义的注意力图。在这项工作中，本文重新思考了 Transformer 组件的核心职责，并在不修改其基本组件的前提下重新设计了 Transformer 架构。提出了 iTransformer，该模型简单地将注意力机制和前馈网络应用于倒置的维度上。具体而言，单个序列的时间点被嵌入为变量令牌（variate tokens），并利用注意力机制捕捉变量间的相关性；同时，前馈网络被应用于每个变量令牌，以学习非线性表示。iTransformer 模型在具有挑战性的真实世界数据集上实现了最新的性能，进一步赋予了 Transformer 系列模型更高的性能、跨变量的泛化能力，以及对任意回溯窗口的更好利用能力，使其成为时间序列预测的一个理想基础架构选择。