Transformer王者归来!无需修改任何模块,时序预测,遥遥领先
【导读】最近,来自清华大学和蚂蚁集团的研究人员重新审视Transformer结构在时序分析中的应用,提出一个全新的反转视角——无需修改任何模块,即可实现Transformer在时序预测任务上的全面领先!

最近,针对有关Transformer在时序预测领域有效性的质疑,清华大学软件学院机器学习实验室和蚂蚁集团学者合作发布了一篇时间序列预测工作,在Reddit等论坛上引发热烈讨论。
其中,作者提出的iTransformer,考虑多维时间序列的数据特性,未修改任何Transformer模块,而是打破常规模型结构,在复杂时序预测任务中取得了全面领先,试图解决Transformer建模时序数据的痛点。

问题背景
现实世界的时序数据往往是多维的,除了时间维之外,还包括变量维度。
每个变量可以代表不同的观测物理量,例如气象预报中使用的多个气象指标(风速,温度,湿度,气压等),也可以代表不同的观测主体,例如发电厂不同设备的每小时发电量等。
然而,这种方式可能会存在如下问题:
设计思路
为此,作者提出了一种全新的倒置(Inverted)视角。
如下图,通过倒置Transformer原本的模块,iTransformer先将同一变量的整条序列映射成高维特征表示(Variate Token),得到的特征向量以变量为描述的主体,独立地刻画了其反映的历史过程。
iTransformer
整体结构
个可堆叠的Transformer模块(TrmBlock)。

、变量数为
的多维时间序列
,文章使用
表示同一时刻的所有变量,以及
表示同一变量的整条历史观测序列。
比
具有更强的语义以及相对一致的测量单位,不同于以往对
进行特征嵌入的方式,该方法使用嵌入层对每个
独立地进行特征映射,获得
个变量的特征表示
,其中
蕴含了变量在过去时间内的时序变化。

即为每个变量对应的预测结果,嵌入层和投影层均基于多层感知机(MLP)实现。
1. 层归一化:层归一化的提出最初是为了提高深度网络的训练的稳定性与收敛性。
2. 前馈网络:Transformer利用前馈网络编码词向量。
在倒置版本中,形成「词」向量的是同一变量的整条序列,基于多层感知机的万能表示定理,其具备足够大的模型容量来提取在历史观测和未来预测中共享的时间特征,并使用特征外推为预测结果。
另一个使用前馈网络建模时间维的依据来自最近的研究,研究发现线性层擅长学习任何时间序列都具备的时间特征。
对此,作者提出了一种合理的解释:线性层的神经元可以学习到如何提取任意时间序列的内在属性,如幅值,周期性,甚至频率谱(傅立叶变换实质是在原始序列上的全连接映射)。
因此相较以往Transformer使用注意力机制建模时序依赖的做法,使用前馈网络更有可能完成在未见过的序列上的泛化。
3. 自注意力:自注意力模块在该模型中用于建模不同变量的相关性,这种相关性在有物理知识驱动的复杂预测场景中(例如气象预报)是极其重要的。

对应任意两个变量的Query和Key向量,作者认为整个注意力图可以在一定程度上揭示变量的相关性,并且在后续基于注意力图的加权操作中,高度相关的变量将在与其Value向量的交互中获得更大的权重,因此这种设计对多维时序数据建模更为自然和可解释。
综上所述,在iTransformer中,层归一化,前馈网络以及自注意力模块考虑了多维时序数据本身的特点,三者系统性互相配合,适应不同维度的建模需求,起到1+1+1 > 3的效果。
实验分析
作者在六大多维时序预测基准上进行了广泛的实验,同时在支付宝交易平台的线上服务负载预测任务场景的数据(Market)中进行了预测。

如开篇雷达图所示,iTransformer在六大测试基准中均达到了SOTA,并在Market数据的28/30个场景取得最优效果(详见论文附录)。
通过引入所提出的框架,这些模型在预测效果上均取得了大幅度的提升,证明了iTransformer核心思想的通用性,以及受益于高效注意力研究进展的可行性。

以往Transformer系模型的预测效果不一定随着历史观测的变长而提升,作者发现使用该框架后,模型在历史观测增加的情况下展现出了惊人的预测误差减小趋势,在一定程度上验证了模块倒置的合理性。

模型分析
1. 模型消融实验

2. 特征表示分析
为了验证前馈网络能够更好地提取序列特征的观点,作者基于CKA(Centered Kernel Alignment)相似度进行特征表示分析。CKA相似度越低,代表模型底层-顶层之间的特征差异越大。
值得注意的是,此前研究表明,时序预测作为一种细粒度特征学习任务,往往偏好更高的CKA相似度。

3. 变量相关性分析
如上图所示,作用在变量维的注意力机制在学习到的注意力图中展现出更加强的可解释性。通过对Solar-Energy数据集的样例进行了可视化,有如下观察:
在浅层注意模块,学习到的注意力图与历史序列的变量相关性更加相似。
当深层注意模块,学习到的注意力图与待预测序列的变量相关性更加相似。
总结
iTransformer框架创新地引入倒置的视角观察时间序列,使得Transformer模块各司其职,针对性完成时序数据两个维度的建模难题,展现出优秀的性能和通用性。
面对Transformer在时序预测领域是否有效的质疑,作者的这一发现可能启发后续相关研究,使Transformer重新回到时间序列预测的主流位置,为时序数据领域的基础模型研究提供新的思路。
END
