预计阅读时间：5分钟21秒

论文解读：使用时间序列密集编码器（TiDE）进行长期预测

一种用于长期时间序列预测的深度学习新模型。

前言

本文为搬运内容，主题为论文讲解，原作者：Dagang Wei (Salute！) 原文链接附于文章末尾。

概述

本文提出了TiDE（Time-series Dense Encoder），一种用于长期时间序列预测的深度学习新模型。该模型旨在解决现有方法的局限性，例如变压器模型（Transformers）在长期预测中的表现不佳，以及线性模型无法捕捉非线性依赖关系和整合协变量（covariates）的缺陷。

论文原文链接：点击这里

主要特点与贡献

架构：TiDE是一个基于多层感知机（MLP）的编码器-解码器模型。它使用密集的MLP对过去的时间序列数据和协变量进行编码，然后将编码后的信息与未来的协变量一起解码，以生成预测结果。

理论分析：作者提供了TiDE简化线性版本的理论分析。他们证明，在某些假设下，这个线性模型可以在处理线性动态系统（LDS）时，达到接近最优的误差率。这一分析有助于解释为何简单的线性模型在某些情况下能在长期预测中优于更复杂的基于变压器的模型。

实证评估：TiDE在七个流行的长期预测基准数据集上进行了评估。结果表明，它在性能上优于或与现有的最先进变压器模型相当，同时在推理和训练时间上快了5到10倍。

处理协变量：与线性模型不同，TiDE能够有效地整合静态和动态协变量，这对于在实际应用中实现准确预测是至关重要的。

时间解码器：TiDE的一个独特特点是时间解码器，它允许在每个时间步直接适应未来的协变量。当某些协变量对预测值有强烈且即时的影响时，这一特性尤为有用。

实验结果

长期预测基准测试：在基准数据集（如电力、电力交通、天气和ETT）上，TiDE的表现优于或与现有方法相当。特别是在最大的数据集（交通数据集）上，TiDE的表现显著超过了最好的变压器模型。

需求预测（M5竞赛）：在M5需求预测竞赛中，TiDE展现了其处理复杂协变量的能力。它大幅超越了DeepAR（一个专门处理协变量的模型）和PatchTST（基准测试中的最佳模型）的表现。

效率：TiDE在训练和推理时间上显著优于PatchTST，特别是在处理长时间上下文的情况下。TiDE的计算复杂度与上下文长度和预测范围呈线性关系，这也使得它在效率上有明显优势。

Q&A

问：这篇论文的主要目标是什么？

答：这篇论文的主要目标是介绍TiDE（时间序列密集编码器），一种用于长期时间序列预测的新型深度学习模型。该模型旨在解决现有方法的局限性，例如变压器模型（Transformers）在长期预测中的表现不佳，以及线性模型无法捕捉非线性依赖关系和整合协变量（covariates）的缺陷。

问：相关的前沿工作有哪些？

答：论文讨论了长期时间序列预测中的几类相关的前沿工作：

多变量模型：这些模型联合预测所有时间序列变量的未来，考虑它们之间的相互依赖性。经典的VAR模型以及深度学习模型如LongTrans、Informer、Autoformer、FEDFormer和Pyraformer都属于这一类。这些深度学习模型通常采用变压器架构的变种，并作出修改以高效处理长序列。

单变量模型：这些模型独立地预测每个时间序列变量的未来，重点关注其自身的过去值，并可能结合协变量。局部单变量模型：这些模型在每个时间序列上单独训练并用于推理。经典的AR、ARIMA和指数平滑等模型都属于这一类。全局单变量模型：这些模型忽略特定变量的信息，为所有时间序列训练一个共享的模型。深度学习架构如N-BEATS及其扩展版N-HiTS都是全局单变量模型的例子。

线性模型：最近的研究表明，像DLinear这样的简单线性模型在一些长期预测基准测试中表现优于复杂的基于变压器的模型。然而，线性模型在建模非线性依赖关系和整合协变量方面存在局限性。

长程依赖模型：有研究也集中于提高循环神经网络（RNNs）和状态空间模型（SSMs）捕捉长程依赖性的能力。尽管这些模型在其他领域表现出了潜力，但它们在时间序列预测中的应用仍在探索之中。

这篇论文将TiDE定位为一种新方法，旨在结合线性模型和深度学习架构的优点，同时解决它们的局限性。TiDE通过MLP实现非线性建模，能够有效地处理协变量，并引入了一个新的时间解码器，用于适应未来的协变量。

问：TiDE是多变量模型还是单变量模型？

答：TiDE是一个全局单变量模型。尽管它是在整个数据集的所有时间序列上进行训练的，但在推理阶段，它仅基于同一时间序列的过去数据和协变量特征，预测该时间序列的未来。

问：TiDE模型的关键观察点是什么？

答：TiDE模型的开发受到以下几个先前工作中的关键观察的启发：

变压器的局限性：虽然变压器在多种序列建模任务中取得了巨大成功，但它们在长期时间序列预测中的表现却不尽人意。这个观察表明，变压器的核心组成部分——自注意力机制，可能不是捕捉时间序列数据长程依赖性最有效的方法。

线性模型的优势：简单的线性模型在一些长期预测基准测试中出人意料地优于复杂的基于变压器的模型。这突显了线性模型在捕捉时间序列数据中的某些模式（如趋势和季节性）方面的潜力。

需要非线性和协变量的整合：然而，线性模型在建模非线性依赖关系和整合协变量方面存在局限性，而这些通常是实现准确预测所必需的。这一观察表明，需要一种模型，它能够结合线性模型的简洁性和速度，同时处理非线性和协变量。

这些观察促使作者提出了TiDE，一个结合了线性模型和深度学习架构优势的模型。通过采用MLP来处理非线性并显式地整合协变量，TiDE旨在实现长期时间序列预测中的卓越性能，同时保持高效性和简洁性。

问：TiDE的架构是什么？

答：TiDE架构是一个基于多层感知机（MLPs）的编码器-解码器模型，旨在处理时间序列数据和协变量，以生成长期预测。其架构包括以下关键组件：

残差块：这是模型的基本构建模块。它包含一个具有隐藏层和ReLU激活的MLP，并配有跳跃连接。对连接隐藏层和输出的线性层应用dropout，并在输出处使用层归一化。

编码部分：

特征投影：使用残差块将每个时间步的动态协变量映射到较低维度的空间。此降维步骤有助于管理输入向量可能非常大的问题。
密集编码器：将过去和未来的投影协变量，以及静态属性和过去的时间序列值进行堆叠、展平并拼接。然后将拼接的输入传递给一个由多个残差块组成的编码器，以生成特征的密集表示。

解码部分：

密集解码器：来自编码器的密集表示被送入一个由多个残差块组成的解码器，解码器类似于编码器。解码器的输出是一个向量，随后将其重塑为矩阵，每一列表示在某个特定时间点的解码向量。
时间解码器：这个组件通过将每个时间步的解码向量与该时间步的投影协变量结合来生成最终的预测。它充当了一个“高速公路”，将未来的协变量直接传递到预测中，使得当协变量对预测值有强烈且立即的影响时，能够进行适应并提高准确性。

此外，一个全局残差连接将回溯（过去的时间序列值）线性映射到与预测时间长度相同的向量，并将其加到最终预测中。这确保了一个纯线性模型始终是TiDE模型的一个子类。

该模型使用小批量梯度下降进行训练，损失函数为均方误差（MSE）。评估使用滚动验证，其中模型在测试集中的所有可能回溯和预测对上进行评估。

问：论文中提到的协变量是什么？

答：在论文中，协变量是指可用于提高时间序列预测准确性的附加信息。论文区分了两类协变量：

动态协变量：这些是随时间变化的变量，在回溯（过去）和预测（未来）期都已知。示例包括：时间衍生特征：如星期几、一天中的小时、假期等，所有时间序列都共有的特征。特定时间序列特征：例如需求预测中的某个产品的折扣，或能源预测中某个地点的天气状况。

静态属性：这些是时间序列的时间无关特征。示例包括：产品特征：如品牌、类别、尺寸等，在零售需求预测中的应用。位置特征：如人口密度、气候带等，在能源预测中的应用。

论文强调，整合协变量对于准确预测至关重要，因为协变量能够提供关于影响时间序列的因素的宝贵信息。TiDE模型旨在有效地处理这两类协变量，从而利用这些附加信息来提高预测准确性。

问：TiDE的架构具体是怎样的？

答：具体来说，TiDE模型的架构包括一个特征投影步骤，用于减少动态协变量的维度，以及一个时间解码器，能够在每个时间步直接适应未来的协变量。这一设计使得TiDE能够同时捕捉时间序列数据中的长期依赖性，以及协变量对预测值的即时影响。

问：TiDE的关键特征和贡献是什么？

答：TiDE的关键特征和贡献包括：

基于多层感知机（MLPs）编码和解码时间序列数据及协变量的创新架构。

理论分析证明了简化版线性TiDE模型在处理线性动态系统时的近最优误差率。

在基准数据集上的实证评估，表现优于或与最先进的基于Transformer的模型相当，同时显著更快。

有效整合了静态和动态协变量，这对于在实际场景中准确预测至关重要。

独特的时间解码器，允许在每个时间步直接适应未来的协变量。

问：TiDE与其他模型在性能上如何比较？

答：TiDE在基准数据集上超越或匹配了现有方法的表现，包括电力、交通、天气和ETT数据集。在最大的数据集（交通）上，TiDE的表现显著超越了最佳的基于Transformer的模型（PatchTST）。在M5需求预测竞赛中，TiDE利用所有协变量，比DeepAR的表现提高了20%。

问：TiDE在效率方面有什么优势？

答：TiDE在训练和推理时间上比PatchTST要高效得多，特别是在长上下文长度的情况下。这种效率得益于TiDE的计算复杂度相对于上下文和预测长度的线性扩展，而PatchTST的扩展是二次方的。

问：论文中的理论分析有什么重要意义？

答：理论分析为解释为什么像TiDE这样的简单线性模型在长期预测中有时能优于更复杂的基于Transformer的模型提供了洞见。它证明了TiDE的线性版本在某些假设下能够为线性动态系统实现近最优的误差率。

问：与TiDE相关的未来研究方向有哪些？

答：未来的研究方向可能包括：对MLP和Transformer在时间序列数据中的应用进行更严格的理论分析；探索预训练模型在预测中的使用；以及研究TiDE模型在时间序列预测以外的其他领域和任务中的适用性。

结论

论文的结论强调了像TiDE这样的基于简单MLP的模型在长期时间序列预测中的潜力。作者指出，自注意力机制（Transformer模型中普遍使用的机制）在这种背景下可能并不是捕捉周期性和趋势模式所必需的。作者还提出了未来的研究方向，如对MLP和Transformer在时间序列数据中的理论分析进行更深入的探讨，并探索预训练模型在预测中的应用。