时间序列基础模型在单变量预测基准评估中已展现出显著性能。但是在现实应用场景中,外部信息常常是时序决策过程中不可或缺的关键要素。

为基础模型添加协变量支持面临诸多技术挑战。核心问题在于:如何构建一个预训练模型,使其能够适应未曾见过的数据中出现的新相关性模式?这在初步考量时似乎是不可实现的。

现有模型采用了一些替代方法,但这些方法存在明显局限性,所以Chronos和亚马逊研究团队提出的一种新型可插拔解决方案:

ChronosX 通过在Chronos基础架构上增设适配器层,使模型能够有效利用历史观测和未来已知的协变量信息。

该适配器架构的优势在于其通用性——可适用于任何单变量时间序列基础模型!

本文将系统剖析ChronosX的工作机制,并深入探讨其在多种基准测试中的表现。

技术背景

首先,有必要简要回顾当前时间序列基础模型的技术原理。

目前唯一原生支持协变量的基础模型是MOIRAI。该模型采用了一种称为任意变量注意力(any-variate attention)的机制,有效捕获特征间的复杂依赖关系:

一些模型仅在微调阶段引入协变量处理能力。例如,Tiny-Time-Mixers (TTM)模型通过通道混合和外生注入(exogenous infusion)模块,处理历史观测、未来已知和静态变量:

TabPFN-TS是一个特例——该模型本质上是为时间序列预测重新设计的表格回归基础模型。它在合成多变量数据集上进行训练,并能在推理阶段利用外生协变量(历史观测输入除外)。

其他基础模型,如TimesFMChronos,均以单变量模型形式进行预训练。解决协变量集成问题的常见做法是为协变量单独训练回归模型。这种方法在大多数场景中表现尚可,但仍然无法有效支持历史观测输入的处理。

ChronosX架构设计

Chronos研究团队针对上述挑战提出了创新解决方案——ChronosX模型架构。

互操作性: 虽然专为Chronos设计,但该架构可应用于任何单变量预训练模型,包括基于补丁(patching-based)的模型如TimesFM。

结构简洁性: 该模块仅由线性层组成,设计轻量高效。

功能全面性: 同时支持历史观测和未来已知的协变量处理。

实用灵活性: 可选择微调整个模型和适配器,或仅微调适配器模块。

研究团队通过实验评估了多种架构设计,最终确定了最优配置。该架构主要由两个关键模块构成(图1):

输入注入模块(Input Injection Block): 利用历史协变量优化目标变量的预训练词元嵌入。

输出注入模块(Output Injection Block): 利用未来协变量调整输出分布(logits)。

图1:适配器双模块架构示意图

下面详细分析各模块的内部机制。

输入注入模块

输入注入模块(IIB)的架构如图所示:

图2输入注入模块内部运算流程

各数学公式和操作流程详解如下:

该模块设计简洁高效——主要通过基础投影操作将历史协变量信息与目标嵌入进行有效融合。

输出注入模块

输出注入模块(OIB)的架构如图3所示:

图3:输出注入模块内部运算流程

以下数学公式进一步详细阐释了OIB(图3)内部的运算机制:

类似地,该适配器设计简洁明了——核心目标是基于未来已知变量对模型输出进行精确调整。

实验评估

研究团队随后对所提出的适配器模块进行了全面测试。鉴于带有协变量的时间序列公开数据集有限,研究人员除使用真实数据集外,还构建了专用合成数据集。

数据集配置

合成数据集包含两种主要变体:

  • 简单型(Simple):仅包含基础正弦信号。
  • 复杂型(Complex):包含组合正弦信号并添加随机噪声。

两种变体均通过加法或乘法操作引入外部协变量增强。使用的四种协变量类型为:

  • 尖峰型(Spikes)—模拟短暂突发事件,如罢工或电力中断。
  • 阶跃型(Steps)—表示突然且持久的状态变化,如零售业促销折扣。
  • 钟形型(Bells)—表征平滑的暂时性波动,例如节假日期间的需求变化。
  • 自回归型(Autoregressive)—模拟协变量值依赖于其历史模式的场景。

图4展示了此类增强的典型示例:

图4:合成时间序列生成过程:通过将四种外部协变量之一(使用加法或乘法)应用于四种基本信号之一,生成带有对应协变量的时间序列。

模型接收增强信号及其协变量作为输入—理想情况下,模型应通过理解上下文信息(协变量)准确预测增强信号的未来走势。

建模配置

研究团队设计了两种适配器应用模式:

  • 仅适配器(Adapter-only):只训练适配器部分,保持主干网络参数冻结。
  • 完全微调(Fully Fine-Tuned, FF):同时训练适配器和预训练模型的所有参数。

具体命名规则上,ChronosX表示仅训练适配器的模型配置,而ChronosX(FF)表示带适配器的完全微调变体。

评估指标方面,研究团队采用了以下标准:

  • 加权分位数损失(Weighted quantile loss, WQL):评估预测分位数与实际值的一致性,计算范围为分位数{0.1, 0.2, ..., 0.9}。
  • 平均绝对比例误差(Mean absolute scaled error, MASE):衡量预测中位数相对于样本内季节性朴素预测(in-sample Seasonal Naive)的偏差程度。
  • 综合指标:WQL和MASE均报告为几何平均值,并按基线性能进行标准化处理。

合成数据集评估结果

研究团队在此环境下对多种模型类型进行了系统评估—包括统计模型、深度学习模型和基础模型。基础模型进一步细分为三类:

  • 零样本模型:如Chronos-small
  • 仅适配器训练的零样本模型:如ChronosX
  • 带适配器的完全微调模型:如ChronosX(FF)

除Chronos外,研究团队还将其协变量适配器机制应用于其他基础模型,如TimesFM和MOMENT。

图5总结了评估结果:

图5:合成数据集基准测试结果

从结果中可以得出以下关键发现:

  1. 协变量集成显著提升性能:仅适配器方法(包括ChronosX)及其微调变体(集成协变量信息)明显优于对应的零样本预训练模型—这凸显了协变量集成的实际价值。
  2. ChronosX取得显著性能提升:在WQL和MASE两项核心指标上,ChronosX相较于Chronos-Small提升幅度约为22%—充分展示了其作为预测模型的卓越能力。
  3. 完全微调带来额外性能提升:完全微调通常能进一步提高模型性能,如ChronosX(FF)和MOMENTX(FF)所示,尽管在某些特定情况下可能出现轻微性能下降,例如TimesFMX(FF)在复杂数据集上的表现。
  4. 基线模型的差异化表现:TFT、DeepAR和PatchTSTx等方法在简单数据上表现良好,但在复杂数据集上优势减弱。

需要注意的重要考量因素:

  • ChronosX使用的是Chronos-Small (46M)—一个参数量较小的基础模型。
  • 研究中未采用最新(且更强)的基础模型版本—例如,使用的是TimesFM-1.0而非TimesFM-2.0,是Chronos而非Chronos-Bolt,是MOIRAI而非MOIRAI-MOE。
  • 虽然使用了较新的TTM-R2变体,但上下文长度限制为512—性能不及更优的TTM-A版本
  • 大多数情况下,可采用更长的上下文长度—基础模型通常在最大上下文长度配置下表现更佳。

因此,此基准测试中的每个基础模型均处于非最优配置状态。尽管如此,实验结果仍清晰地表明协变量适配器的有效性。

真实数据集评估结果

随后,研究团队在带有协变量的真实世界数据集上测试了这些模型—这些数据集经过精心筛选,以避免预训练数据泄漏问题。

结果如图6所示:

图6:真实世界数据集基准测试结果

结果分析如下:

  1. ChronosX展现出极具竞争力的预测准确性:ChronosX在WQL指标上获得最高得分,在MASE指标上排名前五—表现出强大的整体预测能力。
  2. Chronos与其他预训练模型的对比分析:ChronosX持续优于其零样本版本及其他适配器实现,如TimesFMX和MOMENTX。
  3. 对原始模型的显著改进:即使是表现相对较弱的基础模型如MOMENT,在协变量适配后也获得显著性能提升(如MOMENTX)—这突显了所提出扩展方法的有效性。
  4. 微调后适配器表现下降现象:乍看之下这一结果令人意外—然而,研究人员解释称,部分数据集仅包含稀疏的单个序列样本。在这种情况下,拥有更多可训练参数的预训练模型易受过拟合影响。

总体而言,此基准测试支持ChronosX在不同数据频率和预测范围下的广泛适用性和卓越性能。

消融研究

最后研究团队进行了多项消融研究,以评估协变量各方面的影响。

在一项关键实验中,研究人员测试了性能提升是源自协变量信息还是源自适配器中额外的线性层。为了分离这一影响,他们移除了与协变量直接相关的权重矩阵—具体是前文提及的

WIIB_cov

WOIB_cov

矩阵。

他们构建了两个变体模型:ChronosX (NC)ChronosX (FF) (NC)—即ChronosX和ChronosX (FF)的无协变量版本。评估结果如图7所示:

图7:协变量模块权重矩阵消融研究结果

如预期所示,ChronosX (NC)和ChronosX (FF) (NC)的表现明显逊色—这有力地证明了适配器协变量模块的实际价值。

总结

这篇论文提出了一种简洁有效的方法,通过添加协变量处理能力,显著提升时间序列基础模型的整体性能。

尽管评估中使用了较早版本的基础模型(相较于最新版本处于技术劣势),但结果明确表明,经适配器增强的模型在性能上显著优于原始版本。

该方法的一个潜在局限性在于适配器需要经过训练—即使是轻量级的训练过程。这在技术上打破了零样本推理的严格定义。在实际应用中任何具有竞争力的零样本模型最终都需要进行某种程度的微调以适应特定场景。

时间序列预训练模型的下一个技术突破点将是在推理阶段直接引入协变量处理能力—类似于大型语言模型(LLM)通过提示方式处理上下文信息的方式。这一趋势已在Context-In-Key模型中初现端倪,该模型利用LLaMA架构集成额外协变量信息。

论文

https://avoid.overfit.cn/post/95b49e11465b405bacd33dcab27f173a

Nikos Kafritsas


deephub
125 声望108 粉丝