头图
预测是数据科学中的一个热门但又困难的问题。挑战的出现有几个原因,从非平稳性到噪声、缺失值等等。如何解决这些问题可能是提高预测性能的关键。

时间序列是一系列按时间排序的值。预测这些数据集的关键是观察时序之间的时间依赖性,以及过去发生的事情是如何影响未来的。
但以下8个原因可能是影响时序预测可靠性(预测性能)的主要原因:

1.非平稳性

平稳性是时间序列中的一个核心概念。如果时间序列的统计量(比如平均水平)不随时间变化,则该时间序列是平稳的,其观察结果不依赖于观察它们的时间。
许多现有的时序预测方法都假设时间序列是平稳的,但趋势季节性等因素破坏了平稳性。转换时间序列可以减少这个问题,比如对时序数据进行差分、取对数等等,将非平稳转换为平稳数据,并可通过几种方法检验时间序列是否平稳,比如单位根检验(ADF)、KPSS-test等。

2. 预测步长过长

预测通常被定义为预测时间序列的下一个值。但提前预测许多值具有重要的实际优势,它减少了长期的不确定性,从而能够更好地制定商业作战计划。
预测更远的未来必然会增加不确定性,因此,预测更长的时间段变得更加困难。

3.对罕见事件的关注

通常,我们对预测罕见情况更加关注,这些是分布的尾部。以能源生产为例,预测用电高峰对于管理电网的供需至关重要。
通常情况下,罕见的事件会带来重大的长期后果,典型的例子是股市崩盘,这些事件会导致许多投资者的财务破产。罕见的事件可能会影响数据分布,从而使当前的模型过时。关于这些情况以及它们是如何发生的信息很少,因此很难预测它们。
有几种方法可以改进极值的预测:

  • 使用成本敏感模型;
  • 利用面向极端情况的统计分布;
  • 重新采样训练数据的分布。

4.额外的依赖关系和维度

除了时间之外,时间序列通常还有额外的依赖关系。 时空数据是一个常见的例子,每个观察在二维上是相关的,有自己的滞后(时间依赖性)和附近位置的滞后(空间依赖性)。 时空数据是多元时间序列的一个特殊实例。
这些时间序列由多个变量表示,额外变量可能包含宝贵的信息。因此,对它们进行建模对于提高预测性能可能至关重要。

5.变点

事物会随着时间的推移而变化,代表这些事物的时间序列的数据分布也是如此, 重大变化被称为变点(Change Points)。当它们突然发生时,这些变化被称为结构断裂。 有时变化点是已知的,比如市场崩溃或战争爆发,这深刻影响了组织的运作方式。
随着时间的推移,分布已经改变了,旧的观察没有以前有用,但是关于新分布的信息又很少。 检测和适应变化对于保持模型最更新很重要。

6.低信噪比

直观地讲,信噪比量化了时间序列的可预测性。
信号是数据的相关部分,也是试图建模和理解的东西。但是,这个信号经常被噪音或看似随机的、不可预测的波动所掩盖。
有时候这种噪音可能是我们缺乏领域知识,不知道哪些因素影响了数据,或者这些因素很难量化。所以序列的变化看起来比较随机,典型的例子就是金融数据,低信噪比数据是普遍存在的。

7.噪声和缺失值

噪声可能源于数据采集不足。比如噪声、缺失值可能是由于设备故障引起的,传感器故障导致数据丢失或者存在干扰,导致错误读数。
噪声也可能是由于错误的标签而产生的,当注释者给数据分配了错误的标签时就会出现这种情况。
适当的预处理步骤可以帮助增强序列的信号,比如卡尔曼滤波器或指数平滑。

8.小样本量

有些时候,时间序列包含少量的观测值,在这种情况下,算法可能没有足够的数据来建立适当的模型。
这个问题可能是由于采样频率低造成的。例如,时间序列只按月或按年观测,或者它们所代表的事物很少发生,比如极端天气事件。在零售行业,还可能会遇到冷启动问题,指的是新推出的产品信息很少的情况。
数据的缺乏可能是由于变点引起的(见上文第5点),如果发生重大变化,历史数据就会过时,需要反映新分布的新数据。
数据缺乏的问题可以通过使用全局预测模型来缓解(Lightgbm YYDS!),这些模型利用许多时间序列来构建模型。

小结

在本文中描述了在时序预测任务中常遇到的8个挑战:

  1. 非平稳性:当数据统计量随时间改变时;
  2. 多步预测:对长期预测的需求;
  3. 极值:对极端事件更关注;
  4. 额外的依赖:对预测至关重要的额外变量;
  5. 变点:检测分布的变化;
  6. 低信噪比:当时间序列具有低可预测性;
  7. 噪音:数据中的随机波动;
  8. 小样本:当没有足够的数据;
 公众号:DS数说
 作者:xihuishaw

欢迎关注我的公众号DS数说,原创技术文章第一时间推送。

原链接传送门:https://mp.weixin.qq.com/s?__...


没有蜡笔的小晞
6 声望3 粉丝