开发者如何在嘈杂的市场中使用合成数据来对模型进行压力测试

主要观点:

  • 传统回测在新兴股市中易失效,原因是数据集存在问题,如数据缺失、流动性不足、监管变化等,传统回测管道会忽略这些问题。
  • 问题不仅在于策略,还在于数据集本身,像印度、东南亚等市场无法提供基于美国股市模型所假设的干净、高频数据集,因此开发者应采用合成数据生成这一新方法。
  • 合成数据的核心思想是模拟真实市场的混乱、不完整和易受冲击的动态,而非替代历史,通过构建模拟波动、流动性干旱和制度变化的数据集,在受控环境中排练现实。
  • 为克服数据扭曲,开发者借鉴统计学和混沌工程方法,采用如自举回归块、注入流动性干旱和制度转换建模等技术生成合成数据,且能控制参数。
  • 可利用合成数据进行压力测试,如在执行测试、投资组合弹性和制度转换验证等方面,让策略暴露在可能的崩溃点,增强其稳健性。
  • 合成数据虽强大但有风险,如合成过度拟合,要注重可观测性和数据集的元数据记录,防止误用,且合成数据不能作为实际历史营销或用于 misrepresent 基金业绩,其作用是在模型工程中加强策略。

关键信息:

  • 传统回测在不同市场环境下的问题,如新兴股市的幸存者偏差、流动性不足和结构变化等。
  • 合成数据生成的三种技术:自举回归块、注入流动性干旱和制度转换建模。
  • 利用合成数据进行压力测试的应用场景,如执行测试、投资组合弹性和制度转换验证。
  • 合成数据的风险及应对措施,如注重可观测性和记录元数据。

重要细节:

  • 通过简单的 Python 代码示例展示原始数据的缺失和异常情况,如模拟带有缺口和异常的合成市场数据。
  • 详细说明块自举回归在保留波动率聚类方面的应用,以及合成数据与原始数据的对比。
  • 给出注入合成冲击的 Python 代码示例,展示如何故意添加肥尾、流动性干旱和缺口等情况,以测试策略的稳健性。
  • 提供合成数据集治理的元数据模式示例,包括数据源、生成方法、参数和创建时间等。
阅读 13
0 条评论