主要观点:
- 传统回测在新兴股市中易失效,原因是数据集存在问题,如数据缺失、流动性不足、监管变化等,传统回测管道会忽略这些问题。
- 问题不仅在于策略,还在于数据集本身,像印度、东南亚等市场无法提供基于美国股市模型所假设的干净、高频数据集,因此开发者应采用合成数据生成这一新方法。
- 合成数据的核心思想是模拟真实市场的混乱、不完整和易受冲击的动态,而非替代历史,通过构建模拟波动、流动性干旱和制度变化的数据集,在受控环境中排练现实。
- 为克服数据扭曲,开发者借鉴统计学和混沌工程方法,采用如自举回归块、注入流动性干旱和制度转换建模等技术生成合成数据,且能控制参数。
- 可利用合成数据进行压力测试,如在执行测试、投资组合弹性和制度转换验证等方面,让策略暴露在可能的崩溃点,增强其稳健性。
- 合成数据虽强大但有风险,如合成过度拟合,要注重可观测性和数据集的元数据记录,防止误用,且合成数据不能作为实际历史营销或用于 misrepresent 基金业绩,其作用是在模型工程中加强策略。
关键信息:
- 传统回测在不同市场环境下的问题,如新兴股市的幸存者偏差、流动性不足和结构变化等。
- 合成数据生成的三种技术:自举回归块、注入流动性干旱和制度转换建模。
- 利用合成数据进行压力测试的应用场景,如执行测试、投资组合弹性和制度转换验证。
- 合成数据的风险及应对措施,如注重可观测性和记录元数据。
重要细节:
- 通过简单的 Python 代码示例展示原始数据的缺失和异常情况,如模拟带有缺口和异常的合成市场数据。
- 详细说明块自举回归在保留波动率聚类方面的应用,以及合成数据与原始数据的对比。
- 给出注入合成冲击的 Python 代码示例,展示如何故意添加肥尾、流动性干旱和缺口等情况,以测试策略的稳健性。
- 提供合成数据集治理的元数据模式示例,包括数据源、生成方法、参数和创建时间等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。