使用 Apache Iceberg 和 SparkSQL 构建可重现的 ML 系统：开源基础

主要观点：

在生产中构建 ML 系统会遇到数据问题导致模型在开发时表现良好，上线后却性能不佳，传统数据湖在 ML 工作负载所需的事务保证和版本控制方面表现不佳，Apache Iceberg 结合 SparkSQL 为数据湖带来了类似数据库的可靠性。
ML 数据可重现性问题常见，如数据漂移、特征管道非确定性、版本控制混乱等，传统数据湖设计初衷不适合 ML 工作，存在诸多问题，如缺乏事务完整性、模式灵活性导致混乱、元数据情况糟糕等，这些会带来隐性成本。
Iceberg 的基础知识对 ML 很重要，其时间旅行功能可通过简单 SQL 查询历史表状态，解决可重现性问题；模式演进无需复杂流程，能保持兼容性；ACID 事务支持可安全操作共享数据集。
构建可重现的特征管道需注意分区策略，按查询数据的维度进行分区，如时间分区等，同时要结合数据版本控制和特征存储集成；在生产实现中，通过实际案例展示了 Iceberg 在客户流失预测系统中的应用，包括数据架构、特征工程管道、性能优化和监控操作等方面。
给出了最佳实践和经验教训，如选择表格式要根据需求，避免常见陷阱如过度分区、模式演进错误、查询反模式等，以及迁移策略包括并行系统、优先处理关键数据集等。

关键信息：

重要细节：