Hudi 与 Delta 与 Iceberg：如何选择合适的湖仓表格式

主要观点：几年前数据团队需在数据湖的灵活性和数据仓库的可靠性间做选择，现在湖仓架构弥补了这一差距，但需表格格式来组织原始文件；对象存储虽便宜且可扩展但较笨拙，表格格式通过维护元数据可解决此问题；介绍了 Apache Hudi、Delta Lake 和 Apache Iceberg 三种表格格式及其特点、适用场景、优缺点和实际应用案例，还对比了它们的功能，最后讨论了如何选择及未来发展趋势。

关键信息：

Hudi 为 Uber 而生，适用于每秒数百万事件的实时数据摄取，擅长 upserts 和 deletes、增量处理、低延迟摄取，缺点是复杂性高、采用范围较窄，实际应用于 ride-sharing 公司的实时数据处理。
Delta Lake 由 Databricks 创建，是最广泛认可的表格格式，具备 ACID 保证、时间旅行、与生态系统深度集成等优点，缺点是与供应商关联紧密、社区多样性不足，常用于全球零售商的销售数据管理。
Iceberg 由 Netflix 开发，设计用于 PB 级分析，在模式演进、分区演进、引擎无关性等方面表现出色，缺点是流式支持较弱、运营开销大，被金融服务公司用于监管报告。
三种格式各有优势，无万能答案，成熟团队多混合使用，未来趋势是互操作性提高、标准化努力和混合使用。

重要细节：

Hudi 可轻松更新或删除记录，下游作业可仅拉取新或更改的数据，以降低计算成本。
Delta Lake 提供可靠的事务处理，支持时间旅行，与 Databricks 深度集成，感觉像 Spark 的自然扩展。
Iceberg 可在不破坏查询的情况下更改列名、字段顺序或添加新字段，可改变数据分区方式，支持多种引擎。
团队可根据自身需求选择适合的格式，如实时摄取选 Hudi，通用可靠选 Delta Lake，大规模分析和模式灵活选 Iceberg，也可混合使用。