开始使用 PyIceberg：一种管理 Apache Iceberg 表的 Python 方式

发布于 2025-08-20

主要观点：现代数据平台快速发展，湖屋架构处于中心，Apache Iceberg 是关键，PyIceberg 是在 Python 中处理 Iceberg 格式大型数据集的工具，可用于供应链公司的特征存储等案例，有诸多优势但也有局限性。
关键信息：

湖屋架构结合数据湖低成本存储和数据仓库可靠性结构。
Apache Iceberg 由 Netflix 开发，能在云对象存储中管理 PB 级分析，给大规模文件带来数据库特性。
多数 Iceberg 实现依赖重计算引擎，PyIceberg 可在 Python 中完成多数操作。
以供应链公司为例，介绍 PyIceberg 的使用，包括文件夹结构、代码示例（创建特征表、模式演进、检查元数据和快照等）。
重要细节：
介绍 PyIceberg 的功能，如创建、修改、检查 Iceberg 表，追加数据，模式演进，探索元数据和快照，利用时间旅行重现 ML 训练数据等。
说明 PyIceberg 在 ML 和 DataOps 中的重要性，如时间旅行可重现过去训练集，模式演进无需迁移，本地开发无需 Spark 等，能快速反馈和管理模块化表。
指出 PyIceberg 的局限性，如不适合高吞吐量写入，不支持压缩或分区重写，缺乏分布式查询能力（可与 DuckDB 叠加）。

阅读 521