主要观点:越来越多组织将大量历史数据从 Postgres 转移到 S3 以提高可扩展性和成本效益,同时许多组织采用 Apache Iceberg 表格式,ParadeDB 推出 pg_lakehouse
并将 DuckDB 替换为其 DataFusion 查询引擎以支持 Iceberg 表,还分享了最初选择 DataFusion 和后来切换到 DuckDB 的原因及下一步计划。
关键信息:
- Apache Iceberg 是用于大数据集分析的开源规范,可将 S3 数据像 SQL 表一样查询。
pg_lakehouse
通过 foreign data wrapper API 为 Postgres 增加了对 Iceberg 的支持,可将多数查询推到 DuckDB 以提升性能。- 最初选择 DataFusion 是因其可扩展性、广泛采用和用 Rust 编写,后来切换到 DuckDB 是因为使用情况改变,DuckDB 有现成的集成、更受普通开发者熟悉且性能更好。
pg_lakehouse
下一步计划是实现写入支持,将 Postgres 表复制到外部对象存储中。
重要细节:- 2024 年 6 月 26 日 Ming Ying 发布关于从 Postgres 查询 Apache Iceberg 的文章。
- 展示了创建扩展、服务器、外部表并查询 Iceberg 表的代码块。
pg_lakehouse
版本 0.8.0 及之后支持 Iceberg,可安装扩展或运行 Docker 镜像,有问题可在 Slack 社区交流或给项目 star。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。