主要观点:Apache DataFusion 在 2025 年迎来重要发展,从早期采用者阶段成熟,成为构建高性能分析系统的可行选择,预计 2025 年基于其构建的系统数量将显著增加。InfluxData 早期就看好并基于 DataFusion 重建 InfluxDB,众多公司也纷纷采用并贡献,推动其发展。2025 年 DataFusion 将在开放数据湖架构等方面加速发展,同时需解决下游采用的摩擦、提升质量、推动性能极限等问题。
关键信息:
- 2024 年 DataFusion 达成多项关键里程碑,如成为 Apache 软件基金会顶级项目、举办多地见面会、发表研究论文等,DataFusion 43.0.0 成为最快的 Apache Parquet 文件查询引擎。
- InfluxData 早期采用 DataFusion 重建 InfluxDB,众多公司如 Coralogix、Greptime、Synnada 也加入,目前 InfluxDB 3 各方面数据处理都通过 DataFusion 计划。
- 2023 - 2025 年,大型公司开始构建和部署基于 DataFusion 的系统并贡献,如 Apple 用 DataFusion 替换 Spark 查询执行并捐赠给 ASF,推动其发展。
- 2025 年 DataFusion 将在开放数据湖架构中加速采用,需改善远程文件查询、缓存策略等,同时要减少下游采用的摩擦、提升质量、推动性能极限。
重要细节: - 从 0 到 1000 个项目的历程,两年前设定目标,2025 年有望达成。
- 众多公司和个人为 DataFusion 的发展做出贡献,如 94 人参与最新版本发布。
- 开放数据湖架构下,不同系统共享 Apache Parquet 格式数据,DataFusion 在其中发挥重要作用。
- 为提升 DataFusion 质量,有关于自动化工业测试等方面的计划和努力。
- 社区将平衡创新与稳定,推动 DataFusion 发展,欢迎各方贡献。InfluxData 对 DataFusion 的发展起到重要支持作用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。