Apache Hudi 1.0 现已正式发布

# Apache Hudi 1.0 正式发布总结

## 主要观点
Apache Software Foundation 近日宣布了 Apache Hudi 1.0 的正式发布。Hudi 是一个事务性数据湖平台，支持近实时分析。该版本旨在将数据湖屋（Data Lakehouse）转变为完整的“数据湖屋管理系统”（DLMS），并引入了多项新功能以提升性能和管理能力。

## 关键信息
1. **起源与发展**：
   - Hudi 最初由 Uber 在 2017 年开发，作为 Apache Hadoop 上的增量处理框架。
   - 2019 年提交给 Apache Software Foundation。
   - 旨在填补数据库功能与开放数据湖屋架构之间的差距。

2. **核心优势**：
   - 同时支持近实时和批量查询。
   - 提供高性能的开放表格式和全面的开源软件栈。

3. **新功能**：
   - **二级索引系统**：提升查询性能，减少数据扫描成本，支持 SQL 索引和表达式索引。
   - **部分更新**：允许更新特定字段，提高存储和计算效率。
   - **非阻塞并发控制**：允许多个流作业写入同一数据集，避免瓶颈和故障。
   - **存储引擎增强**：采用日志结构合并树（LSM）进行高效的时间线管理，支持长期数据保留和高性能查询规划。

4. **用户反馈与社区反应**：
   - Vinoth Chandar（Hudi 项目创始人）强调 Hudi 的开放格式和软件栈避免了计算锁定。
   - Boris Litvak（Snyk 首席软件工程师）指出 Hudi 1.0 是首个在对象存储上引入功能索引的 ACID 存储格式。
   - Bhavani Sudha Saktheeswaran（Onehouse 软件工程师）表示 Hudi 1.0 使得处理湖屋数据更加便捷。

5. **技术细节**：
   - 支持通过 Apache Spark 部署，提供类似于数据库管理系统的体验。
   - 引入部分更新和非阻塞并发控制，优化数据处理流程。

## 重要细节
- **许可证**：Apache License 2.0。
- **社区活动**：Saktheeswaran 和 Saketh Chintapalli 在 QCon 旧金山会议上介绍了 Hudi 的增量数据处理，会议录影可在 InfoQ 观看。

## 结论
Apache Hudi 1.0 的发布标志着数据湖屋管理系统的一个重要里程碑，通过引入多项创新功能，显著提升了数据处理的效率和灵活性，为用户提供了更强大的工具来管理和优化数据湖屋。