Apache Gravitino ALC Beijing
今年5月,在经过Apache孵化器委员会全部+1通过之后,Apache Gravitino(https://github.com/apache/gra...)现已官宣成为Apache 软件基金会 (ASF) 的顶级项目 (TLP) !这一里程碑标志着该项目自 2024年6月进入Apache软件基金会孵化器以来,带领不断发展壮大的社区又向前迈出了重要一步。
Gravitino最先由Data & AI领域先锋创业公司Datastrato开发,它的诞生是为了解决当今数据与AI生态系统中日益显现的痛点:打破数据孤岛,让长期割裂的数据与AI技术深度融合,为数仓、Lakehouse向下一代AI与多云原生的数据平台演进提供关键组件,即有着“新一代数据大脑” 之称的统一元数据平台。通过在企业内部构建统一的“元数据湖”(metalake),将企业内部分散在各处的多模态数据进行统一的聚合管理,Gravitino为AI及业务应用提供了一个强大的统一全局数据访问层,更好的支持数据的跨云、跨源计算,并让数据和AI 资产更易于发现、管理和优化。
"过往十几年在数据核心技术领域的深耕让我们意识到AI这一波革命将深刻改变数据技术,企业数据架构即将迎来3.0时刻。" Datastrato CEO 堵俊平在回顾Gravitino的创建历程中说到,“各公司都在努力应对日益复杂和分散的数据和人工智能环境,而业界缺乏一个统一的、能完美配合AI技术极速演进的智能数据架构与方案。从统一元数据层切入,是我们的一个大胆尝试与创新,没想到很快就得到业界热烈的反响与支持。”
“在确认了各大互联网公司和行业先锋企业有关于数据的痛点之后,我们首先想到的是开源,即以开放式创新方式来应对当下严峻的数据挑战”。Apache Gravitino PMC Chair (同时也是Datastrato CTO)Jerry Shao在谈到贡献Apache的历程中说到,“我们选择在一年前将Gravitino贡献给Apache软件基金会,是源于对鼓励社区共创的Apache Way精神的坚定信仰,这也是Apache基金会各大数据类项目Spark, Kafka、Flink以及近期的Iceberg等明星项目成功的秘诀。”
专为现代数据栈而打造
Gravitino开箱即用,支持多种数据与AI系统: 在存储方面支持HDFS和对象存储如S3等;在数据湖格式方面支持Iceberg、Hudi以及最新的Paimon;在计算引擎方面,除了支持数据计算引擎Spark, Flink、OLAP引擎Trino(Presto)、Hive、Doris/Starrocks,还支持Ray, PyTorch等AI框架; 对于主流的数据库系统如MySQL、PostgreSQL、OceanBase等也有很好的支持。无论是构建现代 Lakehouse 架构,还是尝试在混合云或多云环境中处理多模态的数据,Gravitino 都能帮助用户打破数据孤岛,简化数据计算并轻松实现多模态数据的治理。
Apache Gravitino PMC member、Datastrato工程VP史少锋表示:“我们非常高兴的看到 Gravitino正在成为日渐繁荣的社区,很多数据与AI领域的新技术,如:MCP, OpenLineage, DuckDB等等都在主动跟Gravitino社区积极对接。随着Gravitino快速成为Apache顶级项目,我们有理由相信Gravitino正在成为新一代AI元数据的事实标准,成为Data与AI技术的桥梁。毕业不是终点,而是一个新的起点,而我们才刚刚起步。”
社区不断壮大,被众多领先企业所采用
在进入Apache基金会不到一年的时间里,Gravitino就建立起活跃的全球贡献者社区,并获得了众多高科技公司的集体青睐。
Uber 数据平台总监Jack Song: “Gravitino 的独特设计旨在连接数据和 AI 工作负载。我们很高兴能够将其部署到我们的多云 AI 集群中,并为众多优先的 AI 和基于 Agent的场景做出贡献。Gravitino 的毕业标志着其成熟度迈入新阶段,它的背后是一个蓬勃发展且活跃的开源社区。”
腾讯云大数据平台产品总经理徐晓敏: “很高兴看到Gravitino从Apache 孵化器毕业;腾讯云是 Gravitino 早期采用者和贡献者,与社区一起成长是我们的宗旨。Gravitino满足了我们客户统一结构化和非结构化数据管理需求,使得多模态混合数据的AI计算和分析变得简单。”
Pinterest大数据平台总监Ang Zhang:“作为首个开源 Iceberg REST Catalog,Apache Gravitino 已在我们的生产环境中运行了相当长一段时间。Gravitino 晋升为 ASF 顶级项目标志着一个重要的里程碑——它反映了该项目的成熟度、社区的实力以及其在更广泛生产应用中日益增长的可靠性。”
小米计算平台负责人勇幸:“恭喜Apache Gravitino 项目从孵化器毕业。在过去的一年多时间里,小米深度参与了 Gravitino 的开发和迭代,贡献了多个核心模块的代码,也培养了几位优秀的 committer 和 PMC member。借助 Gravitino,我们在数据湖及非结构化数据管理等多个场景实现了统一数据目录的目标,平台用户可以非常高效地管理和访问各类数据。”
小红书数据引擎负责人季钱飞:“恭喜Gravitino毕业成为顶级项目。小红书作为早期使用者,我们基于湖仓存储和Gravitino建设BI+AI统一的数据架构, 显著提升了数据集成分析、管理和治理的效率。“
B站大数据架构负责人陈昱康:“热烈祝贺Gravitino成功从Apache孵化器毕业!在过去的一年多时间里,哔哩哔哩深度拥抱Gravitino将其作为核心元数据管理平台应用于生产环境,并结合自身海量数据和复杂场景进行了深度实践,显著降低了多引擎、多数据源场景下的元数据使用成本,解决了跨源数据一致性问题。我们为能参与Gravitino的早期应用与社区建设感到自豪,也期待与全球开发者一起,持续共建Gravitino的繁荣生态,推动统一元数据管理的未来。”
知乎大数据平台负责人贾承昆:“恭喜 Gravitino 从 Apache 孵化器毕业!Gravitino 是最早提出 DATA + AI 的统一的开源元数据管理系统,知乎也在很早期就引入 Gravitino 并和 Datastrato 的同学一起打磨产品,应用在知乎的生产环境,帮助知乎打破结构化和非结构数据管理上的鸿沟,统一的元数据平台的底层引擎,并将在多引擎的场景下发挥更大的价值。”
某大型电商数据平台负责人王新春:“恭喜Apache Gravitino 项目从孵化器毕业。这是对项目技术实力与社区协作的极高认可,期待未来在全球开源生态中持续闪耀!在数据湖和AI时代,元数据管理是一个复杂的问题。借助 Gravitino,我们正在数据湖仓、StarRocks多集群元数据管理,模型训练样本数据、模型文件管理等多个场景逐步推进统一管理的目标,提升数据使用的效率,以及大幅度降低存储的消耗。”
最后,正如Apache基金会孵化器主席(同时也是Datastrato社区经理)Justin Mclean所说:“毕业对于任何 Apache 项目来说都是一个重要的里程碑。Apache Gravitino 展现了顶级项目应有的成熟度,包括多元化且积极参与的社区,以及对ASF治理原则的深刻理解。”我们期待Gravitino社区继续保持勇立潮头的魄力与海纳百川的包容,推动智能数据技术进一步的创新与繁荣!
期待您加入社区
- 项目官网:https://gravitino.apache.org/
- Github 代码仓库:https://github.com/apache/gra... (欢迎star和参与贡献!)
感谢社区中所有为此做出贡献的人。让我们继续成长!
Apache 软件基金会毕业官宣链接:https://news.apache.org/found...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。