1
头图

大家期待已久的 CommunityOverCode Asia 2024 将于 7 月 26 日至 28 日在杭州举行。

CommunityOverCode 是 Apache 软件基金会(ASF)的官方全球系列大会,其前身为 ApacheCon。自 1998 年以来,在 ASF 成立之前,ApacheCon 已经吸引了各个层次的参与者,在 300 多个 Apache 项目及其不同的社区中探索 "明天的技术"。CommunityOverCode 通过动手实作、主题演讲、实际案例研究、培训、黑客松活动等方式,展示 Apache 项目的最新发展和新兴创新。

此次会议共设有 1 个主论坛和 15 个分论坛,来自不同领域的 150 余位专家导师将和大家分享 Apache 项目的新突破和 Apache 孵化器中的新创新,以及开源开发和以 “The Apache Way” 领导社区驱动的项目,共同探讨 Apache 的运作生态、Apache 软件的商业模式、开源的法律问题以及其他许多主题的内容。

Gravitino 项目自2023年底开源以来,获得业界广泛关注,社区迅速增长。今年6月,Datastrato 公司将此项目捐赠给 Apache 软件基金会并获得 Apache 孵化器全票通过,从而开启了 Apache 之旅;此次 CommunityOverCode Asia 站,是 Gravitino 加入Apache 后的首次亮相,Datastrato 联合社区用户准备了丰富的内容,期待跟大家进行深入的分享和交流。


https://gravitino.apache.org

在大会即将举行之际,小编将所有与 Gravitino 相关的会议议程整理出来,帮助大家更好地制定参会计划、更方便地跟演讲嘉宾、核心贡献者进行现场交流,敬请收藏。

Keynote

在大会第一天(26日)上午的 Keynote 环节,设有主题为《国际化的机遇和挑战》的圆桌讨论,邀请了包括 Datastrato 创始人 & CEO 堵俊平在内的多位嘉宾就相关议题展开讨论。

演讲议题:国际化的机遇和挑战

分享时间:7 月 26 日 11:00 - 12:00

议题介绍:

在全球化的背景下,开源软件的国际化和本地化变得尤为重要。在这个圆桌讨论中,来自国内的“出海先锋”们将围绕开源项目国际化、社区国际化和商业公司国际化的各种机遇和挑战展开讨论。

堵俊平丨 Datastrato 创始人 & CEO

堵俊平,Datastrato 创始人兼 CEO,LF AI & DATA 基金会董事,Apache 软件基金会成员,大数据技术与开源领域专家,Apache 开源基金会 Member, Apache Hadoop,OZone, YuniKorn 等项目 Committer 和 PMC,Apache Gravitino, NuttX 等项目导师。曾任世界 500 强企业开源委员会主席、大数据平台研发总监,开源业务总经理等职位,原 Hortonworks Hadoop 计算团队负责人等。

Data Lake & Data Warehouse 专场

演讲议题:Gravitino Apache Iceberg REST 目录服务:动机与更多可能性

分享时间:7 月 27 日 14:30 - 15:00

议题介绍:

本次会议将介绍 Apache Iceberg 社区引入 Apache Iceberg REST 目录的原因以及 REST 目录的最新进展。还将讨论 Apache Gravitino(incubating) 为何集成 Apache Iceberg REST 目录服务以及其未来发展。

演讲嘉宾:

房孝敬丨Datastrato, software engineer

在大数据领域有十年的经验,在阿里巴巴、腾讯和快手工作过,主要涉及分布式计算和调度系统。

演讲议题:数据湖在小米的 Data 和 AI 场景的实践

分享时间:7 月 27 日 15:45 - 16:15

议题介绍:

这次分享主要介绍了小米在数据和人工智能场景下的数据湖实践。在 BI 场景中,我们将介绍使用 Apache Iceberg 的业务实践和智能优化策略。在 AI 场景中,我们将介绍非结构化数据的管理。此外,我们还将介绍使用 Gravitino 在数据和人工智能场景下实现元数据统一化的解决方案。

演讲嘉宾:

李培殿丨Xiaomi Software R&D Engineer

小米软件研发工程师,负责 Apache Iceberg、Apache Paimon 和 Gravitino 的开发。

AI 专场

演讲议题:LLM 时代数据基础设施的演进

分享时间:7 月 28 日 14:00 - 14:30

议题介绍:

由 LLM(大型语言模型)驱动的数据可以使应用程序更高效、准确和个性化,人工智能已被广泛应用于自然语言处理、推荐系统和数据分析等各种场景,并取得了显著成果。大型模型可以更好地优化数据,而深度优化的数据可以更好地训练大型模型,LLM 和数据相互补充。

在本次演讲中,我们将介绍我们的开源项目 Gravitino 如何构建一个统一的元数据湖,通过 Single Source Of Truth 来管理数据团队和人工智能团队的所有元数据。这不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以使用 Gravitino 在单一的真实数据源中管理他们的元数据。Gravitino 不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以无缝地完成数据 ETL、数据清洗、特征工程、模型训练、模型发布以及应用程序和模型集成的整个过程,加速数据和人工智能的融合。

Gravitino 还提供统一的 IAM 权限管理和对来自多个数据源的异构(结构化/非结构化)数据的统一读写支持,以支持多云环境,使得人工智能团队可以充分利用公有和私有数据中心中的 GPU、存储、云服务等基础设施资源,并降低模型训练的成本和周期。演讲者还将分享小米、唯品会和其他互联网公司如何使用 Gravitino 来解决人工智能模型训练中的问题和挑战。

演讲嘉宾:

Xun Liu丨 Datastrato Co-Founder & COO

Xun Liu,拥有二十年的软件开发经验,过去十年一直在大数据开发领域工作。他是 Apache 软件基金会的成员和孵化器导师,并孵化了 Apache 中的多个开源项目,同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员之一。Xun Liu 是 Datastrato 的联合创始人兼首席运营官,目前负责公司开源项目 Gravitino 的运营工作。

演讲议题:基于 Gravitino 的小米数据和人工智能框架实践

分享时间:7 月 28 日 15:00 - 15:30

议题介绍:

随着数据和人工智能的整合日益紧密,对两者的统一管理成为企业内部面临的挑战。Databricks 通过 Unity Catalog 引入了一种商业产品,通过它可以桥接大数据和人工智能。然而,由于它是专有的,企业难以在内部实施这个解决方案。在过去的几年中,小米已经统一了表格数据管理的元数据系统,带来了显著的好处。今年,我们将元数据管理扩展到了人工智能数据领域。借助 Gravitino,我们可以在一个统一的系统下管理非表格和表格数据,实现数据+人工智能的统一元数据。

演讲嘉宾:

Kang Zhou丨Xiaomi,Team Leader of Data Development Platform

小米高级软件开发工程师,负责大数据平台的开发工作。Apache Kylin、Gravitino 的贡献者。

DataOps 专场

演讲议题:为什么我们需要构建一个统一的元数据层 —— Gravitino?

分享时间:7 月 28 日 14:30 - 15:00

议题介绍:

如今,越来越多的数据以不同形式存储在不同的云和系统中,这给企业的数据治理、安全控制和数据合规性带来了挑战。AI 需求的激增也对数据治理提出了更多要求。统一的元数据管理平台 Gravitino(计划捐赠给 Apache 孵化器)可以帮助企业清晰地掌控其数据 + AI 资产,实现多云和多引擎支持、数据权限的统一管理、敏感数据识别、脱敏规则设置等;本主题将围绕以元数据为核心的数据合规性和数据治理,并结合具体案例进行讨论。

演讲嘉宾:

Shaofeng Shi丨Datastrato, VP of engineering;

史少锋,Apache 成员,Apache 孵化器项目管理委员会(PMC)成员,Apache Kylin 项目管理委员会(PMC)成员,Apache Gluten 和 Apache Horaedb 的导师等;Datastarto 工程副总裁,Gravitino 贡献者。

Incubator 专场

演讲议题:Gravitino:一个多区域、地理分布的元数据湖

分享时间:7 月 28 日 16:45 - 17:15

议题介绍:

欢迎参加关于 Gravitino 的演讲!管理元数据可能既复杂又耗时,但 Gravitino 提供了终极解决方案。它为跨地区数据提供单一的事实来源,支持地理分布式架构。这让您可以将数据存储和管理在一个地方,全球各地均可访问。通过统一的数据和 AI 资产管理,您将获得集中的安全性和数据访问管理,使数据保护更加容易。Gravitino 通过简化任务和提供以下优势,帮助您更专注于数据:

- 安全且集中的元数据存储和管理

- 随时随地的数据访问

- 借助易于使用的 UI 进行优化的数据管理

Gravitino 是简化元数据管理过程的理想解决方案。它是开源且免费的,因此立刻就尝试使用 Gravitino 来体验其优势吧!

演讲嘉宾:

Justin Mclean丨Open Source Community Manager, ASF Board Member

Justin Mclean 是一位经验丰富的专业人士,在 Web 应用程序开发、教育和社区工作方面拥有超过 30 年的经验,并积极参与开源软件的贡献。Justin 是全球各地会议上备受赞誉的演讲者,目前担任 Datastrato 的社区经理。他在 Apache 软件基金会中担任项目导师,并担任 ASF 孵化器主席和 ASF 董事会成员。

以上是本次大会所有与 Gravitino 相关的分享,此外我们在会场也布设展台,期待与您在杭州的相遇!


ShirleyYD
368 声望33 粉丝

有梦想的现实家