大家期待已久的 CommunityOverCode Asia 2024 将于 7 月 26 日至 28 日在杭州举行。
CommunityOverCode 是 Apache 软件基金会(ASF)的官方全球系列大会,其前身为 ApacheCon。自 1998 年以来,在 ASF 成立之前,ApacheCon 已经吸引了各个层次的参与者,在 300 多个 Apache 项目及其不同的社区中探索 "明天的技术"。CommunityOverCode 通过动手实作、主题演讲、实际案例研究、培训、黑客松活动等方式,展示 Apache 项目的最新发展和新兴创新。
此次会议共设有 1 个主论坛和 15 个分论坛,来自不同领域的 150 余位专家导师将和大家分享 Apache 项目的新突破和 Apache 孵化器中的新创新,以及开源开发和以 “The Apache Way” 领导社区驱动的项目,共同探讨 Apache 的运作生态、Apache 软件的商业模式、开源的法律问题以及其他许多主题的内容。
Gravitino 项目自2023年底开源以来,获得业界广泛关注,社区迅速增长。今年6月,Datastrato 公司将此项目捐赠给 Apache 软件基金会并获得 Apache 孵化器全票通过,从而开启了 Apache 之旅;此次 CommunityOverCode Asia 站,是 Gravitino 加入Apache 后的首次亮相,Datastrato 联合社区用户准备了丰富的内容,期待跟大家进行深入的分享和交流。
在大会即将举行之际,小编将所有与 Gravitino 相关的会议议程整理出来,帮助大家更好地制定参会计划、更方便地跟演讲嘉宾、核心贡献者进行现场交流,敬请收藏。
Keynote
在大会第一天(26日)上午的 Keynote 环节,设有主题为《国际化的机遇和挑战》的圆桌讨论,邀请了包括 Datastrato 创始人 & CEO 堵俊平在内的多位嘉宾就相关议题展开讨论。
演讲议题:国际化的机遇和挑战
分享时间:7 月 26 日 11:00 - 12:00
议题介绍:
在全球化的背景下,开源软件的国际化和本地化变得尤为重要。在这个圆桌讨论中,来自国内的“出海先锋”们将围绕开源项目国际化、社区国际化和商业公司国际化的各种机遇和挑战展开讨论。
堵俊平丨 Datastrato 创始人 & CEO
堵俊平,Datastrato 创始人兼 CEO,LF AI & DATA 基金会董事,Apache 软件基金会成员,大数据技术与开源领域专家,Apache 开源基金会 Member, Apache Hadoop,OZone, YuniKorn 等项目 Committer 和 PMC,Apache Gravitino, NuttX 等项目导师。曾任世界 500 强企业开源委员会主席、大数据平台研发总监,开源业务总经理等职位,原 Hortonworks Hadoop 计算团队负责人等。
Data Lake & Data Warehouse 专场
演讲议题:Gravitino Apache Iceberg REST 目录服务:动机与更多可能性
分享时间:7 月 27 日 14:30 - 15:00
议题介绍:
本次会议将介绍 Apache Iceberg 社区引入 Apache Iceberg REST 目录的原因以及 REST 目录的最新进展。还将讨论 Apache Gravitino(incubating) 为何集成 Apache Iceberg REST 目录服务以及其未来发展。
演讲嘉宾:
房孝敬丨Datastrato, software engineer
在大数据领域有十年的经验,在阿里巴巴、腾讯和快手工作过,主要涉及分布式计算和调度系统。
演讲议题:数据湖在小米的 Data 和 AI 场景的实践
分享时间:7 月 27 日 15:45 - 16:15
议题介绍:
这次分享主要介绍了小米在数据和人工智能场景下的数据湖实践。在 BI 场景中,我们将介绍使用 Apache Iceberg 的业务实践和智能优化策略。在 AI 场景中,我们将介绍非结构化数据的管理。此外,我们还将介绍使用 Gravitino 在数据和人工智能场景下实现元数据统一化的解决方案。
演讲嘉宾:
李培殿丨Xiaomi Software R&D Engineer
小米软件研发工程师,负责 Apache Iceberg、Apache Paimon 和 Gravitino 的开发。
AI 专场
演讲议题:LLM 时代数据基础设施的演进
分享时间:7 月 28 日 14:00 - 14:30
议题介绍:
由 LLM(大型语言模型)驱动的数据可以使应用程序更高效、准确和个性化,人工智能已被广泛应用于自然语言处理、推荐系统和数据分析等各种场景,并取得了显著成果。大型模型可以更好地优化数据,而深度优化的数据可以更好地训练大型模型,LLM 和数据相互补充。
在本次演讲中,我们将介绍我们的开源项目 Gravitino 如何构建一个统一的元数据湖,通过 Single Source Of Truth 来管理数据团队和人工智能团队的所有元数据。这不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以使用 Gravitino 在单一的真实数据源中管理他们的元数据。Gravitino 不仅填补了人工智能模型元数据管理的空白,还提供了 Java、Python 和 NodeJS 的客户端,使得来自不同部门的数据团队、人工智能团队和业务团队可以无缝地完成数据 ETL、数据清洗、特征工程、模型训练、模型发布以及应用程序和模型集成的整个过程,加速数据和人工智能的融合。
Gravitino 还提供统一的 IAM 权限管理和对来自多个数据源的异构(结构化/非结构化)数据的统一读写支持,以支持多云环境,使得人工智能团队可以充分利用公有和私有数据中心中的 GPU、存储、云服务等基础设施资源,并降低模型训练的成本和周期。演讲者还将分享小米、唯品会和其他互联网公司如何使用 Gravitino 来解决人工智能模型训练中的问题和挑战。
演讲嘉宾:
Xun Liu丨 Datastrato Co-Founder & COO
Xun Liu,拥有二十年的软件开发经验,过去十年一直在大数据开发领域工作。他是 Apache 软件基金会的成员和孵化器导师,并孵化了 Apache 中的多个开源项目,同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员之一。Xun Liu 是 Datastrato 的联合创始人兼首席运营官,目前负责公司开源项目 Gravitino 的运营工作。
演讲议题:基于 Gravitino 的小米数据和人工智能框架实践
分享时间:7 月 28 日 15:00 - 15:30
议题介绍:
随着数据和人工智能的整合日益紧密,对两者的统一管理成为企业内部面临的挑战。Databricks 通过 Unity Catalog 引入了一种商业产品,通过它可以桥接大数据和人工智能。然而,由于它是专有的,企业难以在内部实施这个解决方案。在过去的几年中,小米已经统一了表格数据管理的元数据系统,带来了显著的好处。今年,我们将元数据管理扩展到了人工智能数据领域。借助 Gravitino,我们可以在一个统一的系统下管理非表格和表格数据,实现数据+人工智能的统一元数据。
演讲嘉宾:
Kang Zhou丨Xiaomi,Team Leader of Data Development Platform
小米高级软件开发工程师,负责大数据平台的开发工作。Apache Kylin、Gravitino 的贡献者。
DataOps 专场
演讲议题:为什么我们需要构建一个统一的元数据层 —— Gravitino?
分享时间:7 月 28 日 14:30 - 15:00
议题介绍:
如今,越来越多的数据以不同形式存储在不同的云和系统中,这给企业的数据治理、安全控制和数据合规性带来了挑战。AI 需求的激增也对数据治理提出了更多要求。统一的元数据管理平台 Gravitino(计划捐赠给 Apache 孵化器)可以帮助企业清晰地掌控其数据 + AI 资产,实现多云和多引擎支持、数据权限的统一管理、敏感数据识别、脱敏规则设置等;本主题将围绕以元数据为核心的数据合规性和数据治理,并结合具体案例进行讨论。
演讲嘉宾:
Shaofeng Shi丨Datastrato, VP of engineering;
史少锋,Apache 成员,Apache 孵化器项目管理委员会(PMC)成员,Apache Kylin 项目管理委员会(PMC)成员,Apache Gluten 和 Apache Horaedb 的导师等;Datastarto 工程副总裁,Gravitino 贡献者。
Incubator 专场
演讲议题:Gravitino:一个多区域、地理分布的元数据湖
分享时间:7 月 28 日 16:45 - 17:15
议题介绍:
欢迎参加关于 Gravitino 的演讲!管理元数据可能既复杂又耗时,但 Gravitino 提供了终极解决方案。它为跨地区数据提供单一的事实来源,支持地理分布式架构。这让您可以将数据存储和管理在一个地方,全球各地均可访问。通过统一的数据和 AI 资产管理,您将获得集中的安全性和数据访问管理,使数据保护更加容易。Gravitino 通过简化任务和提供以下优势,帮助您更专注于数据:
- 安全且集中的元数据存储和管理
- 随时随地的数据访问
- 借助易于使用的 UI 进行优化的数据管理
Gravitino 是简化元数据管理过程的理想解决方案。它是开源且免费的,因此立刻就尝试使用 Gravitino 来体验其优势吧!
演讲嘉宾:
Justin Mclean丨Open Source Community Manager, ASF Board Member
Justin Mclean 是一位经验丰富的专业人士,在 Web 应用程序开发、教育和社区工作方面拥有超过 30 年的经验,并积极参与开源软件的贡献。Justin 是全球各地会议上备受赞誉的演讲者,目前担任 Datastrato 的社区经理。他在 Apache 软件基金会中担任项目导师,并担任 ASF 孵化器主席和 ASF 董事会成员。
以上是本次大会所有与 Gravitino 相关的分享,此外我们在会场也布设展台,期待与您在杭州的相遇!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。