头图

前言

在今年的 CommunityOverCode Asia 大会上,阿里云开源大数据负责人王峰老师带来了题为《一路前行,阿里云大数据从拥抱开源走向引领开源》的演讲。会后,SegmentFault 思否团队围绕阿里云开源大数据平台的技术创新与行业应用、开源商业等一系列问题和王峰老师展开了更深度的探讨。

这将是一份内容丰富的指南,王峰从阿里云对开源大数据生态的投入开始,分享了他对云和开源的关系、开源和商业的关系的洞察和思考,以及阿里云开源大数据平台战略规划,最后他对从事大数据领域的开发者分享了他的经验和建议。

以下是访谈实录

从业务驱动开始,持续投入开源成就普惠的Flink生态

思否:王峰老师您好,请您简单介绍一下阿里云的大数据平台,以及您此前在这一领域的经历。

王峰:阿里云的大数据平台主要分为两个方向,一个方向是纯自研的技术体系,也就是阿里云自主研发的大数据平台。另外一个方向就是我负责的基于开源生态系统的大数据技术平台,主要涵盖了实时计算 Flink、EMR 和数据湖等业界主流大数据分析技术。我们的团队始终贯彻开源开放的精神,拥有全球化视野的思维方式,拥有多位 Apache 的 Committer、 PMC Member 和 ASF 正式成员。

我个人是大约十年前开始专注于开源大数据技术,从 Apache Hadoop、HBase 这些早期技术起步,逐渐扩展到如今的 Flink 以及最新的数据分析领域。

思否:Apache Flink 可以说是阿里云对开源领域最具有代表性的贡献之一了。请详细讲一讲这个 Flink 是如何一步步正向发展的?

王峰:回顾 Flink 的发展,离不开业务的驱动,当然也有一定的幸运成分在。在 2015 年,大家都在专注于大规模数据的效率提升,大数据技术开始由 Hadoop 向 Spark 升级进行数据处理加速,但 Spark 毕竟还是批处理系统,可以把Hadoop处理能力从天级变成小时级,这感觉更像是高铁提速,但还是火车。反观淘宝在10年前正经历着高速发展期,双十一可以说是每年的焦点,其带来的业务量是爆炸式的增长,且对数据的实效性要求非常高。所以,火车远远不够,我们需要的是飞机。为了提升搜索的实效性、商品更新的实效性及个性化推荐的实效性,我们迫切地需要一款能真正进行实时计算的大数据技术,在对多种技术调研后,我们选择了初出茅庐的 Flink。

Flink 是由德国的data Artisans 公司捐赠给 ASF的,恰好在2016年美国的 Hadoop Summit 上,我们和 DA 的CEO以及 CTO 两位创始人见面,我们也是当时在Hadoop Summit 上仅有的2个 关于Flink 的talk。随后又邀请他们来到杭州阿里总部做技术交流。他们表示非常惊喜,原来中国这么大的公司在使用他们的技术,要知道他们公司也就几个人,我们这边的团队是十几个人。我们对于 Flink 的期待是不仅要用到阿里内部业务上,还希望以后能够让更多企业也都使用起来。所以,在2017年我们把阿里的实时计算体系都统一成了 Flink,并在 2018 开始在阿里云个推出基于 Flink的实时计算服务。

2019 年阿里巴巴在认识到 Flink 的潜力后,希望能够对这项技术和社区进行更大的投入和支持,因此决定收购德国的 Flink 创始公司,希望能够持续投入资源推动 Flink 社区走得更远。随后,Flink 技术开始更加快速的发展,在中国无论是金融、电信这种传统行业,四大行三大运营商,这些代表性企业全部都采用了 Flink,包括美国、欧洲、大洋洲、东南亚无一例外也都全部采用这个技术。至此,我们把 Flink 推成一个跟 Spark 齐名的、全球化的大数据技术生态。

通过阿里巴巴对 Apache Flink社区的不间断投入,目前 Flink 已经在全球范围内成为实时流计算的事实标准。目前全球绝大部分使用 Flink 的公司都不需要为之支付费用,却都享受到了开源技术的红利,这离不开阿里巴巴对开源技术的贡献和支持。

思否:阿里云积极参与开源贡献,推动开源大数据平台的创新和发展,可以讲讲有哪些正在孵化中的新项目吗?

王峰:从去年开始,我们就将一些新的数据湖格式 Apache Paimon 从 Flink 社区中独立孵化出来。我们孵化这个项目的动机是我们看到了一个创新的增长点,数据湖已经成为一个趋势。Lakehouse 架构中以 Iceberg 和 Delta 为代表的数据湖格式更适用与 Spark 批处理紧密结合,更像是用于替代 Hive 的离线数据湖解决方案。然而,在完全实时化的流式计算和面向实时分析的数据湖格式方面,目前业界还没有出现成熟的解决方案。这种完全实时化的数据湖格式很可能需要从 Flink 这样的流处理生态系统中引出,就像 Spark 引出 Delta和 Iceberg的发展路线。

我们的目标是在 Flink 生态系统中孵化出新的面向实时分析的数据湖格式。我们计划从一开始就在 Flink 中开发这个项目,但同时我们也希望它不仅仅是 Flink 的附属产品。我们希望保持生态系统的开放性,使其能够自由发展并满足各种需求,因此我们在今年初在Flink 社区独立孵化出了新的 Apache Paimon 数据湖项目。

在数据湖分析领域,我们还看到 Spark、Flink、Presto等主流分布式计算引擎都需要进行数据 Shuffle,特别是在新的存算分离架构下,数据 Shuffle 服务是必不可少的。然而,业界还没有一个非常通用的 Shuffle Service 解决方案,因此我们的EMR 团队独立孵化了 Celeborn, 统一的大数据 Shuffle 服务,并将其捐赠了 ASF,目前已经得到了国内外多家知名的支持和贡献。

我们去年就孵化了这两个项目,希望再过一段时间就能作为新的顶级项目从 Apache 孵化器毕业。我们希望通过这两个项目探索业界的空白区。接下来,我们还有一些计划,但目前还没有完全成熟,暂时无法对外公开。预计未来每年都可能会推出 1-2 个类似的项目。

开源与商业:将技术商业化,让社区像常青树一样发展

思否:您是如何看待开源与云之间的关系的?云的出现,对于开源软件的商业化意味着什么?

王峰:我认为开源和云之间存在一种相辅相成的关系,我们通常在云上提供开源生态的计算服务。它们之间有许多相似之处,最重要的相似点是普惠开发者。大量企业和开发者可以自由使用开源软件,开源软件的开发者也可以与来自世界各地的同行进行无障碍技术交流。云平台的出现,也让开发者可以聚焦在业务发展上,而无需自建基础设施,大幅降低了数字化转型的成本。

同时,开源技术与云也在相互促进。开源软件的繁荣使得云上应用生态更加丰富。云也为开源软件提供了良好的运行底座,使得开发者可以方便地在云上进行开发、部署和使用开源软件。特别是对于分布式软件来说,云服务提供了弹性的计算和存储资源,使得分布式系统的部署和管理更加方便。云上的虚拟环境可以根据需求进行灵活的配置和调整,可以租用一周或一个月的时间,甚至会为开发者以及学生提供一些免费的环境,使得他们可以在云上进行实验、学习和开发,探索各种开源技术的可能性。

开源给大家带来了乐趣与便利。但是要维持社区的发展,必然需要付出成本。如果没有人来支持和维护开源社区,它很可能会迅速失去活力。所以,并不是每个开源社区都能茁壮成长,有些社区会逐渐衰落,甚至大部分社区都可能面临凋落的情况。当一个开源社区逐渐失去支持时,各个方面的发展可能会受到限制,甚至连系统和后台都无法得到支持。如果在这个开源软件的背后出现一家公司,可以基于云的环境去提供商业化的服务。这样的支持将为开源社区带来一定的支撑,使其不仅仅依赖于软件销售来维持生存。

现在有许多成功的开源公司,如 Databricks、Confluent、Elastic、Clickhouse 等,他们都在基于全球云厂商提供多云服务进行商业化。它们利用云平台提供的基础设施,可以方便构建自己的 PAAS 和SAAS 层。这种模型基于开源技术进行运营,并且在商业上获得回报和闭环之后,更好地回馈开源社区。给开源社区的持续创新和发展带来活力。我认为这两者之间形成了一种非常良好的合作模式。

image.png

思否:从服务集团内部到通过产品来服务更广泛的客户,阿里云是如何通过 EMR 与开源项目(如Hadoop、Spark等)集成,以支持更广泛的大数据处理需求的?

王峰:2009 年开始,阿里开始投产基于 Hadoop 的大数据平台—云梯,并将其用于处理海量的电商数据处理,之后几年随着云计算的崛起,我们的团队也开始转向云端,开始提供云上的开源大数据服务即今天的EMR。

其实在内部进行技术研发和在云上做技术产品是两种逻辑。在内部开发时,你基本上是一个后台业务支持系统,目的为了支持互联网、金融、电信等传统或互联网业务的发展。作为成本中心不断进行降低成本是永恒的话题,业界大部分公司的技术团队基本上都是如此。

但当进入云计算这个赛道后,技术团队会进入到一个新的阶段,其使命是将技术真正转化为一种商品。这种技术本身不再是其他业务做后台支撑服务,而是自身直接成为业务和商品。研发团队需要将技术包装成开箱即用的产品和商品,不再需要将自己定位为后台的支撑系统为他人服务。这意味着你将直接产生商业价值,而不再只是一个成本中心。你的优秀表现将直接带来收入和利润。你的工作成果越出色,你将获得的回报也越大。这样,背后的开源社区,才能像常青树一样持续发展。就像 Spark 这些成功的项目,背后都有一个非常好的商业模式。我认为这是我们做到云之后,一个非常大的体会。我们需要将技术商业化,直接转化为商品,这样做会对技术发展产生更好的投入。

EMR(Elastic MapReduce)可以解释为在云上提供弹性的大数据计算服务。对于 EMR,阿里始终与时俱进,采用业界最主流的开源技术,以满足用户的需求。早期,我们支持 Hadoop,EMR 可以理解为云上的 Hadoop。随着 Hadoop 生态系统发展周期的变化,开始转向更流行的技术体系, Spark、 Flink 、 StarRocks 、Doris、Clickhouse、数据湖等等。开发者常使用的组合就是主流的需求,那我们就会提供相应的技术服务。就像近期比较流行的 OLAP(On-Line Analytical Processing)在线实时分析处理服务, SelectDB、StarRocks 等在这个领域中“争奇斗艳”。我们在 EMR上也会提供这些计算服务。近年来数据湖架构和实时计算比较火,我们也会提供基于数据湖的Streaming Lakehouse 新架构。

最后,人才的投入也是非常重要的一点,选择了一个开源社区之后,我们就会大力投入人力在云上提供服务。EMR 是投入比较大的,包括 Spark、StarRocks以及数据湖存储格式等技术,基本上每个 EMR 引擎技术都会有至少十个人的团队在社区背后做核心技术的研发,并且会不断培养出新的PMC Member和Committer。

image.png

阿里云开源大数据平台战略规划未来规划

思否:阿里云开源大数据平台战略规划是怎样的?

王峰:我们的规划可以分为两个方面。首先是在开源社区的推进,另一个则是在商业化方面的发展,我们始终坚持的理念是将商业和技术形成一个闭环。

通过在开源技术生态系统中的投入,我们希望为开源社区作出贡献并推动其发展,同时为技术人员提供保持技术先进性的渠道。Flink、Paimon 和Celeborn等开源项目不是我们的终点,我们将继续关注数据集成和流式湖仓等领域。未来我们也会继续推出新的开源大数据项目,以保持我们在整个开源技术生态的国际领先性。

此外,在商业化上我们也会持续进行更大的投入。因为我们追求的不是短期的KPI 开源,而是整个团队的长远良性发展。这就让我们必须证明自己的商业价值,而不仅仅停留在单纯的技术理想上。因此,在各个开源项目背后,我们都将推出企业级的产品能力,且要在核心引擎上实现更大的突破。现在 Databricks 也好,Confluent 也好,他们其实都有自己的企业级的 Spark 、企业级的 Kafka 这些内核级的优化。在商业化方面,我们计划更新我们自己的下一代企业级大数据引擎,包括Native Spark和Flink内核,并更好地与云基础设施进行集成,获得更好的性能。但我们保证产品的 API 和生态都是开源的,这意味着任何用户都不会受到绑定和影响,完全保持开源的用户体验。

作为云厂商,我们的目标是将所有开源产品都实现 Serverless 化 ,包括Flink、 Spark、StarRocks 以及数据湖管理等产品。这样一来,用户可以享受到开箱即用的体验,完全感受到开源的优势而无需关注底层机器的购买和管理。通过实现无服务器化,我们将提供比开源自建更好的易用性和用户体验。

我们理解并认识到,并非所有企业都希望基于开源产品进行自建,特别是一些业务驱动、高速发展的企业,会更加注重效率,他们不仅需要开源开放的生态,同时也需要开箱即用的易用性、企业的安全性和极致的性价比。所以,我们希望从商业化上满足他们的需求。最终,我们的商业化做得越好,就能投入更多资源到开源孵化和创新之中。这种模式对整个行业产生积极的贡献和回馈,构成了一个良好的循环。我坚信这种良性循环将为业界带来更大的益处。

对于从事大数据开源领域的开发者和从业者的建议和经验分享

我强烈建议大家积极参与开源社区。 一家公司、一个团队投入毕竟是有限的,真正推动开源力量和开源社区的发展仍然需要广大开发者的努力。事实上,参与开源社区运作有一套公开透明的规则,非常推荐更多的开发者去学习开源社区的运作方式,并行动起来为开源社区做出贡献。 我们可以根据自身需求对开源项目进行定制和改进,将认为值得推回的东西,推回给开源社区,以使其得到更好的发展。通过这样的参与,不仅对整个开源社区有益,对个人来说也非常有帮助。从现状来看,有开源项目孵化能力的企业仍然是少数,即使孵化成功,也有许多项目在短时间内就无法持续运营。这是因为孵化项目并不仅仅需要我们有强烈的意愿和热情,开源社区的持续运营、整个生态系统的可持续发展,这都需要有人才的支持。 而这样的人才是需要整个社会共同培养的,非常希望看到更多的中国开发者活跃在国际的开源舞台上。

结语

通过和王峰老师的交流,我们看到了阿里云在过去十余年的实践中对开源持续的投入和对技术创新不断的追求,也看到了开源与云、开源与商业相辅相成、彼此助益。

接下来,我们还将持续关注阿里云在开源大数据领域的最新动态和前沿探索。也期待有更广大的开发者和商业公司,可以积极参与开源、贡献开源,让开源的生态系统枝繁叶茂、蓬勃发展,也期待看到更多“国货”崛起,屹立于浪潮之巅。


思否编辑部
4.3k 声望116.9k 粉丝

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。