作者 | 叔同
来源 | 阿里巴巴云原生公众号
今天,数字化成为企业的核心竞争力,千行百业都在拥抱云计算,拥抱云原生。2020 年我们认为是云原生的落地元年,那么 2021 年将是云原生加速推动企业数字创新的关键节点。在 3 月 29 日阿里云计算峰会上,阿里巴巴研究员、阿里云智能云原生应用平台负责人丁宇(叔同)发表了《云原生,企业数字创新的最短路径》主题演讲,全面回顾了阿里巴巴 15 年云原生实践历程,并重点解读了在数字经济的背景下,企业如何通过云原生实现应用云化,充分发挥云的价值,快速激活数字创新能力。
以下是内容整理。
阿里云对云原生的断言
Gartner 报告曾指出,到 2022 年,将有 75% 的全球化企业将在生产中使用云原生的容器化应用。在企业上云的趋势下,我们正在看到越来越多的企业和开发者开始把业务与技术向云原生演进。
阿里云对云原生提出了三个断言:
首先,容器+K8s 将成为云计算的新界面。容器彻底改变了云的使用方式,容器的重要性怎么形容都不为过,它在解决了许多问题的同时,还创造了新的架构可能性。容器化是搭建云原生的关键,如果说云原生是一栋高楼大厦,那么容器化便是这座大楼的底座。容器向上支撑多种工作负载和分布式架构,向下封装基础设施,屏蔽底层架构和异构环境的差异性,并能够形成应用的打包镜像分发交付标准。阿里云容器服务 ACK 向下封装了 30 款云产品,对于整个自动化运维和云平台的交互形成了一个新的界面,从而提升了系统的弹性能力和自动化运维能力。同时,容器也推动了软硬一体化的升级,如神龙裸金属服务器。
其次,对于开发者而言,云原生正在重塑整个软件生命周期。我们看到云原生向下延伸推动软硬一体化,向上延伸推动架构现代化,水平延伸解决研发运维全生命周期的挑战,包括代码开发、DevOps、CICD 流程、运维监控、可观测等。云原生与开发者的整个开发流程息息相关,是开发者不可忽视的重要助力。
最后,对于企业而言,云原生是企业数字创新的最短路径。云原生对于企业技术演进的价值在于,它可以实现基础设施云化,核心技术互联网化,应用架构现代化,业务智能化。这些特性给企业带来最直观的业务价值就是资源弹性、系统稳定、应用敏捷、业务智能、可信安全。
阿里巴巴十五年云原生实践
阿里巴巴拥有 15 年的云原生实践经验,在这 15 年的过程中,我们经常会面临一些关键的决策点,在这些决策点上每一步选择,都对阿里的云原生进程产生重要的影响。我们为什么全面拥抱云原生,每一步决策背后我们是如何思考的?
我们是在 2006 年开始探索互联网分布式架构,现在想起来这也算是阿里巴巴云原生的一个起点。为什么要做互联网分布式架构,是因为当时淘宝在快速发展过程中遇到了一些困难,300 人开发 3 个系统,这会带来一些发布的冲突、代码合并的冲突,进而导致研发效率下降,业务推进不够敏捷。因为这些痛点我们提出要做服务化的拆分,也就是分布式系统。2008 年淘宝的整个服务化拆分已经完成了,形成了三大核心中间件,并对行业进行了开源。
2011 年我们开始推进容器化的落地。为什么要做容器化?要知道,在 2011 年全球做容器化改造的公司都屈指可数。当时我们开始重点关注资源利用率的问题,从资源的供给层面,过去有几种形态,比如用纯粹的物理机,这就意味着部署密度比较粗,因此利用率不高。如果用虚拟化进行隔离,就会产生一定的资源消耗。在 2011 年,阿里巴巴开始做容器化技术改造 —— T4 项目。容器解决三个核心问题,一是部署密度,二是实现高效运维,三是资源隔离。随着 Docker 的出现,其容器镜像的标准化能力对自动运维产生了非常强的推动,保证容器可以实现标准化的交付。基于此,阿里巴巴将 Docker 集成,推进更标准化的云原生技术。
2015 年,当我们的技术和产品成熟之后,就开始推进产品技术的全面商业化,并全面拥抱云原生的标准。在这段过程里,阿里巴巴自身的业务发展也开始全面享受云计算的红利。比如 双11、双12 这样峰值型业务,如何通过云平台去解决资源池化后带来的极致弹性能力。因此,从 2015 年开始,阿里云开始全面支持阿里巴巴 双11,与此同时,我们开始落地容器的统一调度以及底层资源池的统一。除此之外,我们也开展了多种工作,比如混合部署,实现技术栈的统一、数据的统一,从而大幅降低了资源成本,提升了运维效率,更好地推进业务的智能化。
可以设想一下,如果一家公司有 1 万名工程师,如果可以提升 10% 的研发效率,就能节约 1000 名工程师,这极大地释放了我们的生产力。进一步,如果我们能有一些更高效的平台,更先进的方法和流程,并融入到技术体系中,就会给技术人员的产能带来巨大的飞跃。
2019 年,对于阿里云而言意义重大。2019 年阿里云支撑了阿里巴巴 双11 核心系统 100% 上云,在线业务容器规模近 200 万、100% 采用神龙弹性裸金属服务器、计算性价比提升 20%。紧接着在 2020 年,我们又完成了核心系统全面云原生化,云原生产品开始全面支撑集团大促,成为全球最大规模云原生实践的新底座。这背后的原动力,就是利用云原生的平台、产品、工具,实现应用云上生、云上长。
在云原生时代,云产品的核心竞争力是什么?在我看来,云产品的立身之本就是持续要做先进生产力的代表,这就要求云产品具备硬核的技术能力,并能实现快速迭代。对于任何一家企业而言,自身的系统是很难具备如此顽强的生命力和竞争力,阿里巴巴也是如此。因此,在 2020 年阿里巴巴全面切换为云原生产品支撑大促,一是认准了云原生技术趋势,二是基于云产品给阿里巴巴内部的研发效能、资源利用率带来的提升。
阿里云是云原生的引领者和最佳实践者。阿里云拥有国内最丰富的云原生产品家族,有超过 300 款的产品,近千个技术解决方案,包括云原生 DevOps、aPaaS & 微服务、消息和事件驱动、应用工具、Serverless 架构等,以及云原生数据库、大数据 / AI、应用交付和安全能力等。可以说,一家企业诞生于云原生时代,可以把自己的 IT 体系全面基于云去构建,阿里云在其中可以提供最完整的技术方案和产品体系。
阿里云拥有国内最全面的云原生开源贡献。今天,阿里开源的项目总数已经超过1000 个,涵盖了大数据、云计算、AI、中间件、容器、Serverless 等领域。这其中,一些开源项目也成为了该领域的事实标准。比如 Dubbo 已经成为国内影响力最大、使用最广泛的开源微服务框架;RocketMQ 是国内首个互联网中间件的 Apache 顶级项目,也是常年霸榜国内第一的开源中间件项目。此外,我们还有应用管理引擎 KubeVela,去年刚开源的阿里巴巴第一个边缘计算项目 OpenYurt,以及首个 Serverless 开发者平台 Serverless Devs,它也是业内首个支持主流 Serverless 服务 / 框架的云原生全生命周期管理的平台。
通过大量的投入开源,建立更多的技术标准,能够帮助更多开发者使用更先进的云原生的技术,这样社区生态和云之间会建立起非常好的连接,助力企业和云的共同快速发展。
3 月 25 日,权威咨询机构 Forrester 发布 2021 年第一季度 FaaS 平台(Function-As-A-Service Platforms)评估报告,阿里云函数计算凭借产品能力全球第一的优势脱颖而出,在八个评测维度中拿到最高分。阿里云成为比肩亚马逊的全球 FaaS 领导者,这也是首次有国内科技公司进入 FaaS 领导者象限。
信通院在 2020 年云原生用户调查报告中的数据也证实了这一点。报告中提到,阿里云 Serverless 产品凭借在双十一的技术锤炼和丰富的应用实践,在国内 Serverless 用户规模的占比达到 66%,远超其他云厂商总和,被认为是国内 Serverless 用户的首选。
不仅如此,阿里云云原生的产品能力获得了全球顶尖测评机构的认证。去年 3 月,Gartner 发布 2020 年公共云容器报告,阿里云连续两年成为唯一入选的中国企业,在产品丰富度上更进一步,与 AWS 并列成为全球容器产品最完善的云服务厂商,覆盖了 9 项产品能力,领先谷歌、微软及 IBM 等企业。
下面我们将从三个方向来讲解下阿里云云原生产品和解决方案是如何赋能企业数字创新。
容器服务助力企业提升资源弹性,大幅降低计算成本
今天,云原生已经发展成为标准化的技术,云平台提供的产品与开源版本有什么区别?这是很多企业和开发者关心的问题。阿里云容器服务提供了大量企业级特性,包括安全治理能力、可观测能力、多云混合云管理能力、异构算力、调度能力、智能化运维能力等。在容器之上,支撑了多种多样的工作负载,包括微服务、有状态应用、大数据、智能应用以及区块链、IoT 等创新应用。
基于容器产品家族,我们对外提供了完善的容器解决方案。去年,云原生 AI 解决方案备受企业关注。百家云团队对敏捷架构的探索让他们在高并发场景上运筹帷幄。这场战役之前,百家云已在阿里云团队的帮助下,优化自身容器集群架构与规划,通过以阿里云容器服务 ACK、弹性裸金属(神龙)实例的核心方案,从容实现动态扩容与高效管控。
面对海量业务数据,摆在众安科技面前的难题是 IT 成本的大幅增加,运维压力和数据安全成为核心痛点。基于容器服务 ACK,众安科技的硬件投入降低了 10%,运维压力大幅降低,人力减少 50% 以上。2020 年申通快速实现全面容器化,不但提升了申通系统的稳定性,还缩短了故障处理时间。云的弹性特别适合大促场景,云上资源可以按量付费,申通在大促结束之后就释放资源,每年为申通节省数百万计算成本。相比于线下自建机房和常备机器来说,云上资源操作更方便,管理成本也更低。同时,基于云原生改造,也推动了申通内部的技术体系创新,比如申通快递运维团队过去在 IDC 里面基本是通过手工或脚本化的方式打包部署,通过全面云化之后,利用容器化及云原生技术成功转型 DevOps 化,提升了研发和运维工作效率。
云原生中间件为系统稳定保驾护航
云原生的技术和产品,可以帮助用户轻松地从原有的 IT 架构向现代应用架构演进。从底层应用托管平台来看,阿里云提供了容器服务 ACK/ASK。在应用 PaaS 层,阿里云提供了 SAE、EDAS、Web+ 三款产品。在上层,阿里云提供了函数 FaaS 服务,可以满足不同的业务需求。不仅如此,阿里云还提供了各种各样的中间件服务,包括业界最为完整丰富的消息队列服务,覆盖了所有常见的消息协议,如国内著名的开源消息中间件 RocketMQ、业界流行的 Kafka、RabbitMQ、MQTT 消息队列都可以在阿里云上找到对应的商业化服务。在其它中间件领域,如微服务引擎 MSE、服务网格 ASM、云服务总线 CSB,以及针对事务服务的 GTS 等,都可以帮助企业用户快速构建现代化的应用架构。
云原生中间件完全兼容开源开放标准,支持超大规模复杂场景,具备企业级特性,可以实现高可靠的 SLA。在云原生中间件产品之上,我们也为企业提供了全面的解决方案,如异地多活、全链路压测、企业高可用、资源混部等。对于想要做云原生升级的企业而言,阿里云提供的完善的解决方案,从微服务治理到迁云、架构升级、业务中台等,帮助企业向现代化架构演进。
国内唯一进入 Forrester FaaS 领导者象限,阿里云 Serverless 全球领先
因为屏蔽了服务器的各种运维复杂度,Serverless 让开发人员可以将更多精力用于业务逻辑设计与实现,而逐渐成为云原生主流技术之一。Serverless 的优势在于,它将同质化的、负担繁重的基于服务器等基础设施的开发和运维等工作从应用开发中移除,让用户聚焦于业务创新。相比传统的开发模式,Serverless 模式基于大量成熟的云服务能力构建应用,用户的决策点更少,实施复杂度更低。
阿里云是国内最早提供 Serverless 计算服务的云厂商。2017 年,阿里云首发国内第一款具备毫秒级弹性伸缩能力的 FaaS 产品——函数计算 FC;2018 年,函数计算 FC 业内首个支持 NAS 文件系统;2019 年,函数计算 FC 升级为函数计算 FC 2.0,提供了预留实例、单实例多并发、自定义运行时、包年包月等国内首创的产品能力,消除冷启动带来的延时毛刺,很好的支撑了延时敏感业务,其卓越的单函数实例多并发能力,迄今仍是国内唯一。不仅如此,函数计算 FC 也是业界首个支持预付费的 Serverless 服务,相比后付费,单价降低 70%,更易于财务预算管理,在负载平稳时成本会更低。
除了函数计算 FC 之外,阿里云还提供了首个面向应用的 Serverless 应用引擎 SAE、面向容器编排的 ASK、以及面向容器实例的 ECI,构成当前所有云厂商中最完整的 Serverless 产品矩阵。
针对微服务应用,Serverless 应用引擎 SAE 能做到零代码改造。
- 免运维:帮助用户屏蔽底层 IaaS 和 K8s 细节,专注业务开发;
- 零改造:微服务应用无缝迁移,war/jar 应用无需容器化改造;
- 极致效率:提供秒级的弹性效率和极致 Java 应用启动效率;
- 一站式体验:无缝集成基础服务与微服务生态,功能更丰富,与其他云产品集成度高。
针对容器,Serverless 容器 ASK 可以极大提高容器应用部署的敏捷度和弹性能力,降低计算成本;让用户聚焦业务应用而非底层基础设施管理,极大地提高应用开发效率。ASK 应用的载体是容器镜像,灵活性好,配合调度系统可以支持各种类型应用,比如无状态应用、有状态应用、计算任务类应用等。自 2018 年 5 月 ASK/ECI 公测以来,Serverless 容器的价值得到了用户的广泛认可。疫情期间,多个在线教育平台使用 ASK/ECI 超强弹性能力支撑在线业务扩容,30s 内可以极速扩容 500 个应用实例,轻松应对预期和非预期突发流量。
产品重磅升级,打造全方位能力体系
今天,我们对三大领域云原生产品发布重磅升级。
- 容器服务重磅升级:发布云原生 AI 套件
Gartner 预测,70% AI 应用将在云上。企业在实践中也会发现,AI 容器化的需求场景越来越多。过往的几年里,我们通过容器服务 ACK 在异构计算资源管理、AI 任务生命周期管理、AI 任务调度和加速、AI 训练数据加速等方向提供了多种工具和解决方案,帮助企业提升 AI 生产的工程效率、计算资源利用率、AI 平台建设速度等。
我们在容器服务 ACK 基础之上,将底层计算资源优化、AI 任务管理,到上层 AI 引擎加速和领域算法应用的全栈优化能力整合在一起。各层能力既可以单独选择使用,也可以联合使用,达到整体优化的效果。云原生 AI 面向广大 AI 服务生产者,包括数据科学家、AI 算法工程师、AI 平台建设和运维者,都可以选择在 K8s 之上按需构建自己的 AI 平台。基于云原生技术,帮助用户快速构建 AI 平台,GPU 利用率提升 100%,AI 工程效率提升 50%,AI 训练速度提升 20%。
- 应用实时监控服务 ARMS 重磅升级:发布云拨测功能
随着数字化经济的蓬勃发展,越来越多的企业大力发展线上业务,对于企业来说,怎样预先评估自身的业务应用是否已达到目标服务质量和用户体验?如何精准定位终端用户访问应用过程中遇到的故障及其根因?怎样有效衡量自身与竞品的性能和体验差距, 是数字经济时代企业运维的痛点。
本次重磅发布的阿里云拨测是一款和博睿数据合作的 SaaS 化产品,可以针对互联网应用(Web 页面、网络链路等)进行应用性能和用户体验监测的服务,无需嵌码即可为云上用户提供开箱即用的企业级主动拨测式应用监测解决方案,是企业提升应用性能,提高用户满意度的运维利器。
- Serverless 重磅升级:发布全链路加速
Serverless 架构下,容器镜像和 Java 应用是开发者在云上部署应用时非常常见的两类载体。其中,容器镜像因其颠覆式创新,已经成为云原生时代应用部署格式的事实标准,但是容器镜像需要将数据通过网络远程下载并解压,对于 GB 级别的镜像,拉取时间可能高达分钟级别,客观上放大了冷启动副作用,阻碍实时应用的 Serverless 演进。Java 在性能方面的卓越表现独树一帜,但在高性能的背后,Java 应用的启动性能差也令人印象深刻,这也影响了 Java 应用在 Serverless 架构下的表现。
本次函数计算重磅发布容器镜像加速技术,容器启动延时缩短 50%-80%。将原本属于开发者的镜像优化负担转由函数计算承担,进一步帮助开发者提高生产效率,专注业务创新。该技术源于阿里集团超大规模和场景高度复杂的容器环境,对镜像存储、加速技术有深厚的积累,并出色地承担了 3 年双十一、双十二、春节等大促秒杀场景的严苛的挑战。Serverless 应用引擎(SAE)重磅发布 Java 应用启动加速功能,首度将 Alibaba Dragonwell(阿里云开源的 Open JDK 长期支持版本)的冷启动加速技术、多线程运行加速技术和 SAE 自身的原地升级策略、镜像预热策略相结合,实现了 Java 应用的端到端启动速度提升 45%,最快仅需 15s,多线程性能提升 30%。
阿里云云原生是企业数字创新的最短路径
随着企业上云成为业界趋势,全面使用开源技术和云产品构建软件服务的时代已经到来。如何更好地拥抱云计算、拥抱云原生、用技术加速创新,将成为企业数字化转型升级成功的关键。
未来世界上的每家企业,都将成为数字化的软件企业。数字化转型或许没有统一路径,但经实践验证,云原生是企业实现数字创新的最短路径。阿里云云原生致力于为企业提供五大核心价值:资源弹性、系统稳定、应用敏捷、业务智能、可信安全,让企业放心用云,用好云。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。