摘要: Cloud Native 应用架构随着云技术的发展受到业界特别重视和关注,尤其是 CNCF(Cloud Native Computing Foundation)项目蓬勃发展之际。Dubbo 作为服务治理的标志性项目,自然紧跟业界的潮流,拥抱技术的变化。
Dubbo Cloud Native 实践与思考
Cloud Native 应用架构随着云技术的发展受到业界特别重视和关注,尤其是 CNCF(Cloud Native Computing Foundation)项目蓬勃发展之际。Dubbo 作为服务治理的标志性项目,自然紧跟业界的潮流,拥抱技术的变化。本次分享的议题包括介绍 Apache 孵化项目Dubbo Spring Boot Project 以及汇报 Dubbo 与 Cloud Native 整合过程中的一些实践与思考,如适配 Spring Cloud 、服务发现、服务网关、服务跟踪以及监控等。
注:为了读者的阅读方便和习惯,本文字稿将在演讲内容的基础上做出适当的调整。
自我介绍
马昕曦(小马哥),阿里巴巴中间件技术专家,十余年 Java EE 从业经验,Dubbo 维护者、架构师以及微服务布道师。目前主要负责阿里巴巴集团微服务技术实施、架构衍进、基础设施构建等。重点关注云计算、微服务以及软件架构等领域。通过 SUN Java(SCJP、SCWCD、SCBCD)以及 Oracle OCA 等的认证。
主要议程
今天我非常荣幸地与大家一起讨论关于 Dubbo Cloud Native 相关议题,本次议题紧扣“实践与思考“两个关键字,主要的议程包括:
Cloud Native 基础设施
Cloud Native 架构选型
Dubbo Cloud Native 准备
Cloud Native 基础设施
关于 Cloud Native 的定义,不同的云平台可能给出的内容存在差异。此处,我向大家介绍目前最热门的 CNCF 的定义:
”CNCF Cloud Native Definition v1.0“ 中的描述:
Cloud native technologies empower organizations to build and run scalable applications in modern, dynamic environments such as public, private, and hybrid clouds. Containers, service meshes, microservices, immutable infrastructure, and declarative APIs exemplify this approach.
相对于其他学术流派,CNCF 的 Cloud Native 定义更为具体,偏向于软件技术。这一点我们从文中的一些关键字能够明显地体会到,如关键字 "Containers(容器)"、"service meshes"、”microservices(微服务)“等。通常,开发人员较为关注的 Cloud Native 基础设施为:“服务发现”、“负载均衡”、“服务网关”、“分布式配置”、“服务熔断”以及“跟踪监控”,如图所示:
由于 PPT 格式的限制,此处我将“链路跟踪”与“服务监控” 并陈为“跟踪监控”。接下来,我们进入“服务发现”的讨论。
服务发现(Service Discovery )
随着微服务架构(MSA)受到不同规模企业的青睐,服务治理的实施逐渐被提上基础设施改造的议程。尽管这些概念在 SOA 时代已经提出,然而引起业界广泛关注应归功于微服务。服务发现(Service Discovery )作为服务治理的核心特性,通常也将服务注册(Service Registration)一并讨论。无论是服务发现,还是服务注册,在具体落地实施时,它们必须面对技术选型的问题。在座的各位,包括我,大多数是 Java 程序员,自然关心 Java 的技术方案。目前,Java 社区最为津津乐道的方案莫过于 Spring Cloud,搭配 Netflix OSS 组件 Eureka,帮助 Spring Boot 应用快速搭建服务发现体系。其中,Eureka Server 作为注册中心服务器,Spring Boot 应用整合 Eureka Client 向 Eureka Server 注册。实际上,Spring Cloud 除了整合 Netflix Eureka 作为服务发现之外,还提供了 Apache Zookeeper 和 HachiCorp Consul 的实现,所以这三种方案出现在当前页面:
其中还包括 Redis 和 Apache Curator,前者是 Dubbo 的服务发现实现方案之一,然而小马哥并不建议使用 Redis 作为注册中心,还是保持它缓存中间件的单纯性较好。而 Curator 作为 Zookeeper Java 客户端类库,它不但可用在 Dubbo,而且其扩展项目 Curator Service Discovery 也是 Spring Cloud 整合 Zookeeper 作为服务发现的关键基础设施。或许大家思考以上方案应该如何选型的问题。
如何选择
Eureka
当服务发现选型时,Netflix Eureka 或许是在开发人员脑海中复现的首选方案。然而 Eureka 在阿里大规模实践时,它的表现并不理想,当 Eureka 客户端服务实例数量达到一定时,Eureka Server 时常会出现服务不可用的情况,主要的问题集中在更新(Update)机制、复制(Replication)机制以及内存型存储。由于时间的关系,此处我不加详细说明,部分答案在 Eureka Wiki Eureka 2.0 Motivations 中也有描述:
Why Eureka 2.0?
Only support homogenous client views
Only supports scheduled updates
Replication algorithm limits scalability
注:以上具体内容在分享现场并没有具体提及,此处特意为读者补充。
以上问题 Netflix 早在 2015 年已意识到,然而 Eureka 2.0 的发布遥遥无期。后来,我托朋友联系上了 Netflix 的工程师,咨询他们关于 Eureka 1 在自身生产环境的使用情况。他们的回复是部分场景在使用。这样的答复值得玩味,再细问其覆盖比重,对方三缄其口。这不得不让我对 Eureka 的成熟度产生了质疑,所以我不建议大家在数以千计的应用实例场景中使用。
Consul
Consul 同样作为 Spring Cloud 服务中心,基于 GO 语言开发,其数据一致性采用 Raft 算法,低内存,集群支持。曾一度成为我理想的替换 Eureka 的方案,不过本人并不具备 Consul 的大规模运用,为此还特意请教永辉云创的架构师翟永超(《Spring Cloud 微服务实战》的作者)。他告知 Consul 表现不错,并在跨 DC(数据中心)方面也比较稳定:
他的答复让我增强了 Consul 的信心,稍显遗憾的是其 Consul 应用节点略少。后来,我听说 B 站的哥们自研服务发现中间件 discovery,他们应该也对 Consul 做过调研和评估,他们的看法是:
Github 开源地址:https://github.com/Bilibili/d...
discovery 在 B 站 K8S 上的使用情况:
综合两家公司的评估,尽管没有经过本人实际操作,并且两者没有提供具体的数据指标,然而在一定程度上说明 Consul 作为注册中心的实例节点规模大概在 2k 以内。换言之,它比较适合中小型企业。
Zookeeper
Zookeeper 即可是 Spring Cloud 注册中心,又能作为 Dubbo 注册中心,与 Eureka 不同,它属于 CP 分布式策略,而后者属于 AP。两者的共同点在于均属于内存型注册中心,在大规模集群场景,也会遇到 Eureka 类似的问题。不过从运维的角度,相较于 Eureka 而言,熟悉 Zookeeper 运维朋友更多。在生态性方面,Zookeeper 周边的生态更丰富,如 Zookeeper C API,尽管 Eureka 提供了语言无关性的 REST 接口。同时,Zookeeper 还从当配置服务器的角色,降低了学习的成本。综上结论,我推荐使用 Zookeeper 作为服务发现基础设施,无论您选择 Dubbo 方案,还是使用 Spring Cloud。尽管它在大规模集群时也出现 Zookeeper 间歇性卡顿等问题。
负载均衡
负载均衡是第二个重要 Cloud Native 基础设施,熟悉 Spring Cloud 的朋友一定对右侧的蝴蝶结有印象,它就是 Netflix OSS 负载均衡组件 Ribbon,框架层面提供了多种负载均衡规则,如:
随机 - RandomRule
轮循 - RoundRobinRule
权重响应时间 - WeightedResponseTimeRule
WeightedResponseTimeRule 之外,其他的 Ribbon 负载均衡实现均没有提供权重因子,而权重因子对于蓝绿发布、服务预热等方面的帮助是至关重要的。因此,权重因子在 Dubbo “随机“、”轮询“ 以及 ”最少活跃调用数“ 负载均衡算法中均体现。
以上讨论的两种框架均属于 Java 实现,而中间的 Kong 则是更为通用的实现,通常它作为 API 服务网关,后面我们将继续讨论。可简单地认为它是 Nginx + Lua 的扩展,负载均衡自然成为不可或缺的特性。其默认的负载均衡算法为具备权重的轮询(weighted-round-robin),同时一致性 Hash 算法作为可选方案。
服务网关
谈及服务网关,Java 工程师最容易想到的是 Spring Cloud Zuul。Zuul 是 Netflix 基于 Servlet API 开发的 Web 服务代理组件,在 Spring Cloud 使用场景中,它与 Eureka 和 Ribbon 整合,打造具备服务动态更新和负载均衡能力的服务网关。
最近,随着 Spring Cloud Finchley 的发布,Spring Cloud Zuul 的替代方案 Spring Cloud Gateway 孕育而生,不过官方的描述还是比较谦虚谨慎,并没有一刀切地引导开发人员从 Zuul 迁移到 Gateway 上来:
API Gateway built on top of the Spring Ecosystem, including: Spring 5, Spring Boot 2 and Project Reactor. Spring Cloud Gateway aims to provide a simple, yet effective way to route to APIs and provide cross cutting concerns to them such as: security, monitoring/metrics, and resiliency.
两者不同点在于,Zuul 运行在 Servlet 容器中,而 Gateway 并不像 Spring WebFlux 能够兼容 Servlet 3.1 运行时,而是必须依赖 Netty 的运行时,以及整合 Reactive 框架 Reactor,实现异步非阻塞网关。由于近期对于 Spring 5 WebFlux 能够大幅提升应用性能的观点甚嚣尘上,实际上,没有任何直接性能基准测试证明 WebFlux 能够加快程序执行速度,或许大家认为我的观点与主流格格不入,可是我要告诉大家的是,这个问题我在同事间验证过很多次,大多数情况,Reactive 并不没有提升性能。就连 Spring 官方也承认这个观点:
1.1.7. Performance vs scale
Performance has many characteristics and meanings. Reactive and non-blocking generally do not make applications run faster. They can, in some cases, for example if using the WebClient to execute remote calls in parallel. On the whole it requires more work to do things the non-blocking way and that can increase slightly the required processing time.
资源地址:https://docs.spring.io/spring...
同时,这里提供一篇 Spring 5 WebFlux: Performance tests 的文章,在结尾部分给出了结论,作者坦言在速度上没有明显的提升,甚至从结果来看,速度稍微更糟糕:
No improvement in speed was observed with our reactive apps (the Gatling results are even slightly worse).
以上测试工程和结论是由开源项目 JHipster 的工程师给出,具备一定的客观性和可信度。
资源地址:https://blog.ippon.tech/sprin...
换言之,基于 Reactor 开发的 Gateway 在性能可能并没有明显的提升。因此,Zuul 和 Gateway 的性能对比则演变为 Servlet 容器和 Netty Web 容器的比较,感兴趣的朋友可以去网上寻找一些比较数据,两者的性能在伯仲间。
当然,我和在座的各位一样,对 Java 的实现方案自然是情有独钟。然而我想说的是,身为 Java 工程师,眼中难免有 Java,但是眼中不要只有 Java。Nginx 作为当年著名 “C10K” 问题的解决方案,无论从连接数量,还是资源消耗方面均优于 Java 实现。作为技术人,应该具有更为宽广的胸怀,接纳非我族类的气魄,该放手的时候就放手。Nginx 作为服务网关不失为一种好的方案,然而它的动态性略为不足,需要结合 Lua 脚本辅助完成,因此,OpenResty 和 Kong 这类方案脱颖而出。如果就 HTTP API 网关而言,个人认为 Kong 的方案更佳,因为它提供完整的解决方案,包括前面讨论的负载均衡(权重)、服务熔断以及服务发现等特性。类似的特性在 CNCF 项目 Envoy 也有体现,它是另一种高性能代理的方案,提供服务发现、健康和负载均衡。在协议上,天然支持 HTTP 和 HTTP/2,而通讯协议支持 gRPC,建议大家予以高度关注。
值得一提的是,HTTP API 网关通常需要支持 sidecar,换言之,支撑网关服务的基础设施必须提供服务发现的能力,就功能性而言,Zuul 和 Gateway 自身并不具备这样的特性,需要搭配 Eureka 这样组件,它们更像服务路由器的角色。
分布式配置
左边和中间的四种技术均为 Spring Cloud 分布式配置的底层存储,其中 Git 为版本式配置,而 JDBC 是从 Spring Cloud Edgware 版本开始支持,提供更为通用和动态的配置源。这里我们又见到 Zookeeper 的声影,从简化运维的角度,可以利用 Zookeeper 即承担服务发现,也作为分布式配置的基础设施。而最右边的 etcd 是最近非常火的 Kubernetes 分布式配置的 key-value 存储,提供快速、简单、安全和可高的解决方案。
服务熔断
服务熔断也非常让开发人员联想到 Spring Cloud Hystrix 技术,不过 Hystrix 并非与 Spring Cloud 强耦合,当然 Dubbo 也能结合 Netflix Hystrix 框架提供服务熔断的能力,后面部分将介绍 Dubbo 与 Hystrix 整合,提升 Dubbo 服务熔断的能力。确切地说,Dubbo 所提供的能力是集群容错,包括 Failover 等模式。 Kong 也天然地支持服务熔断的能力,所以它作为 API 网关的特性是全面的。
链路跟踪
以上链路跟踪的基础设施从左至右,分别为 Zipkin、OpenTracing 以及 Jaeger,三者的灵感均来自于 Google 论文 Dapper。相对而言,Java 程序员可能更为熟悉 Zipkin,因为它是 Spring Cloud Sleuth 首选方案,提供客户端上报以及服务端聚合和 Dashboard 等功能。而 OpenTracing 和 Jaeger 是 CNCF 孵化项目,前者属于开放的标准,提供多语言的适配实现,后者则由 Uber(优步)公司开发并开源的链路跟踪项目,功能上与 Zipkin 类似,不过它基于 GO 语言开发,同时也提供 Java 客户端。
OpenTracing 官网:http://opentracing.io/
jaeger 官网:https://www.jaegertracing.io/
服务监控
服务监控与链路跟踪有所区别,主要用于监控应用系统或业务的指标数据,可能是健康阈值,如 CPU 或 内存使用率,也可以是业务指标,如最近一小时的用户登录量。通常采用 Metrics 方式暴露,可使用客户端推送或服务端拉取的方式传输 Metrics 信息到数据中心。通常 Metrics 数据与时间是存在对应关系,因此,基本上采用时序型数据库来存储,如图中的 OpenTSDB。通常,Java 微服务应用会选择 Spring Boot 框架作为基础设施,如我之前设计的监控架构就采用了 Spring Boot + OpenTSDB ,后端存储基于 HBase。当时 Spring Boot Actuator Metrics 仅为简单的 Key Value 形式,自然 OpenTSDB 是理想的选择。随着 Spring Boot 2.0 开始支持 Micrometer 之后,使得 Spring Boot 的应用能够整合更多的 Micrometer 适配方案,其中名气较大的就是图中间的 Prometheus,它同样也是 CNCF 的孵化项目。
当然服务监控不只是 Metrics 方式,我所知道国内不少的公司采用了日志收集的方案,并搭配 ELK(Elasticsearch, Logstash, Kibana) 架构,减少运维成本。假设您没有使用该方案,或者仅使用了 Elasticsearch 的话,无论哪种方案,图形化界面的监控是必不可少的,因此我推荐 Grafana,该项目能够支持多种数据源,包括前文提到的 OpenTSDB、Prometheus 以及 ElasticSearch 等。由此,从数据采集、上报、聚合以及展示的特性上,这些基础设施帮助 Cloud Native 应用构建服务监控的闭环。
本议程介绍了一些 Cloud Native 技术设施,接下里我们继续讨论 Cloud Native 架构选型。
Cloud Native 架构选型
CNCF 架构体系
CNCF 体系作为目前最热门的架构选型之一,基本上围绕着 Kubernetes 为中心而构建。个人认为,Java 业界和 CNCF 体系并没有达成共识,如服务网关,CNCF 主打 Envoy,而 Java 主要的方案为 Zuul 和 Spring Cloud Gateway。因此,个人建议是密切的关注 CNCF 的发展,不过个别孵化项目可以先行,如 Prometheus 和 Jaeger 等。 至于 CNCF 与 Java 生态的整合和落地,还得有待时日。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。