一、什么是分布式架构
分布式系统(distributed system) 是建立在网络之上的软件系统。
- 内聚性:是指每一个数据库分布节点高度自治,有本地的数据库管理系统。
- 透明性:是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。
在分布式数据系统中,用户感觉不数据是分布的,即用户不须知道关系是否分割,有无副本,数据存在于那个站点以及事物在哪个站点上执行。
简单来说:在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体,就好像是一个系统似的。
分布式系统作为一个整体对用户提供服务,而整个系统的内部的协作对用户来说是透明的,用户就像是指使用一个mysql 一样。
如:分布式mysql中间件 mycat ,来处理大并发大数据量的构架。
二、分布式架构的应用
1. 分布式文件系统
例如:出名的有 Hadoop 的 HDFS, 还有 google的 GFS , 淘宝的 TFS 等
2. 分布式缓存系统
例如:memcache , hbase, mongdb 等
3. 分布式数据库
例如:mysql, mariadb, postgreSql 等
4. 分布式webService
5. 分布式计算
举例
以分布式mysql 数据库中间件mycat 为例
MySQL 在现在电商以及互联网公司的应用非常多,一个是因为他的免费开源,另外一个原因是因为分布式系统的水平可扩展性,随着移动互联网用户的暴增,互联网公司,像淘宝,天猫,唯品会等电商都采用分布式系统应对用户的高并发量以及大数据量的存储。而在Mycat的商业案例中,有对中国移动的账单结算项目中,应用实时处理高峰期每天2亿的数据量,在对物联网的项目中,实现处理高达26亿的数据量,并提供实时查询的接口。
通过对MyCat的学习,加深分布式系统架构的理解,以及分布式相关的技术,分布式一致性ZooKeeper服务, 高可用HAProxy/keepalived等相关应用。
1> 集群 与 分布式
2> 负载均衡
3> 分布式相关的高可用、容灾等名词解释
4> Mycat 中间件学习
三、分布式架构的演进
(1)初始阶段架构
特征:应用程序,数据库,文件等所有资源都放在一台服务器上。
(2)应用服务 和 数据服务 以及 文件服务 分离
说明:好景不长,发现随着系统访问量的再度增加,webserver机器的压力在高峰期会上升到比较高,这个时候开始考虑增加一台webserver。
特征:应用程序、数据库、文件分别部署在独立的资源上。
(3)使用缓存改善性能
说明:系统访问特点遵循二八定律,即80%的业务访问集中在20%的数据上。
缓存分为 本地缓存 和 远程分布式缓存,本地缓存访问速度更快但缓存数据量有限,同时存在与应用程序争用内存的情况。
特征:数据库中访问较集中的一小部分数据存储在缓存服务器中,减少数据库的访问次数,降低数据库的访问压力。
(4)使用“应用服务器”集群
说明:在做完分库分表这些工作后,数据库上的压力已经降到比较低了,又开始过着每天看着访问量暴增的幸福生活了。
突然有一天,发现系统的访问又开始有变慢的趋势了,这个时候首先查看数据库,压力一切正常,之后查看webserver,发现apache阻塞了很多的请求,而应用服务器对每个请求也是比较快的,看来是请求数太高导致需要排队等待,响应速度变慢。
特征:多台服务器通过负载均衡同时向外部提供服务,解决单台服务器处理能力和存储空间上限的问题。
描述:使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源,提升系统的并发处理能力,使得服务器的负载压力不再成为整个系统的瓶颈。
(5)数据库读写分离
说明:享受了一段时间的系统访问量高速增长的幸福后,发现系统又开始变慢了,这次又是什么状况呢,经过查找,发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈,导致了系统变慢。
特征:多台服务器通过负载均衡同时向外部提供服务,解决单台服务器处理能力和存储空间上限的问题。
描述:使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源,使得服务器的负载压力不在成为整个系统的瓶颈。
(6)反向代理和CDN加速
特征:采用CDN和反向代理加快系统的访问速度。
描述:为了应付复杂的网络环境和不同地区用户的访问,通过CDN和反向代理加快用户访问的速度,同时减轻后端服务器的负载压力。CDN与反向代理的基本原理都是缓存。
(7)“分布式文件”系统 和 “分布式数据库”
说明:随着系统的不断运行,数据量开始大幅度增长,这个时候发现分库后查询仍然会有些慢,于是按照分库的思想开始做分表的工作
特征:数据库采用分布式数据库,文件系统采用分布式文件系统。
描述:任何强大的单一服务器都满足不了大型系统持续增长的业务需求,数据库读写分离随着业务的发展最终也将无法满足需求,需要使用分布式数据库及分布式文件系统来支撑。
分布式数据库是系统数据库拆分的最后方法,只有在单表数据规模非常庞大的时候才使用,更常用的数据库拆分手段是业务分库,将不同的业务数据库部署在不同的物理服务器上。
(8)使用NoSQL和搜索引擎
特征:系统引入NoSQL数据库及搜索引擎。
描述:随着业务越来越复杂,对数据存储和检索的需求也越来越复杂,系统需要采用一些非关系型数据库如NoSQL和分数据库查询技术如搜索引擎。
应用服务器通过统一数据访问模块访问各种数据,减轻应用程序管理诸多数据源的麻烦。
(9)业务拆分
特征:系统上按照业务进行拆分改造,应用服务器按照业务区分进行分别部署。
描述:为了应对日益复杂的业务场景,通常使用分而治之的手段将整个系统业务分成不同的产品线,应用之间通过超链接建立关系,也可以通过消息队列进行数据分发,当然更多的还是通过访问同一个数据存储系统来构成一个关联的完整系统。
纵向拆分:将一个大应用拆分为多个小应用,如果新业务较为独立,那么就直接将其设计部署为一个独立的Web应用系统 纵向拆分相对较为简单,通过梳理业务,将较少相关的业务剥离即可。
横向拆分:将复用的业务拆分出来,独立部署为分布式服务,新增业务只需要调用这些分布式服务 横向拆分需要识别可复用的业务,设计服务接口,规范服务依赖关系。
(10)分布式服务
特征:公共的应用模块被提取出来,部署在分布式服务器上供应用服务器调用。
描述:随着业务越拆越小,应用系统整体复杂程度呈指数级上升,由于所有应用要和所有数据库系统连接,最终导致数据库连接资源不足,拒绝服务。
在此我向大家推荐一个架构学习交流群。交流学习群号:575745314 里面会分享一些资深架构师录制的视频录像:有Spring,MyBatis,Netty源码分析,高并发、高性能、分布式、微服务架构的原理,JVM性能优化、分布式架构等这些成为架构师必备的知识体系。还能领取免费的学习资源,目前受益良多
四、分布式服务应用会面临哪些问题?
(1) 当服务越来越多时,服务URL配置管理变得非常困难,F5硬件负载均衡器的单点压力也越来越大。
(2) 当进一步发展,服务间依赖关系变得错踪复杂,甚至分不清哪个应用要在哪个应用之前启动,架构师都不能完整的描述应用的架构关系。
(3) 接着,服务的调用量越来越大,服务的容量问题就暴露出来,这个服务需要多少机器支撑?什么时候该加机器?
(4) 服务多了,沟通成本也开始上升,调某个服务失败该找谁?服务的参数都有什么约定?
(5) 一个服务有多个业务消费者,如何确保服务质量?
(6) 随着服务的不停升级,总有些意想不到的事发生,比如cache写错了导致内存溢出,故障不可避免,每次核心服务一挂,影响一大片,人心慌慌,如何控制故障的影响面?服务是否可以功能降级?或者资源劣化?
五、分布式系统
分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递和协调的系统。
简单来说,就是一群独立计算机集合共同对外提供服务,但是对于系统用户来说,就像是一台计算机在提供服务一样。分布式意味着可以采用更多的普通计算机组成分布式集群对外提供服务,计算机越多,CPU、内存、存储资源等也就越多,能够处理的并发访问量也就越大。
传统架构→分布式
起初,系统之间仅仅是把表现层、业务层、持久层分离开,可以实现解耦合,但是这是在同一台服务器上运行整个系统,客户端可以有多个,他们都将访问同一个终端处理器。但是这种单机部署很可能带来这些问题:系统难以维护、发生单点故障、扩展性差等问题。
当我们单机性能达到瓶颈的时候,第一,可以使用更高级的硬件来提升性能。随之成本也会越来越高。对于一些中小企业根本无法承受。第二,我们可以采用分布式,水平扩展,相对来说,还是比较划算的。
举个例子:
当我们用一台单机的tomcat部署时,理想情况下可以实现500的并发。当我们有1000个并发量的时候,需要2台tomcat服务器,这时就成了这样的结构:
这时出现了问题:
1、tomcat的性能瓶颈:当很大很大的并发量的时候,当然需要很多台tomcat服务器,但随着tomcat服务器的量越来越大,服务器的能力会先增加,后下降。一般5台就差不多了到量了。
2、tomcat之间的数据同步问题。tomcat之间会互发消息,当其中一台改变了数据,会给其他tomcat发消息,其他tomcat也会做相应的更新同步。但这会出现一个问题,当tomcat量多的时候,发送消息也多,会出现消息风暴,扰乱整个系统的同步。
解决方案:
既然,一整个系统无法用tomcat来平衡数据量,但是我们可以把整个系统拆分成多个业务,把每个业务当成一个子系统即可。这是垂直拆分。(分布式)而我们把各个业务都部署上多台服务器来均衡这些数据量,每台服务器承担一部分的用户访问量,每台上的系统是一样的。这是水平扩展。(集群)
结论:分布式架构就是多个子系统互相协作才能完成整个业务流程,系统之间需要进行通信。集群就是同一个工程部署到多台服务器上。
分布式架构的优点:
1、解耦合、系统之间用接口通信。
2、项目拆分,不同的团队负责不同的子项目
3、利于扩展,增加功能,只需增加子项目,调用其他系统接口就好了。
4、可以灵活的进行分布式部署。
缺点:
1、系统之间交互需要远程通信,接口发开增加工作量
2、各模块有一些通用业务逻辑无法公用。
六、分布式架构→soa架构
SOA:(Service Oriented Architecture) 面向服务的架构。把工程拆分成服务层、表现层两个工程,服务层中包含业务逻辑,只需要对外提供服务即可。表现层只需处理和页面的交互,业务逻辑都是调用服务层的服务来实现。
SOA是一个组件模型,它将应用程序的不同功能单元(成为服务),通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,他应该独立于实现服务的硬件平台、操作系统、和变成语言。这是的构建在各种各样的系统中的服务可以从一种统一和通用的方式进行交互。
SOA是把服务分成了若干,表现层分成了若干。表现层和服务层没有耦合关系,表现层可以用任意一个服务层,开发的时候,仅仅是增加服务层和Web层2个工程,并不会把服务层和Web层当成一个整个工程。他们是独立的。而分布式架构是Web和服务层紧紧联系到了一起,一个web层对应一个服务层。所以SOA比分布式架构更加解耦合。扩展也更容易。
在此我向大家推荐一个架构学习交流群。交流学习群号:575745314 里面会分享一些资深架构师录制的视频录像:有Spring,MyBatis,Netty源码分析,高并发、高性能、分布式、微服务架构的原理,JVM性能优化、分布式架构等这些成为架构师必备的知识体系。还能领取免费的学习资源,目前受益良多
SOA的特征:
1、可重用。解决了分布式的缺点。不同的web层可以共用一个服务层。
2、松耦合。服务请求者到服务提供者的绑定与服务之间是松耦合的,服务请求者不需要知道服务提供者实现的技术细节。
3、明确定义的接口。
4、无状态的服务设计。服务不应该依赖其他服务的上下文和状态。当产生依赖时,他们可以定义成通用的业务流程,函数和数据模型。
5、基于开放标准。
SOA体系结构中的角色包括:
1、服务请求者
是一个应用程序、一个软件模块、另一个服务。他发起对注册中心的服务的查询,通过传输绑定服务、并且执行服务功能,服务请求者根据接口契约来执行服务。
2、服务提供者
是一个可通过网络寻址的实体,他接受和执行来自请求者的请求,他将自己的服务和接口契约发布到服务注册中心。
3、服务注册中心
是服务发现的支持者,他包含一个可用服务的存储库,并运行感兴趣的服务请求者查询服务提供者接口。
小结:
最新的发展潮流已经来临,基于容器,云原生的应用,这些自动化的设计将颠覆程序猿的世界,在了解架构发展的同时,也要紧跟时代潮流。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。