ZooKeeper

ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。 由于ZooKeeper的开源特性,后来开发者在分布式锁的基础上,摸索出了其他的使用方法:配置维护、组服务、分布式消息队列、分布式通知/协调等。

ZooKeeper性能上的特点决定了它能够在大型的、分布式的系统当中应用。从可靠性来讲,它并不会因为一个节点的错误而崩溃。除此之外,它严格的序列访问控制意味着复杂的控制原语可以应用在客户端上。Zookeeper在一致性、可用性、容错性的保证,也是zookeeper的成功之处。它获得的一切成功都与它采用的协议-Zab协议密不可分。

Zookeeper所提供的服务主要通过:数据结构+原语+Watcher机制。

数据结构

数据模型Znode

Zookeeper拥有一个层次的命名空间,这个和标准的文件系统非常相似。

clipboard.png

Zookeeper树中的每个节点都被称为——Znode。和文件系统的目录树一样,Zookeeper树种的每个节点可以拥有子节点。但也有不同之处。

引用方式

通过路径引用,但是路径必须绝对的,因此它们必须由/字符开头。而且路径必须是唯一的。

Znode结构

Znode兼文件和目录两种特点,即像文件一样维护着数据、元信息、ACL、时间戳等数据结构,又像目录一样可以作为路径标识的一部分吗。每个Znode由3部分组成:

  • stat:此为状态信息,描述该Znode的版本,权限等信息。
  • data:与该Znode关联的数据。
  • children:该Znode下的子节点。

Zookeeper虽然可以关联一些数据,但并没有被设计成常规的数据库或者大数据存储,相反用来管理调度数据,比如分布式的配置文件信息、状态信息、汇集位置等。

数据访问

Zookeeper中每个节点存储的数据要被原子操作。另外每个节点都拥有自己的ACL(访问控制列表),这个列表规定了用户的权限,即限定了特定用户对目标节点可以执行的操作。

节点类型
  • 临时节点:生命周期依赖于创建它们的会话。不允许拥有子节点。
  • 永久节点:该节点的生命周期不依赖于会话,并且只有在客户端显示执行删除操作的时候,他们才能被删除。
顺序节点

当创建Znode的时候,用户可以请求在Zookeeper的路径结尾中添加一个递增的计数。这个计数对于此节点的父节点来说是唯一的。当计数大于2^32-1时,计数器将溢出。

观察

客户端可以在节点设置watch,我们称为监视器。当节点状态发生改变时(Znode的增、删、改)将会触发watch所对应的操作。当watch被触发时,Zookeeper将会向客户端发送且仅发送一条通知,因为watch只能被触发一次,这样可以减少网络流量。

Zookeeper中的时间

Zookeeper有多种记录时间的形式,其中包含以下几个主要属性:

Zxid

致使Zookeeper节点状态改变的每一个操作都将使节点接收到一个Znode格式的时间戳,并且这个时间戳全局有序。也就是说,每个节点的改变都会产生一个唯一的Zxid。如果Zxid1的值小于Zxid2的值,那么Zxid1所对应的事件发生在Zxid2所对应的事件之前。实际上,Zookeeper的每个节点维护着三个Zxid的值。分别为:cXzid、mXzid、pXzid。

  • cXzid:是节点的创建时间所对应的Zxid格式时间戳。
  • mXzid:是节点的修改时间所对应的Zxid格式时间戳。

实际上Zxid是一个64位的数字。它高32位是epoch用来标识leader关系是否改变,每次一个leader被选出来,它都会有一个新的epoch。低32位是一个递增计数。

版本号

对节点的每一个操作都将致使这个节点的版本号增加。每个节点维护着三本版本号,他们分别为:

  • version:节点数据版本号
  • cversion:子节点版本号
  • aversion:节点所拥有的ACL版本号
节点属性

clipboard.png

服务中的操作

在Zookeeper中有9个基本操作,如下图所示:

clipboard.png

  • 更新Zookeeper操作是有限制的,delete或setData必须明确要更新的Znode的版本号,我们可以调用exists找到,如果版本号不匹配,更新将会失败。
  • 更新Zookeeper操作是非阻塞的,因客户端如果丢失了一个更新(由于另一个进程在同时更新这个Znode),它可以在不阻塞其他进程执行的情况下,选择重新尝试或进行其他操作。
  • 尽管Zookeeper可以被看做是一个文件系统,但是处于便利,摒弃了一些文件系统的操作原语。因为文件非常的小并且使整体读写的、所以不需要打开、关闭或是寻地的操作。

Watch触发器

watch概述

Zookeeper可以为所有的读操作设置watch,这些读操作包括:exists()、getChildren()和getData()。watch事件是一次性的触发器,当watch的对象状态发生改变时,将会触发此对象watch所对应的事件。watch事件将被异步地发送给客户端,并且Zookeeper为watch机制提供了有序的一致性保护。理论上,客户端接收watch事件的时间快于其看到watch对象状态变化的时间。

watch类型

Zookeeper所管理的watch可以分为两类:

  • 数据watch(data watches):getData和exists负责设置数据watch
  • 孩子watch(child watches):getChildren负责设置孩子watch

可以通过操作返回的数据来设置不同的watch:

  • getdata和exists:返回关于节点的数据信息
  • getChildren:返回孩子列表

因此

  • 一个成功的setData操作将触发Znode的数据watch
  • 一个成功的create操作将会触发Znode的数据watch以及孩子watch
  • 一个成功的delete操作将会触发数据watch以及孩子watch
watch注册与触发

clipboard.png

  • exists操作上的watch,在被监视的Znode创建、删除或数据更新时被触发。
  • getData操作上的watch,在背监视的Znode删除或数据更新时被触发。在被创建时不能被触发,因为只有一个Znode存在,getData操作时才会成功。
  • getChildren操作上的watch,在被监视的Znode的子节点创建或删除,或是这个Znode自身被删除时被触发。可以通过查看watch事件类型来区分是Znode,还是他的子节点被删除:NodeDelete表示Znode被删除,NodeDeletedChanged表示子节点被删除。

Leader选举

Leader选举时保证数据一致性的的关键所在。当Zookeeper集群中的一台服务器出现一下情况之一时,需要进入Leader选举。

  • 服务器初始化启动。
  • 服务器运行时无法和Leader保持连接。

服务器启动时期的Leader选举

若进行Leader选举,则至少需要两台机器,这里选举3台机器组成的服务器集群为例。在集群初始化阶段,当有一台服务器Server1启动时,其单独无法进行和完成Leader选举,当第二台机器Server2启动时,此时两台机器可以相互通信,每台机器都试图找到Leader,于是进入Leader选举过程。

  • 每台Server发出一个投票,由于初始阶段,Server1和Server都会将自己作为Leader服务器来进行投票,每次投票会包含所推举服务器的myid和Zxid,使用(myid,Zxid)来表示,此时Server1的投票为(1,0),Server2的投票为(2,0),然后各自将这个投票发给集群中其他机器。
  • 接受来自其他各个服务器的投票,集群的每个服务器收到投票后,首先判断该投票的有效性,如检查是否是本轮投票,是否来自LOOKING状态的服务器。
  • 处理投票,针对每一个投票,服务器都需要将别人的投票和自己的投票进行PK,PK规则如下:

    • 优先检查Zxid,Zxid较大的服务器优先作为Leader。
    • 如果Zxid相同,那么久比较myid。myid较大的服务器作为Leader服务器。
  • 统计投票,每次投票后,服务器都会统计投票信息,判断是否有过半机器接受到相同的投票信息,对于Server1、Server2而言,都统计出集群中已经有两台机器接受了(2,0)的投票信息,此时便认为选出了Leader。
  • 改变服务器状态。一旦确定了Leader,每个服务器就会更新自己的状态,如果是Follower,那么久变更为FOLLOWING,如果是Leader,就变更为LEADING。

服务器运行期间的Leader选举

在Zookeeper运行期间,Leader与非Leader服务器各司其职,即便当有非Leader服务器宕机或新加入,此时也不会影响Leader,但是一旦Leader服务器挂了,那么整个集群将暂停对外服务,进入新一轮Leader选举,其过程和启动期间选举过程基本一致。
假设正在运行的有Server1、Server2、Server3三台服务器,当前Leader是Server2,若某一时刻Leader挂了,此时便开始Leader选举。

  • 变更状态,Leader挂后,余下非Observer服务器都会将自己的服务器状态变更为LOOKING,然后开始进入Leader选举过程。
  • 每个Server会发出一个投票,在运行期间,每个服务器的Zxid可能不同,此时假定Server1的Zxid为123,Server3的Zxid为122,在第一轮投票中,Server1和Server2都会投自己,产生投票(1,123),(3,122),然后各自将投票发送给集群中所有机器。
  • 接收来自各个服务器的投票,与启动时过程相同。
  • 处理投票,此时Server1将成为Leader。
  • 统计投票,与启动过程相同。
  • 改变服务器状态,与启动过程相同。

Zookeeper的CP特性

  • 不能保证每次服务请求的可用性。任何时刻对Zookeeper的访问请求能得到的一致的数据,同时系统对网络分割具备容错性,但是它不能保证每次服务请求的可用性。
  • 进行leader选举的时候集群式不可用的,在使用Zookeeper获取服务列表时,当master节点因为网络故障与其他节点失去联系时,剩余节点会重新进行leader选举。问题在于,选举的时间太长,30~120s,且选举期间整个Zookeeper集群都是不可用的,这就导致在选举期间服务瘫痪,虽然服务能够最终恢复,但是漫长的选举时间是不能容忍的。所以说,Zookeeper不能保证服务可用性。

参考

Zookeeper学习第一期
【分布式】Zookeeper的Leader选举
Zookeeper的CP特性


dack
98 声望18 粉丝

一直在路上


« 上一篇
dubbo
下一篇 »
布隆过滤器