架构设计 - 事务 - Saga模式 - 颇忒脱

Saga

1987年普林斯顿大学的Hector Garcia-Molina和Kenneth Salem发表了一篇Paper Sagas，讲述的是如何处理long lived transaction（长活事务）。听起来是不是觉得和分布式事务很像？没错，下面来看看这个来自1987年的解决方案是如何启发当今的分布式事务问题的。

协议介绍

Saga的组成：

每个Saga由一系列sub-transaction T_i 组成
每个T_i 都有对应的补偿动作C_i，补偿动作用于撤销T_i造成的结果

可以看到，和TCC相比，Saga没有“预留”动作，它的T_i就是直接提交到库。

Saga的执行顺序有两种：

T₁, T₂, T₃, ..., T_n
T₁, T₂, ..., T_j, C_j,..., C₂, C₁，其中0 < j < n

Saga定义了两种恢复策略：

backward recovery，向后恢复，即上面提到的第二种执行顺序，其中j是发生错误的sub-transaction，这种做法的效果是撤销掉之前所有成功的sub-transation，使得整个Saga的执行结果撤销。
forward recovery，向前恢复，适用于必须要成功的场景，执行顺序是类似于这样的：T₁, T₂, ..., T_j(失败), T_j(重试),..., T_n，其中j是发生错误的sub-transaction。该情况下不需要C_i。

对于ACID的保证

Saga对于ACID的保证和TCC一样：

A，正常情况下保证。
C，在某个时间点，会出现A库和B库的数据违反一致性要求的情况，但是最终是一致的。
I，在某个时间点，A事务能够读到B事务部分提交的结果。
D，和本地事务一样，只要commit则数据被持久。

和TCC对比

Saga相比TCC的缺点是缺少预留动作，导致补偿动作的实现比较麻烦：T_i就是commit，比如一个业务是发送邮件，在TCC模式下，先保存草稿（Try）再发送（Confirm），撤销的话直接删除草稿（Cancel）就行了。而Saga则就直接发送邮件了（T_i），如果要撤销则得再发送一份邮件说明撤销（C_i），实现起来有一些麻烦。

如果把上面的发邮件的例子换成：A服务在完成T_i后立即发送Event到ESB（企业服务总线，可以认为是一个消息中间件），下游服务监听到这个Event做自己的一些工作然后再发送Event到ESB，如果A服务执行补偿动作C_i，那么整个补偿动作的层级就很深。

不过没有预留动作也可以认为是优点：

有些业务很简单，套用TCC需要修改原来的业务逻辑，而Saga只需要添加一个补偿动作就行了。
TCC最少通信次数为2n，而Saga为n（n=sub-transaction的数量）。
有些第三方服务没有Try接口，TCC模式实现起来就比较tricky了，而Saga则很简单。
没有预留动作就意味着不必担心资源释放的问题，异常处理起来也更简单（请对比Saga的恢复策略和TCC的异常处理）。

实现Saga的注意事项

对于服务来说，实现Saga有以下这些要求：

T_i和C_i是幂等的。
C_i必须是能够成功的，如果无法成功则需要人工介入。
T_i - C_i和C_i - T_i的执行结果必须是一样的：sub-transaction被撤销了。

第一点要求T_i和C_i是幂等的，举个例子，假设在执行T_i的时候超时了，此时我们是不知道执行结果的，如果采用forward recovery策略就会再次发送T_i，那么就有可能出现T_i被执行了两次，所以要求T_i幂等。如果采用backward recovery策略就会发送C_i，而如果C_i也超时了，就会尝试再次发送C_i，那么就有可能出现C_i被执行两次，所以要求C_i幂等。

第二点要求C_i必须能够成功，这个很好理解，因为，如果C_i不能执行成功就意味着整个Saga无法完全撤销，这个是不允许的。但总会出现一些特殊情况比如C_i的代码有bug、服务长时间崩溃等，这个时候就需要人工介入了。

第三点乍看起来比较奇怪，举例说明，还是考虑T_i执行超时的场景，我们采用了backward recovery，发送一个C_i，那么就会有三种情况：

T_i的请求丢失了，服务之前没有、之后也不会执行T_i
T_i在C_i之前执行
C_i在T_i之前执行

对于第1种情况，容易处理。对于第2、3种情况，则要求T_i和C_i是可交换的（commutative)，并且其最终结果都是sub-transaction被撤销。

事务 - Saga模式

Saga

协议介绍

对于ACID的保证

和TCC对比

实现Saga的注意事项

参考资料

chanjarster

引用和评论

记一次K8S VXLAN Overlay网络8472端口冲突问题的排查

Nginx使用手册

RocketMQ 底层原理

谈谈分布式：分布式事务的理解

3D架构图软件 iCraft Editor 正式发布前端组件, 轻松嵌入3D架构图到您的项目，实现数字孪生

数据无界、湖仓无界， Apache Doris 湖仓一体解决方案全面解读（上篇）