基于RocksDB实现精准的TTL过期淘汰机制

本文来自OPPO互联网技术团队，如需要转载，请注明出处及作者。欢迎关注我们的公众号：OPPO_tech

Parker 是 OPPO 互联网自研的一个基于 RocksDB 的分布式 KV 存储系统，它是一款类 Redis 的存储系统，主要解决的是用户使用 Redis 遇到的内存超限启动恢复时间长，一主多从代价大，硬件成本昂贵，无法存储海量数据等问题。

1. Parker简介

Parker 具有如下特性：

支持海量存储：单个集群存储容量可达数百 TB，线上单集群 TPS 峰值可达百万级。
支持水平扩展：存储容量、读写性能都可通过增加机器的方式水平扩展。通过数据分片 (slot) 的方式，将不同的分片散落在不同的节点，保证存储容量和读写性能的可扩展。
服务高可用：每个数据分片包含两副本，主备副本可在秒级内切换，保证单个数据分片的读写服务的高可用。
兼容部分 Redis 协议：Parker 对外通信协议兼容 Reids Cluster 协议，支持 String 和 Hash 类型及对应的操作函数，即用户可以通过 Redis 客户端来读取 Parker 中的数据。
支持 TTL 特性：一条数据写入后，超过 TTL 指定的时间戳，就过期淘汰，对用户不可见。这就需要 Parker 能及时删除过期数据，回收过期数据占用的磁盘空间。

2. 遇到问题

我们在容量为 5TB 的存储服务器上部署了 8 个 Parker 实例，写入的数据设置为 3 天过期，预计在数据写入速度和过期回收速度平衡的情况下，单实例会保持有 300GB 的存储占用。

实际上 Parker 运行五天后发现磁盘使用率不断攀升，开始写入的前三天，磁盘使用率直线上升，而后虽然上升速度有所减缓，但是总体上升速度还是比较快，与预期效果有严重偏差。虽然数据在 TTL 过期之后无法读取到，但是实际上磁盘空间并没有得到及时回收，这导致磁盘使用率居高不下。

3. 原因分析

3.1 RocksDB 原理

Parker 的底层存储引擎使用的是 RocksDB ，RocksDB 底层数据存储是 LSM 架构。数据分为不同的层，默认是 7 层，compaction styles 默认选择 leveled compaction。如下图所示：

用户写入数据到 RocksDB 时，会先将数据写入到一个 Memtable 中，当一个 Memtable 写满了之后，就会变成 immutable 的 Memtable。RocksDB 在后台会通过一个 flush 线程将这个 Memtableflush 到磁盘，生成一个 Sorted String Table (SST) 文件，放在 Level 0 层。当 Level 0 层的 SST 文件个数超过阈值之后，就会通过 compaction 策略将其合并到 Level 1 层，以此类推。

如果没有 Compaction，那么写入是非常快的，但这样会造成读性能降低，同样也会造成很严重的空间放大问题。为了平衡写入、读取、空间三者的关系，RocksDB 会在后台执行compaction，将不同Level 的 SST 进行合并。

3.2 TTL实现原理

RocksDB 中有一个 CompactionFilter 功能，该功能就是 RocksDB 在 compaction 每一条数据时，都会调用一个 Filter 函数，这是一个钩子函数，可以用户自定义。TTL 的实现方法就是在 Filter 函数中实现 TTL 过期删除逻辑，具体实现如下所述：

往 Parker 中写入数据时，我们在数据的 value 的尾部添加四个字节的 TTL，以 String 类型举例，其具体的数据编码格式如下图所示：

在 Filter 函数中，我们实现了这样的逻辑：取出数据尾部的 TTL，并与当前时间进行比较，如果TTL 小于当前时间的数据，就认为该数据已过期，不再合并到下一层文件中，从而达到删除数据的目的。

3.3 问题分析

Parker 中配置 RocksDB 每一层存储的容量上限如下：

仔细梳理 RocksDB 的 compaction 原理：RocksDB 触发 leveled compaction 的条件是该层文件大小或个数超过上限，例如 Level 2 的文件总大小超过 10GB，则会触发 compaction，从而调用compaction fliter，过滤掉 TTL 过期的数据。

基于我们遇到的问题，结合 RocksDB 的原理进行分析，我们发现：在我们的场景中会有 380GB 左右的数据会落在 Level 4，而这些数据虽然大部分已经过期，但由于这一层的数据一直没能达到该 Level 容量的上限 1TB，所以未触发 compaction filter，所以造成过期数据没有被删除，磁盘空间回收不了。

4. 解决方案

简单的更改 RocksDB 的配置，使得每一层存储的容量上限变小，可以解决上述问题，但是这种方案并不具备普适性。不同的使用场景，不同的存储数据量，存储数据量一旦改变就需要重启服务来更改RocksDB 的配置，这是业务不可接受。

从宏观上分析，回收过期数据磁盘空间的方案主要有两类：

业务实现过期删除逻辑，主动删除过期数据。
依赖 RocksDB 的 compaction 机制，在触发 compaction 的时候对过期数据进行删除。

为了实现快速回收磁盘空间删除过期数据，我们结合 RocksDB 的原理，梳理出了以下的几种方案：

4.1 业务实现删除逻辑

通过 Parker 自身逻辑，来主动删除过期数据。业内有赞 KV 就是采用类似的方案。具体做法是，保持现有存储列族不变，另外增加一个列族，专门存储 key 的 TTL，然后通过一个 goroutine 根据当前时间戳，按照过期数据删除策略可以是定时触发，例如凌晨1点，或者每个一段时间触发等。该列族中 key 的编码规则如下：

key：时间戳 + key 的类型 + key 值
value：存储一个字节，代表不同数据类型

这个方案优点是回收速度快且回收时间可控，但是缺点就是实现复杂，极端情况下会降低 50% 的TPS。

4.2 OpenDbWithTTL 方案

这个是 RocksDB 本身支持的一种数据过期淘汰方案，该方案是通过特定的 API 打开 DB，对写入该 DB 的全部 key 都遵循一个 TTL 过期策略，例如 TTL 为 3 天，那么写入该 DB 的 key 都会在写入的三天后自动过期。该方案底层也是通过 compaction filter 实现的，也就是说过期数据虽然对用户不可见，但是磁盘空间并不会及时回收，另外该方案不灵活，无法针对每一条 key 设置 TTL。

4.3 主动触发 RocksDB 的 compaction

目前空间无法快速回收的根本原因就是数据堆积在某一层，而该层没有触发 compaction，那么我们可以手动调用 RocksDB 的 CompactionRange 函数，来触发 compaction filter，达到快速回收磁盘空间的目的。但是主动调用 CompactionRange 会导致 RocksDB 自身的 compaction 暂停，这会触发 Write Stall，造成非常严重的后果，所有这种方案也不是非常完美。

4.4 Periodic compaction + dynamic compaction

Periodic compaction 的主要原理是增加一个 periodic_compaction_seconds 参数，并记录每个SST 文件的创建时间，每隔 periodic_compaction_seconds 秒，主动对这个 SST 文件进行 compaction 操作，从而回收沉底的 SST 文件；而 dynamic compaction 则是通过设置level_compaction_dynamic_level_bytes 为 true，进行动态合并，而不是按 level 的顺序合并到下一层，这使得 compaction 更加频繁。这个方案实现方式比较优雅，无须改动现有代码结构，只需要改动一些配置即可。

对以上几个方案进行比较，方案 4 实现较为完美，对实现逻辑改动较小，于是我们对方案 4 进行了实验验证。

5. 实验验证

5.1 机器配置

CPU	内存	磁盘
64核	188GB	5.9TB Nvme-SSD

5.2 RocksDB 新增配置

RocksDB 版本：6.4.6
level_compaction_dynamic_level_bytes = true；
periodic_compaction_seconds=3600；

5.3 测试结果

我们向 Parker KV 存储写入字符串数据：总写入数量：30000000000（三百亿）条数据，单条数据170Byte 左右。每条数据的过期时间为写入时间之后的 10800s，即写入 3 小时后过期，写入速度为51MB/s，写入总量预估为 5.32T。该机器磁盘占用情况如下：

5.4 结果分析

前 3 个小时因为写入的数据都没有过期，所以磁盘的使用率几乎是线性增长的，大概以 51 MB/s(即约180GB/h) 的速度增加，因为 RocksDB 本身对数据有进行压缩，所以磁盘大概增长了520GB。
第 4 个小时开始，数据开始有过期了，但是因为触发 periodic compaction 的 SST 文件并不多，而且开启了 dynamic_level，本身 compaction 就相对比较频繁一些，未更新时间大于 1h 的 SST文件比较少，另外即使触发了 periodic compaction，需要删除的 key 也比较少，所以在这 1 个小时内，磁盘的增长率有明显下降，但是总体上磁盘的使用还是在增长的，写入的磁盘空间比回收的空间要多。
从第 4 到第 5 个小时这段时间内，过期的 key 开始变多，而且触发 periodic compaction 的 SST文件也增加，这个时候，写入的磁盘空间与删除的磁盘空间大致能达到平衡，磁盘使用增长率大幅度下降，接近于 0。
理想情况下，应该是从第 5 个小时之后，磁盘的使用率应该稳定在某个水平线左右上下波动，当然在第 5 到第 9 小时，这段区间内，基本就是符合理想情况。
从图中可以看到，在第 9 个小时即 20:00 的时候，磁盘使用率骤然下降，通过查看 RocksDB 日志分析发现，在这段时间内有大量的 SST 文件触发 periodic compaction，然后整个被删除，level 6 的 SST 文件数量锐减了接近 500 个。因为这个时候，大多数文件的 key 都是全部过期的，一旦触发 compaction 就全部回收，所以这段时间磁盘回收大于写入的量。
在磁盘使用率骤降之后，触发 periodic compaction 的 SST 文件也会相对减少，导致磁盘使用率又有了一小段的上升，从图中可以看到第 10 和第 11 个小时，磁盘使用率的增长量又增大了。
在之后的很长一段时间内，磁盘的使用率基本维持平衡。这段时间内可以认为有 3 个小时的写入量没有过期，这个没有过期的量约为 600GB，而这个时候磁盘的使用达到了 900GB，也就是说接近 1.5 倍的空间放大。
在 11/7 11:00 到 13:00 这段时间，我们降低了写入速度，整个吞吐量从 58MB/s 下降到10MB/s，可以看到图中磁盘的使用率在这段时间也是骤然下降，也就是说降低了写入的速度，过期的量没有减小，磁盘回收的速度不变，回收速度大于写入速度，磁盘使用率下降。
在 11/7 11:50 的时候停止写入数据，Parker 的写入吞吐量降为 0，而这个时候 Parker 还存在大量过期数据，这个时候磁盘使用率明显在下降，一直降到某个水平线。
按照最理想的情况应该是回收到最开始写入的水平线，然而理想只能是理想，最后磁盘使用率稳定在 10.239%，比最开始的 6.617% 多了 3.622%，也就是有 218GB 的磁盘空间还没有被回收，这部分数据会在重新启动写入的时候被回收。

6. 总结

目前来看，通过 periodic compaction + TTL 过期来回收磁盘空间的方案是可行的，并且我们总结出如下规律：

通过监控发现 periodic compaction 对 CPU 负载有一定影响，也就是说periodic_compaction_seconds 时间越短，CPU 负载越高。其实这也容易理解：RocksDB 更加积极主动的进行 SST 文件的 compaction，必然会消耗更多的 CPU 资源，建议将这个参数调整为12 小时。

从理论上推导，整个 RocksDB 中会有约 periodic_compaction_seconds 时间长度的过期数据延迟回收，从而造成一定的空间放大，所以部署的时需预留有一定的空闲磁盘空间，建议预留 30%的冗余存储空间。

基于RocksDB实现精准的TTL过期淘汰机制

1. Parker简介

2. 遇到问题

3. 原因分析

3.1 RocksDB 原理

3.2 TTL实现原理

3.3 问题分析

4. 解决方案

4.1 业务实现删除逻辑

4.2 OpenDbWithTTL 方案

4.3 主动触发 RocksDB 的 compaction

4.4 Periodic compaction + dynamic compaction

5. 实验验证

5.1 机器配置

5.2 RocksDB 新增配置

5.3 测试结果

5.4 结果分析

6. 总结

7. 参考资料

OPPO数智技术

引用和评论

OPPO云数据库访问服务技术揭秘

分布式数据库解析

嘎嘎好用！推荐三款开源的 Redis 桌面客户端！

自制审批流框架记录

Redis 又双叒叕改开源协议了，微软提前推出高性能替代方案 Garnet

使用 redis 做分布式锁时，遇到客户端挂掉，如何正确的释放锁？

超简单！用 Go 启动 Redis 实例