优化写密集型数据库工作负载以降低延迟

发布于 2025-11-06

主要观点：写密集型数据库工作负载带来与读密集型不同的挑战，重点讨论性能相关的复杂性及应对选项。
关键信息：

写密集型工作负载的特点：大量数据摄入（超过 50K OPS）、写操作多于读操作、受严格延迟 SLA 约束（如单数字毫秒 P99 延迟），常见于物联网、日志监控、在线游戏等领域。
存储引擎架构：LSM 树适合处理大量写操作，写入后立即追加到内存，效率高；B-Tree 结构每次写操作需定位和修改节点，涉及顺序和随机 I/O，更适合涉及连接和临时查询的工作负载。
负载大小：小负载吞吐量好但 CPU 处理是瓶颈，大负载需分配更大缓冲区，磁盘利用率增加。
压缩：可控制磁盘利用率，选择压缩策略要考虑压缩速度、CPU 和内存资源，注意压缩块大小参数。
合并：LSM 数据库的合并策略影响写性能，如低读放大、低写放大、低空间放大等，写密集型工作负载应避免使用级联合并策略。
批处理：在写密集型工作负载中，批处理要注意按分区键分组、保持批处理小且有针对性、使用未记录批处理，避免大的跨节点批处理导致延迟。
重要细节：
以 ScyllaDB 为例说明写路径，内存中的 memtable 满后将近期写入按序刷新到磁盘以减少随机 I/O。
不同的压缩策略在读取和写入方面的特点，如较大块适合读取，较小块适合写入。
各公司在处理写密集型工作负载时的经验，如 Zillow 的无序写入问题、Tractian 的物联网高频率数据写入增长准备、Fanatics 的重写操作等。

阅读 186