如何生长一个 LSM 树?迈向弥合理论与实践之间的差距

主要观点:LSM-tree 基键值存储在现代大数据应用中被广泛用作数据存储后端,其增长方式有垂直方案(添加固定容量层级)和水平方案(固定层级数量下增加层级容量),垂直方案在近期系统设计中占主导,水平方案采用减少。增长方案对 LSM 系统在读写和空间成本等方面性能有深刻影响,本文旨在给出关于如何增长 LSM-tree 以获得更理想性能的新见解。
关键信息:分析指出垂直方案在实现读写权衡最优方面的局限性以及水平方案在有效管理空间成本方面的不足,提出结合两者优势的新方法 Vertiorizon,其自适应设计与多种工作负载高度兼容,相比垂直方案显著改善读写性能权衡,相比水平方案通过对 Bentley 和 Saxe 理论的非平凡推广大大扩展权衡范围并降低空间成本,与 RocksDB 集成时写性能更好且空间成本仅为水平方案的约六分之一。
重要细节:被 SIGMOD 2025 接受,主题为数据库(cs.DB),引用为[arXiv:2504.17178]([arXiv:2504.17178v1]为该版本)及[https://doi.org/10.48550/ArXi...],提交历史显示由 Dingheng Mo 于 2025 年 4 月 24 日星期四 01:24:55 UTC 提交(1207KB)。

阅读 10
0 条评论