主要观点:探讨在 S3 Express One Zone 上直接构建容错事务数据系统是否比使用复制更经济,分析了基于 S3 Express One Zone 和复制的两种架构的成本模型及优缺点。
关键信息:
- 云对象存储成为众多云数据系统的通用存储层,事务性系统需低延迟,通常通过先写入快速复制的预写日志(WAL)再异步卸载到对象存储来实现,如 Neon、Kafka 等。
- S3 Express One Zone 是 S3 的低延迟层,仅在单个可用区分布数据,适合作为持久化的 WAL/write-cache,但不适合长期存储。
- 比较了单 AZ 和多 AZ 的 WAL 选项,包括基于复制和 S3 Express One Zone 的成本模型,复制的成本由计算、存储和网络(跨 AZ 数据传输成本)构成,S3 Express One Zone 的成本主要由请求率和请求大小决定。
- 对于不同吞吐量和配置,分析了 S3 Express One Zone 和复制在存储、网络/请求成本等方面的表现,低吞吐量时复制成本更有优势,高吞吐量时 S3 Express One Zone 可能更经济,但需考虑最大缓冲延迟和请求大小等因素。
- 还讨论了对象存储日志所需的低延迟寻址和排序组件,以及数据混合在小对象大小下的碎片化问题。
重要细节: - 计算存储需求时,总存储吞吐量 = 复制因子×聚合入口吞吐量,总存储大小 = 总存储吞吐量×6 小时×60 分钟×60 秒,存储吞吐量/节点 = 总存储吞吐量/节点数,存储大小/节点 = 总存储大小/节点数;计算跨 AZ 数据传输时,生产者跨 AZ 吞吐量 = ⅔×聚合入口吞吐量,复制跨 AZ = 2×聚合入口吞吐量,总跨 AZ = 2.66×聚合入口吞吐量。
- S3 Express One Zone 定价:存储每月每 GB 0.16 美元,PUT 请求每 1000 次 0.0025 美元,PUT 请求中超过 512KB 的所有字节每 GB 0.008 美元,有 S3 折扣但通常低于跨 AZ 数据传输折扣。
- 不同配置下的成本情况,如 1MB/s 吞吐量时,3 个代理、最大 10ms 缓冲、最大 512KB 请求的 S3 Express One Zone 成本与 3 个节点的复制成本比较;50MB/s 等不同吞吐量时各种配置的成本对比等。
- 强调了缓冲时间、请求大小等对成本的影响,以及在不同吞吐量下复制和 S3 Express One Zone 的成本竞争力变化。
- 说明生成数据的方式是用 Java 程序模拟 S3 Express One Zone 日志的硬件资源需求和成本,输出 CSV 文件后用 R 笔记本处理。
- 结论指出 S3 Express One Zone 在中低吞吐量下的成本效益不佳,适合高吞吐量工作负载的 WAL,复制无此问题但有跨 AZ 数据传输成本,目前 Confluent 认为在其架构中复制更优,未来情况有待观察。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。