GreptimeDB 应对十亿 JSON 文档挑战 - 性能超越 ClickHouse、VictoriaLogs 及竞争对手

主要观点

  • JSONBench是今年早些时候由 ClickHouse 引入的 OLAP 基准测试套件,专注于 JSON 文档的分析查询,包含 ClickHouse、Elasticsearch、MongoDB、DuckDB 和 Postgres 等数据库。
  • GreptimeDB 在 JSONBench 上表现出竞争力,在处理大规模数据集方面与 ClickHouse 和 VictoriaLogs 相当,多数查询性能提升或处于顶级水平,尤其在存储效率方面突出。
  • 介绍了在 GreptimeDB 上重现 JSONBench 结果的步骤,包括使用日志摄取 API 提取元数据字段作为主键,调整 http 选项等。
  • 探讨了 GreptimeDB 在实际应用中的两个方面,一是利用对象存储作为主要数据后端,二是内置的流式引擎用于计算结果增量。
  • JSONBench 结果展示了 GreptimeDB 在事件和日志处理方面的卓越能力,未来计划将该框架应用于更多观测场景。

关键信息

  • 基准套件聚焦 JSON 文档分析查询,最初包含多种数据库,后添加 VictoriaLogs。
  • GreptimeDB 在 10 亿冷运行中排名第一,多数查询性能出色,存储效率高。
  • 重现 JSONBench 需使用特定脚本,调整 GreptimeDB http 选项等。
  • GreptimeDB 可利用对象存储节省成本,内置流式引擎提升性能。

重要细节

  • 从 Bluesky 导出 1 到 10 亿 JSON 文档用于基准测试。
  • GreptimeDB 处理 JSON 文档时通过管道提取特定字段作为主键创建表。
  • 测试对象存储时用 100 万文档,首次查询有轻微慢化,后续高效。
  • 对于某些计数查询,可使用流式引擎将查询变为 Flow 任务以提升性能。
阅读 23
0 条评论