通过拥抱宽事件和替换 OTel,将我们的可观察性平台扩展到 100 拍字节以上。

主要观点

  • 内部系统日志从 19PiB 增长到 100PB,事件量增长 20 倍但 CPU 使用率降低,OpenTelemetry 存在瓶颈,Custom Pipeline 解决问题。
  • 推出 HyperDX,基于 ClickHouse 的原生观测 UI,与 Grafana 结合实现更高效的观测。
  • 开发 SysEx 工具,实现高效的数据传输和处理,避免 OpenTelemetry 的低效和数据丢失。
  • 强调存储一切、聚合到查询时的观测模式,利用 ClickHouse 存储高基数遥测数据。
  • 探讨 OpenTelemetry 的适用场景,与 SysEx 互补。
  • 介绍新的数据来源,如 kubenetmon、Kubernetes Event Exporter 等,扩展观测能力。
  • 正在探索零影响抓取(zero-impact scraping)以减少对 OpenTelemetry 的依赖。
  • 评估 JSON 类型在观测中的应用,文化上也认识到 Map 类型的局限性。

关键信息

  • LogHouse 从监控 ClickHouse Cloud 的内部日志平台发展到存储 100PB 数据,规模大幅增长。
  • OpenTelemetry 在处理大规模事件时效率低下,SysEx 更适合处理 ClickHouse 系统的特定日志。
  • HyperDX 提供了与 ClickHouse 深度集成的 UI,简化数据探索和分析。
  • Grafana 在观测栈中仍有其作用,与 HyperDX 互补。
  • 存储一切、聚合到查询时的模式能保留数据完整性和灵活性。
  • 新的数据来源丰富了观测能力,如 kubenetmon 用于监控 Kubernetes 网络。
  • 正在探索零影响抓取以优化观测流程。
  • 评估 JSON 类型在观测中的应用。

重要细节

  • OpenTelemetry 数据流程复杂,存在多次数据转换和开销,导致效率低下和数据丢失。
  • SysEx 采用直接字节复制,避免中间转换,提高效率,处理系统表时利用滑动时间窗口确保数据完整性。
  • HyperDX 架构灵活,支持多种数据格式,无需预先了解表结构,与 LogHouse 结合提供统一观测体验。
  • Grafana 在路由和查询范围方面有优势,与 HyperDX 共同服务于观测栈。
  • 存储宽事件能保留更多数据维度,避免传统指标存储的局限性,可通过多种工具进行可视化分析。
  • SQL 在复杂观测问题中具有强大功能,如通过 ASOF JOIN 关联 Kubernetes 事件进行分析。
  • 新的数据来源如 kubenetmon 用于网络监控,Kubernetes Event Exporter 用于分析 Kubernetes API 事件等。
  • 正在探索零影响抓取,利用 S3 上的可重写磁盘实现无集群内查询执行。
  • JSON 类型在 ClickHouse 中达到 GA,但在大规模观测访问模式中的应用仍在评估。

整个过程中,Observability 团队的努力推动了 LogHouse 的发展,ClickHouse Cloud 提供试用和优惠,帮助用户开始使用和扩展观测能力。

阅读 10
0 条评论