主要观点:
- 内部系统日志从 19PiB 增长到 100PB,事件量增长 20 倍但 CPU 使用率降低,OpenTelemetry 存在瓶颈,Custom Pipeline 解决问题。
- 推出 HyperDX,基于 ClickHouse 的原生观测 UI,与 Grafana 结合实现更高效的观测。
- 开发 SysEx 工具,实现高效的数据传输和处理,避免 OpenTelemetry 的低效和数据丢失。
- 强调存储一切、聚合到查询时的观测模式,利用 ClickHouse 存储高基数遥测数据。
- 探讨 OpenTelemetry 的适用场景,与 SysEx 互补。
- 介绍新的数据来源,如 kubenetmon、Kubernetes Event Exporter 等,扩展观测能力。
- 正在探索零影响抓取(zero-impact scraping)以减少对 OpenTelemetry 的依赖。
- 评估 JSON 类型在观测中的应用,文化上也认识到 Map 类型的局限性。
关键信息:
- LogHouse 从监控 ClickHouse Cloud 的内部日志平台发展到存储 100PB 数据,规模大幅增长。
- OpenTelemetry 在处理大规模事件时效率低下,SysEx 更适合处理 ClickHouse 系统的特定日志。
- HyperDX 提供了与 ClickHouse 深度集成的 UI,简化数据探索和分析。
- Grafana 在观测栈中仍有其作用,与 HyperDX 互补。
- 存储一切、聚合到查询时的模式能保留数据完整性和灵活性。
- 新的数据来源丰富了观测能力,如 kubenetmon 用于监控 Kubernetes 网络。
- 正在探索零影响抓取以优化观测流程。
- 评估 JSON 类型在观测中的应用。
重要细节:
- OpenTelemetry 数据流程复杂,存在多次数据转换和开销,导致效率低下和数据丢失。
- SysEx 采用直接字节复制,避免中间转换,提高效率,处理系统表时利用滑动时间窗口确保数据完整性。
- HyperDX 架构灵活,支持多种数据格式,无需预先了解表结构,与 LogHouse 结合提供统一观测体验。
- Grafana 在路由和查询范围方面有优势,与 HyperDX 共同服务于观测栈。
- 存储宽事件能保留更多数据维度,避免传统指标存储的局限性,可通过多种工具进行可视化分析。
- SQL 在复杂观测问题中具有强大功能,如通过 ASOF JOIN 关联 Kubernetes 事件进行分析。
- 新的数据来源如 kubenetmon 用于网络监控,Kubernetes Event Exporter 用于分析 Kubernetes API 事件等。
- 正在探索零影响抓取,利用 S3 上的可重写磁盘实现无集群内查询执行。
- JSON 类型在 ClickHouse 中达到 GA,但在大规模观测访问模式中的应用仍在评估。
整个过程中,Observability 团队的努力推动了 LogHouse 的发展,ClickHouse Cloud 提供试用和优惠,帮助用户开始使用和扩展观测能力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。