夜莺 v7 最终版来了,可以上车了

11 月 18 日
阅读 4 分钟
39
夜莺监控 Nightingale 发布了 v7.7 版本,这是 v7 系列的最后一个版本,保守主义者可以放心上车了,v7.7 主要是做了一些小修小改,增强了使用体验,下周开始,启动 v8 版本的开发。v8 版本会更让人激动,会重构通知逻辑,支持 ElasticSearch、ClickHouse 等数据源的告警,另外机器告警策略也会和业务组联动,更多功能敬...

Zabbix 和 Prometheus 选型对比

11 月 7 日
阅读 4 分钟
99
开源的监控产品有很多,其中最知名的,当属早期的 Zabbix 和现在的 Prometheus。Zabbix 是 2001 年发布的,至今已经 20 多年,很多细节打磨的相当到位,Prometheus 是 2014 年发布的,相对年轻,依托于之前 Google Borgmon 的先进经验和灵感,Prometheus 在云原生监控领域有着非常好的表现。

手把手教程:使用 Fluentbit 采集夜莺日志写入 ElasticSearch

11 月 5 日
阅读 10 分钟
169
Fluentbit 是非常流行的日志采集器,作为 Fluentd 的子项目,是 CNCF 主推的项目,本文以夜莺的日志举例,使用 Fluentbit 采集,并直接写入 ElasticSearch,最终使用 Kibana 查看。借此实践过程,让读者熟悉 Fluentbit 的使用。

VictoriaMetrics 中文教程(10)集群版简介

10 月 29 日
阅读 4 分钟
109
VictoriaMetrics 中文教程系列文章:VictoriaMetrics 中文教程(01)简介VictoriaMetrics 中文教程(02)安装VictoriaMetrics 中文教程(03)如何配置 Prometheus 使其把数据远程写入 VictoriaMetricsVictoriaMetrics 中文教程(04)对接 Grafana 同时介绍 vmuiVictoriaMetrics 中文教程(05)对接各类监控数据采集器Vic...

夜莺的机器支持挂载到多个业务组了

10 月 8 日
阅读 3 分钟
155
夜莺开源项目于国庆前夕发布了 v7.4.1 版本,修复了一些 bug,同时也带来了一些新功能。其中最重要的一个功能是:机器支持挂载到多个业务组了。本文将介绍几个重要的变更。

Datadog 监控最佳实践 | 收集正确的数据

9 月 14 日
阅读 4 分钟
344
监控数据有多种形式 - 一些系统不断地输出数据,而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说,监控数据是观察系统内部运行情况的必要条件。

服务稳定性保障的五大误解

9 月 6 日
阅读 3 分钟
250
在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日,这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念,期望有一天大家沟通时不是鸡同鸭讲,各说各话。
封面图

企业分享 - 益丰大药房监控升级之路

9 月 4 日
阅读 3 分钟
161
益丰大药房是全国大型药品零售连锁企业(中国沪市主板上市连锁药房),专注医药零售行业23载, 市值稳居国内上市连锁药店前列/中国上市公司500强。

无需推翻既有的建设,这个可观测性产品思路清奇

9 月 3 日
阅读 3 分钟
166
市面上已经有很多开源、商业的可观测性类产品,比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等,而且各类云厂商也会提供自己的可观测性套件,有些规划混乱的云厂商甚至会提供功能重叠的多套产品,这加剧了企业数据孤岛的现状。来看两组数据:

海大集团的可观测平台建设实践

8 月 30 日
阅读 2 分钟
126
海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌影响力,海大集团连续5年榜上有名,上榜2...

Prometheus 告警恢复时,怎么获取恢复时的值?

8 月 29 日
阅读 4 分钟
269
Prometheus 告警事件中的 $value 表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的 $value 仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢?
封面图

关于告警,要想做好,从这些方面着手

8 月 28 日
阅读 2 分钟
241
各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 😎。

SRE 必备知识 - Kafka 探秘之零拷贝技术

8 月 27 日
阅读 2 分钟
286
在 Kafka 的场景下,操作系统可以从 page cache 拷贝数据到 socket buffer,直接绕过 Kafka broker 这个 Java 程序。这可以节省一些额外的拷贝,节省一些用户态和内核态的切换。让我们看一个例子。

使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

8 月 26 日
阅读 5 分钟
170
如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距的工具。这篇文章详细介绍了 SpanConnector 的工作原理,提供了有关其配置和实现的指南。