SF
秦晓辉的博客
秦晓辉的博客
注册登录
关注博客
注册登录
主页
关于
RSS
OpenTelemetry 101:面向 IT 领导者和爱好者的非技术指南
SRETALK
12 月 5 日
阅读 4 分钟
75
如果您从事软件开发、 SRE或DevOps工作,您可能听说过可观察性、遥测和跟踪等术语。这些概念对于理解应用程序在生产环境中的行为至关重要,并且它们是现代软件开发实践的重要组成部分。
从仪表盘探索 MongoDB 关键指标
SRETALK
12 月 2 日
阅读 6 分钟
88
这是 MongoDB 监控系列文章的第七篇,前面几篇文章的链接如下:MongoDB 监控(一)MongoDB 监控(二)MongoDB 监控(三)MongoDB 监控(四)MongoDB 监控(五)MongoDB 监控(六)按照前面系列文章,我们已经采集到 MongoDB 的监控数据了,并且通过 Grafana 和 Nightingale 的仪表盘看到了数据,这一节开始,我们来探索...
夜莺短信告警教程
SRETALK
11 月 28 日
阅读 24 分钟
210
夜莺监控(Nightingale)已经内置支持了邮件、钉钉、飞书、企微等多种通知机制,但是没有内置支持电话、短信等方式,是因为邮件、钉钉、企微、飞书等方式是协议固定的,但是电话、短信的通知方式,各家不同,一个是短信通道供应商不同,一个是各家封装的电话、短信接口不同,所以夜莺没有内置支持。
夜莺 v7 最终版来了,可以上车了
SRETALK
11 月 18 日
阅读 4 分钟
138
夜莺监控 Nightingale 发布了 v7.7 版本,这是 v7 系列的最后一个版本,保守主义者可以放心上车了,v7.7 主要是做了一些小修小改,增强了使用体验,下周开始,启动 v8 版本的开发。v8 版本会更让人激动,会重构通知逻辑,支持 ElasticSearch、ClickHouse 等数据源的告警,另外机器告警策略也会和业务组联动,更多功能敬...
Zabbix 和 Prometheus 选型对比
SRETALK
11 月 7 日
阅读 4 分钟
181
开源的监控产品有很多,其中最知名的,当属早期的 Zabbix 和现在的 Prometheus。Zabbix 是 2001 年发布的,至今已经 20 多年,很多细节打磨的相当到位,Prometheus 是 2014 年发布的,相对年轻,依托于之前 Google Borgmon 的先进经验和灵感,Prometheus 在云原生监控领域有着非常好的表现。
手把手教程:使用 Fluentbit 采集夜莺日志写入 ElasticSearch
SRETALK
11 月 5 日
阅读 10 分钟
225
Fluentbit 是非常流行的日志采集器,作为 Fluentd 的子项目,是 CNCF 主推的项目,本文以夜莺的日志举例,使用 Fluentbit 采集,并直接写入 ElasticSearch,最终使用 Kibana 查看。借此实践过程,让读者熟悉 Fluentbit 的使用。
VictoriaMetrics 中文教程(10)集群版简介
SRETALK
10 月 29 日
阅读 4 分钟
199
VictoriaMetrics 中文教程系列文章:VictoriaMetrics 中文教程(01)简介VictoriaMetrics 中文教程(02)安装VictoriaMetrics 中文教程(03)如何配置 Prometheus 使其把数据远程写入 VictoriaMetricsVictoriaMetrics 中文教程(04)对接 Grafana 同时介绍 vmuiVictoriaMetrics 中文教程(05)对接各类监控数据采集器Vic...
夜莺的机器支持挂载到多个业务组了
SRETALK
10 月 8 日
阅读 3 分钟
261
夜莺开源项目于国庆前夕发布了 v7.4.1 版本,修复了一些 bug,同时也带来了一些新功能。其中最重要的一个功能是:机器支持挂载到多个业务组了。本文将介绍几个重要的变更。
Datadog 监控最佳实践 | 收集正确的数据
SRETALK
9 月 14 日
阅读 4 分钟
501
监控数据有多种形式 - 一些系统不断地输出数据,而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说,监控数据是观察系统内部运行情况的必要条件。
服务稳定性保障的五大误解
SRETALK
9 月 6 日
阅读 3 分钟
315
在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日,这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念,期望有一天大家沟通时不是鸡同鸭讲,各说各话。
企业分享 - 益丰大药房监控升级之路
SRETALK
9 月 4 日
阅读 3 分钟
220
益丰大药房是全国大型药品零售连锁企业(中国沪市主板上市连锁药房),专注医药零售行业23载, 市值稳居国内上市连锁药店前列/中国上市公司500强。
无需推翻既有的建设,这个可观测性产品思路清奇
SRETALK
9 月 3 日
阅读 3 分钟
199
市面上已经有很多开源、商业的可观测性类产品,比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等,而且各类云厂商也会提供自己的可观测性套件,有些规划混乱的云厂商甚至会提供功能重叠的多套产品,这加剧了企业数据孤岛的现状。来看两组数据:
海大集团的可观测平台建设实践
SRETALK
8 月 30 日
阅读 2 分钟
165
海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌影响力,海大集团连续5年榜上有名,上榜2...
Prometheus 告警恢复时,怎么获取恢复时的值?
SRETALK
8 月 29 日
阅读 4 分钟
374
Prometheus 告警事件中的 $value 表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的 $value 仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢?
关于告警,要想做好,从这些方面着手
SRETALK
8 月 28 日
阅读 2 分钟
312
各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 😎。
SRE 必备知识 - Kafka 探秘之零拷贝技术
SRETALK
8 月 27 日
阅读 2 分钟
337
在 Kafka 的场景下,操作系统可以从 page cache 拷贝数据到 socket buffer,直接绕过 Kafka broker 这个 Java 程序。这可以节省一些额外的拷贝,节省一些用户态和内核态的切换。让我们看一个例子。
使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标
SRETALK
8 月 26 日
阅读 5 分钟
212
如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距的工具。这篇文章详细介绍了 SpanConnector 的工作原理,提供了有关其配置和实现的指南。