AIOps在美团的探索与实践——事件管理篇

2023-12-22
阅读 9 分钟
366
美团服务运维团队从事前防御、事中处理、事后运营多个阶段探索AIOps在事件管理领域的应用。本文介绍了在各个运维领域中AIOps的赋能场景,详细阐述了每一个运维场景的业务价值以及算法的具体的落地效果。
封面图

超大规模数据库集群保稳系列之二:数据库攻防演练建设实践

2023-05-26
阅读 9 分钟
732
本文整理自美团技术沙龙第75期的主题分享《美团数据库攻防演练建设实践》,系超大规模数据库集群保稳系列的第2篇文章。本文首先介绍了美团当前数据库运维现状、遇到的问题,以及为什么要建设数据库攻防演练平台;其次,分享当前数据库攻防演练平台的具体实践;第三部分会介绍数据库攻防演练在美团内部的落地情况;最后,...
封面图

从0到1:美团端侧CDN容灾解决方案

2022-01-14
阅读 8 分钟
4.8k
CDN已经成为互联网重要的基建之一,越来越多的网络服务离不开CDN,它的稳定性也直接影响到业务的可用性。CDN的容灾一直由美团的SRE团队在负责,在端侧鲜有方案和实践。本文结合美团外卖业务中的具体实践,介绍了一种在端侧感知CDN可用性状况并进行自动容灾切换的方案,通过该方案可有效降低业务对CDN异常的敏感,提高业...
封面图

根因分析初探:一种报警聚类算法在业务系统的落地实施

2019-03-01
阅读 11 分钟
3.1k
众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要。通常情况下,日志主要是记录关键执行点、程序执行错误时的现场信息等。系统出现故障时,运维人员一般先查看错误日志,定位故障原因。当业务流量小、逻辑复杂度低时,应用出现故障时错误日志一般较少,运维人员一般能够根据错误日...

数据库智能运维探索与实践

2018-12-14
阅读 6 分钟
4.1k
从自动化到智能化运维过渡时,美团DBA团队进行了哪些思考、探索与实践?本文根据赵应钢在“第九届中国数据库技术大会”上的演讲内容整理而成,部分内容有更新。