利用Prometheus 打造企业分布式监控平台(9)--最后的洼地Alertmanager

2020-04-24
阅读 2 分钟
2.3k
AlertManager用于处理客户端应用程序(如Prometheus)的警报。它还负责对警报进行重复数据删除,分组以及将其路由到其他收件人(例如电子邮件,Slack,Pager Duty)。

利用Prometheus 打造企业分布式监控平台(7)--Thanos和VictoriaMetrics

2020-04-24
阅读 5 分钟
3.6k
本文主要从数据写入和数据查询作为切入点,对比Thanos和VictoriaMetrics,包括以下几个维度: 安装和运维复杂性 可靠性和可用性 一致性 性能表现 可扩展性 关于Thanos和VictoriaMetrics的架构,大家可以参考利用Prometheus 打造企业分布式监控平台(3)--远程读写之战。这里就不再重复讲述了。 数据写入 安装和运维复杂性 ...

使用AIOps优化Kubernetes集群的成本

2020-04-09
阅读 3 分钟
2.9k
Kubernetes是Google开源的改变游戏规则的产品之一,它使许多组织的工作流程更加高效。有了Kubernetes,可以根据应用程序需求弹性管理应用程序的资源需求。它提供了根据工作负载需求为应用程序分配所需的CPU,磁盘和RAM的灵活性。

Kubernetes Liveness 和 Readiness Probes的最佳实践

2020-03-18
阅读 6 分钟
3.4k
Kubernetes Liveness 和 Readiness探针可用于通过减少运行问题和提高服务质量来使服务更健壮和更具弹性。但是,如果不仔细设置这些探针,则它们可能会严重降低服务的整体运行性能。