夜莺监控之Categraf监控VMwareVSphere

2023-06-13
阅读 13 分钟
1.7k
之前一直在使用开源的虚拟化软件PVE(Proxmox VE),突然有一天网桥莫名其妙的出幺蛾子,周末鼓捣了半天,谷歌百度也找不到对应的解决方案,重新安装烦的不行,后来一怒之下就换了VMware的VSphere7.0,不得不说,VMware的稳定性与实用性是真的赞,奥利给!但是有了虚拟化,怎么监控性能与告警呢?当前的监控产品样式繁多...
封面图

什么是SRE?SRE需要具备什么能力?

2021-11-12
阅读 10 分钟
3.9k
SRE最早是由Google提出的概念,其大概的意思就是:以标准化、自动化、可扩展驱动维护,用软件开发解决运维难题。这个岗位面世的时候,其根本要解决的问题就是打破传统研发人员快速迭代而引发的业务不稳定性,用以保证业务维护侧重的服务质量以及稳定性之间的平衡。

任务中心之Ansible基础篇

2021-10-22
阅读 10 分钟
3k
基础篇与进阶篇主要是为了基于AnsibleAPI二次开发 任务中心 做垫铺,并非官方使用文档,可能会有所遗漏,如有不足之处,欢迎拍砖指正,谢谢。基于AnsibleAPI二次开发任务中心已经开发完成,并且已经投入生产使用,后续会把详细的设计思路与具体架构分享给大家,敬请期待。为了方便大部分同学更好的了解Ansible的高级功能...

Prometheus监控神器-Kubernetes篇(三)

2020-09-10
阅读 7 分钟
2.4k
当我们有多个Kubernetes集群的时候,这个时候就需要需要指标汇总的需求了,如上图一样,我们假定在外部部署一个Prometheus的Federate,然后去采集当前k8s中的kube-system与default俩个namespace。

Prometheus监控神器-Kubernetes篇(二)

2020-09-09
阅读 16 分钟
2k
在Kubernetes中手动方式部署Statefulset的Grafana,并使用StorageClass来持久化数据,并且配置ingress-nginx访问。

Prometheus监控神器-Kubernetes篇(一)

2020-09-09
阅读 24 分钟
5.8k
在Kubernetes中手动部署Statefulset类型的Prometheus、Alertmanager集群,并使用StorageClass来持久化数据。

Prometheus监控神器-服务发现篇(三)

2020-09-07
阅读 15 分钟
1.8k
上图是官网提供的一个事例系统图,图中的Server是consul服务端高可用集群,Client是consul客户端。consul客户端不保存数据,客户端将接收到的请求转发给响应的Server端。Server之间通过局域网或广域网通信实现数据一致性。每个Server或Client都是一个consul agent。

Prometheus监控神器-服务发现篇(二)

2020-09-07
阅读 6 分钟
2.1k
如上图所示,对于线上环境我们可能会划分为:dev, stage, prod不同的集群。每一个集群运行多个主机节点,每个服务器节点上运行一个Node Exporter实例。Node Exporter实例会自动注册到Consul中,而Prometheus则根据Consul返回的Node Exporter实例信息动态的维护Target列表,从而向这些Target轮询监控数据。

Prometheus监控神器-服务发现篇(一)

2020-08-25
阅读 7 分钟
9.9k
当我们使用各类exporter分别对系统、数据库和HTTP服务进行监控指标采集,对于所有监控指标对应的Target的运行状态和资源使用情况,都是用Prometheus的静态配置功能 static_configs 来手动添加主机IP和端口,然后重载服务让Prometheus发现。