单位已花费很低成本采购一套运维管理系统,大屏展示等做的很花梢,打算好好用起来,按照运维实用的角度,发现里面基本是默认配置,要想用好,基本需要重新配置一番,简单调整下,发现一些bug,甚是不爽,于是弃坑。
监控平台
按照支持开源的精神(折腾的原则),一线大厂的号召(至少前面有人踩坑),选择prometheus,开工
prometheus
按照网上的指引,配置,部署是蛮快的,简单启动。但接下来,路就漫长,开始添加监控的目标设备,使用文本拼接方式批量添加,还能接受,由于网络设备,肯定要用SNMP,部署snmp-exporter,添加项上就头疼,先要编写yml文件,再生成,再重新加载,更头疼的是oid,两三次下来,只能放弃。
想学学大厂的运维,要让星星之火燎原,不是那么容易。
open-falcon
自然相到的是小米开源的open-falcon,借鉴前人在分布式监控的经验,小米、滴滴等实践,看到详细(复杂)的架构图,想着集成度应该蛮高,查阅官方文档,再次搭起来环境,可启动后,尝试不到半个小时,没有搞清逻辑,再次放弃。
不是open-falcon不好,实在是骨骼清奇,非高手不能掌握(也许被prometheus的简单贯坏了)
入坑zabbix
在选择监控之时,已经被大厂洗过脑,他们是觉得zabbix不行,才另起炉灶,按照开源的规律(套路),那自然是要甩zabbix几条街的,一开始我就没关注,坑不能再踩呀,但折腾一番后,发现没有选择,无奈只好回归zabbix
zabbix是一款老牌的监控系统,当然界面可能有着浓浓的时代风格,尤其是图表,总之,提不起兴趣,但看其官方网站zabbix.com,渐渐有些好感,号称支持云、IOT,甚至监控一切1
UNLIMITED CAPABILITIES IN AN ALL-IN-ONE MONITORING SOLUTION
从此一入zabbix深似海
选择体会
在花费近一个月在监控平台选择的折腾,渐渐发现走偏的原因。没有贴合实际:单位几乎传统的公司的信息化
- 规模较小,机房也就10个机柜
- 网络设备监控需求强烈,60台交换机,网络不通影响较大
- 服务器采用私有云,vmware的虚拟化和基于KVM的超融合
- 业务部署在windows server上,基本IIS,几乎没有linux
- 少量数据库采用MS SQL和Oracle,
- 核心系统使用AIX,独立设备
之前有个监控就行,基本没有人员关注,有问题用户会报,监控看了徒增烦恼,监控也简单:监控网络设备状态、监控服务器状态cpu、mem、磁盘状态等,因此,基于容器、云的监控系统,prometheus等很难发挥其优势,相对容器,传统IT的监控类型实在太多样,太复杂
zabbix相对优势:
- 部署简单,架构也简单,传统的数据库、服务、web服务
- 开箱即用,有web界面(略丑,推荐调成暗黑模式)
- 适用多种传统监控设备,尤其网络、服务器等
- 支持多种类型,SNMP、客户端、服务器底层、java的管理
- 支持虚拟化服务的监控,可以适用企业未来发展
- 支持web监控、webservice等,可以逐渐做到业务层面的监控
- 使用模板,简化配置
- 多用户支持,详细的权限管理
- 定制化规则、告警
- ...
zabbix的特别适合小规模的信息化监控,尤其是中小企业,简单实用。由于高度定制化,对于有个性化监控需求,内置模板、函数、插件、api,充分给予发挥想象力的空间
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。