zabbix小点滴：入坑

单位已花费很低成本采购一套运维管理系统，大屏展示等做的很花梢，打算好好用起来，按照运维实用的角度，发现里面基本是默认配置，要想用好，基本需要重新配置一番，简单调整下，发现一些bug，甚是不爽，于是弃坑。

监控平台

按照支持开源的精神（折腾的原则），一线大厂的号召（至少前面有人踩坑），选择prometheus，开工

prometheus

按照网上的指引，配置，部署是蛮快的，简单启动。但接下来，路就漫长，开始添加监控的目标设备，使用文本拼接方式批量添加，还能接受，由于网络设备，肯定要用SNMP,部署snmp-exporter，添加项上就头疼，先要编写yml文件，再生成，再重新加载，更头疼的是oid，两三次下来，只能放弃。

想学学大厂的运维，要让星星之火燎原，不是那么容易。

open-falcon

自然相到的是小米开源的open-falcon，借鉴前人在分布式监控的经验，小米、滴滴等实践，看到详细（复杂）的架构图，想着集成度应该蛮高，查阅官方文档，再次搭起来环境，可启动后，尝试不到半个小时，没有搞清逻辑，再次放弃。

不是open-falcon不好，实在是骨骼清奇，非高手不能掌握（也许被prometheus的简单贯坏了）

入坑zabbix

在选择监控之时，已经被大厂洗过脑，他们是觉得zabbix不行，才另起炉灶，按照开源的规律（套路），那自然是要甩zabbix几条街的，一开始我就没关注，坑不能再踩呀，但折腾一番后，发现没有选择，无奈只好回归zabbix
监控图表示例
zabbix是一款老牌的监控系统，当然界面可能有着浓浓的时代风格，尤其是图表，总之，提不起兴趣，但看其官方网站zabbix.com，渐渐有些好感，号称支持云、IOT,甚至监控一切¹

UNLIMITED CAPABILITIES IN AN ALL-IN-ONE MONITORING SOLUTION

从此一入zabbix深似海

选择体会

在花费近一个月在监控平台选择的折腾，渐渐发现走偏的原因。没有贴合实际：单位几乎传统的公司的信息化

规模较小，机房也就10个机柜
网络设备监控需求强烈，60台交换机，网络不通影响较大
服务器采用私有云，vmware的虚拟化和基于KVM的超融合
业务部署在windows server上，基本IIS，几乎没有linux
少量数据库采用MS SQL和Oracle,
核心系统使用AIX，独立设备

之前有个监控就行，基本没有人员关注，有问题用户会报，监控看了徒增烦恼，监控也简单：监控网络设备状态、监控服务器状态cpu、mem、磁盘状态等，因此，基于容器、云的监控系统，prometheus等很难发挥其优势，相对容器，传统IT的监控类型实在太多样，太复杂

zabbix相对优势：

部署简单，架构也简单，传统的数据库、服务、web服务
开箱即用，有web界面（略丑，推荐调成暗黑模式）
适用多种传统监控设备，尤其网络、服务器等
支持多种类型,SNMP、客户端、服务器底层、java的管理
支持虚拟化服务的监控，可以适用企业未来发展
支持web监控、webservice等，可以逐渐做到业务层面的监控
使用模板，简化配置
多用户支持，详细的权限管理
定制化规则、告警
...

zabbix的特别适合小规模的信息化监控，尤其是中小企业，简单实用。由于高度定制化，对于有个性化监控需求，内置模板、函数、插件、api，充分给予发挥想象力的空间

zabbix官网 ↩

zabbix小点滴：入坑

监控平台

prometheus

open-falcon

入坑zabbix

选择体会

puyu

引用和评论

树莓派简洁风格桌面：fluxbox

观测云多步拨测最佳实践

Prometheus中系统CPU使用率如何计算？

夜莺监控 v8.0 新版通知规则 | 对接飞书告警

夜莺监控新版，中心端连不通的时序库也可以告警了

构建混合技术栈的统一监控与日志平台

Prometheus+Grafana+Alertmanager监控