zabbix小点滴：监控网络排查隐患

刚接手一家单位的网络管理，发现网络比较简单，核心设备为Huawei,接入交换机70台均为H3C S3100,设备较旧已有7年以上，出现些网络故障也是在所难免，保障网络担子不轻。

网络问题

接手后从用户、管理人员各方反馈等，发现网络中存在一定的问题：

弱电间灰尘较大，线缆较乱
网络经常出现瞬断现象
每年都有几台网络设备故障
网络有时比较卡，过段时间后会自动恢复

可能存在的隐患有：

网络设备可能出现异常
部分交换机风扇有可能实效
部分设备接口有可能损坏
接入端存在环路的可能

针对上面的情况，需要有有效手段对网络进行监测，定位网络隐患并通过告警及时响应。

zabbix监控

主要监控设备为交换机，监控方式必然采用SNMP，考虑到告警、设备数量不多，相对prometheus，使用zabbix是较为合适的选择。

监控项

考虑上述隐患，分析监控项如下：

核心交换机
- ICMP Ping
- SNMP 状态
- 设备描述、版本信息等
- 设备上线时间
- CPU使用率、内存使用率、温度
- 风扇状态、电源状态
- 主要接口状态
- 主要接口出入流量、出入包速率、错误数量
接入交换机
- ICMP Ping
- SNMP 状态
- 设备描述、版本信息等
- 设备上线时间
- CPU使用率、内存使用率、温度
- 风扇状态

由于接入交换机均直接接入核心，因此不在接入上监控上联端口情况，接入接口其他端口连接终端设备，一般情况不作监控。

触发告警

主要告警有：

ping不通
ping平丢包率过高
ping响应值较高
无法获取SNMP
设备刚重启
cpu利用率高
mem利用率高
温度过高
温度过低（部分设备无法获取温度，一直为0）
风扇异常
接口使用率过高
接口发包速度过快
接口错误率过高

日志监控

网络中一些异常会通过trap、设备之身日志方式，对于设备日志，可以采用syslog方式发送到日志服务器，通过在日志服务器部署zabbix agent，使用active模式可对日志文本的监控分析，对异常情况进行告警

设备异常登录
设备接口异常（接口错误、）
设备状态异常（风扇、电源）
安全风险（设备自身检测出的网络攻击，如ARP miss等）
...

案例

网络瞬断分析

网络瞬断比较难处理，在整个网络中也是较难排查，采用zabbix自带的模板“Template Module ICMP Ping”对网络交换机管理网段进行检测，运行一段时间后，发现有大量告警，出现一段时间（约2分钟左右）的中断。对高告警进行统计分析：

主要集中在几台设备，时间上也集中在上下班时间，因此怀疑设备配置需要检查，尤其是STP相关，查阅文档，对交换机进行优化，对终端接口启用边缘接口，减少对生成树的影响。调整之后，观察设备不存在ping不通的情况：

经对比，验证采用配置边缘接口效果较好，可以向全部网络设备推广，至于响应时间过高，已经比之前少很多，可以预计全部配置后效果应该更少。

zabbix小点滴：监控网络排查隐患

网络问题

zabbix监控

监控项

触发告警

日志监控

案例

网络瞬断分析

puyu

引用和评论

树莓派简洁风格桌面：fluxbox

群晖 snmp 监控