刚接手一家单位的网络管理,发现网络比较简单,核心设备为Huawei,接入交换机70台均为H3C S3100,设备较旧已有7年以上,出现些网络故障也是在所难免,保障网络担子不轻。
网络问题
接手后从用户、管理人员各方反馈等,发现网络中存在一定的问题:
- 弱电间灰尘较大,线缆较乱
- 网络经常出现瞬断现象
- 每年都有几台网络设备故障
- 网络有时比较卡,过段时间后会自动恢复
可能存在的隐患有:
- 网络设备可能出现异常
- 部分交换机风扇有可能实效
- 部分设备接口有可能损坏
- 接入端存在环路的可能
针对上面的情况,需要有有效手段对网络进行监测,定位网络隐患并通过告警及时响应。
zabbix监控
主要监控设备为交换机,监控方式必然采用SNMP,考虑到告警、设备数量不多,相对prometheus,使用zabbix是较为合适的选择。
监控项
考虑上述隐患,分析监控项如下:
-
核心交换机
- ICMP Ping
- SNMP 状态
- 设备描述、版本信息等
- 设备上线时间
- CPU使用率、内存使用率、温度
- 风扇状态、电源状态
- 主要接口状态
- 主要接口出入流量、出入包速率、错误数量
-
接入交换机
- ICMP Ping
- SNMP 状态
- 设备描述、版本信息等
- 设备上线时间
- CPU使用率、内存使用率、温度
- 风扇状态
由于接入交换机均直接接入核心,因此不在接入上监控上联端口情况,接入接口其他端口连接终端设备,一般情况不作监控。
触发告警
主要告警有:
- ping不通
- ping平丢包率过高
- ping响应值较高
- 无法获取SNMP
- 设备刚重启
- cpu利用率高
- mem利用率高
- 温度过高
- 温度过低(部分设备无法获取温度,一直为0)
- 风扇异常
- 接口使用率过高
- 接口发包速度过快
- 接口错误率过高
日志监控
网络中一些异常会通过trap、设备之身日志方式,对于设备日志,可以采用syslog方式发送到日志服务器,通过在日志服务器部署zabbix agent,使用active模式可对日志文本的监控分析,对异常情况进行告警
- 设备异常登录
- 设备接口异常(接口错误、)
- 设备状态异常(风扇、电源)
- 安全风险(设备自身检测出的网络攻击,如ARP miss等)
- ...
案例
网络瞬断分析
网络瞬断比较难处理,在整个网络中也是较难排查,采用zabbix自带的模板“Template Module ICMP Ping”对网络交换机管理网段进行检测,运行一段时间后,发现有大量告警,出现一段时间(约2分钟左右)的中断。对高告警进行统计分析:
主要集中在几台设备,时间上也集中在上下班时间,因此怀疑设备配置需要检查,尤其是STP相关,查阅文档,对交换机进行优化,对终端接口启用边缘接口,减少对生成树的影响。调整之后,观察设备不存在ping不通的情况:
经对比,验证采用配置边缘接口效果较好,可以向全部网络设备推广,至于响应时间过高,已经比之前少很多,可以预计全部配置后效果应该更少。
观察配置边缘接口的设备,发现CPU使用率有明显变化,进一步印证效果:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。