刚接手一家单位的网络管理,发现网络比较简单,核心设备为Huawei,接入交换机70台均为H3C S3100,设备较旧已有7年以上,出现些网络故障也是在所难免,保障网络担子不轻。

网络问题

接手后从用户、管理人员各方反馈等,发现网络中存在一定的问题:

  • 弱电间灰尘较大,线缆较乱
  • 网络经常出现瞬断现象
  • 每年都有几台网络设备故障
  • 网络有时比较卡,过段时间后会自动恢复

可能存在的隐患有:

  • 网络设备可能出现异常
  • 部分交换机风扇有可能实效
  • 部分设备接口有可能损坏
  • 接入端存在环路的可能

针对上面的情况,需要有有效手段对网络进行监测,定位网络隐患并通过告警及时响应。

zabbix监控

主要监控设备为交换机,监控方式必然采用SNMP,考虑到告警、设备数量不多,相对prometheus,使用zabbix是较为合适的选择。

监控项

考虑上述隐患,分析监控项如下:

  1. 核心交换机

    • ICMP Ping
    • SNMP 状态
    • 设备描述、版本信息等
    • 设备上线时间
    • CPU使用率、内存使用率、温度
    • 风扇状态、电源状态
    • 主要接口状态
    • 主要接口出入流量、出入包速率、错误数量
  2. 接入交换机

    • ICMP Ping
    • SNMP 状态
    • 设备描述、版本信息等
    • 设备上线时间
    • CPU使用率、内存使用率、温度
    • 风扇状态

由于接入交换机均直接接入核心,因此不在接入上监控上联端口情况,接入接口其他端口连接终端设备,一般情况不作监控。

触发告警

主要告警有:

  • ping不通
  • ping平丢包率过高
  • ping响应值较高
  • 无法获取SNMP
  • 设备刚重启
  • cpu利用率高
  • mem利用率高
  • 温度过高
  • 温度过低(部分设备无法获取温度,一直为0)
  • 风扇异常
  • 接口使用率过高
  • 接口发包速度过快
  • 接口错误率过高

日志监控

网络中一些异常会通过trap、设备之身日志方式,对于设备日志,可以采用syslog方式发送到日志服务器,通过在日志服务器部署zabbix agent,使用active模式可对日志文本的监控分析,对异常情况进行告警

  • 设备异常登录
  • 设备接口异常(接口错误、)
  • 设备状态异常(风扇、电源)
  • 安全风险(设备自身检测出的网络攻击,如ARP miss等)
  • ...

案例

网络瞬断分析

网络瞬断比较难处理,在整个网络中也是较难排查,采用zabbix自带的模板“Template Module ICMP Ping”对网络交换机管理网段进行检测,运行一段时间后,发现有大量告警,出现一段时间(约2分钟左右)的中断。对高告警进行统计分析:
image.png
主要集中在几台设备,时间上也集中在上下班时间,因此怀疑设备配置需要检查,尤其是STP相关,查阅文档,对交换机进行优化,对终端接口启用边缘接口,减少对生成树的影响。调整之后,观察设备不存在ping不通的情况:
image.png
经对比,验证采用配置边缘接口效果较好,可以向全部网络设备推广,至于响应时间过高,已经比之前少很多,可以预计全部配置后效果应该更少。

观察配置边缘接口的设备,发现CPU使用率有明显变化,进一步印证效果:
image.png


puyu
184 声望17 粉丝