先想清楚什么事件是需要关注的 让程序可以发现“主动的”事件,比如处理错误,队列满等,然后上报 写一个脚本来发现“被动的”事件,比如处理速度慢,服务无响应等,然后上报 让3的脚本定时跑,化被动事件为主动事件(心跳) 最后有个中心接受各种来源的上报,按照某种策略处理不同严重程度的事件 注意上报的频率要控制住,避免在网络糟糕的时候让上报的请求填满你的网卡,雪上加霜
注意上报的频率要控制住,避免在网络糟糕的时候让上报的请求填满你的网卡,雪上加霜