WGCLOUD运维之路:agent主机下线离线不上报数据的原因整理
wgcloud监控系统的agent主机下线问题,agent日志打印防篡改校验失败或者防篡改校验错误次数大于10次,不再上报数据
这个问题注意几点,按照顺序依次排查下
1、 server和agent的主机系统时间差不能大于15个小时,若时间差不超过15小时打印【防篡改校验错误】类似信息,忽略即可,不会有影响
2、 若是v3.3.5之前版本,server主机的9997端口(这是守护进程wgcloud-daemon-release的默认端口)要开放给agent主机,保证agent主机可以telnet通server的9997端口
若是v3.3.5或以后版本,9997端口已经不需要开放给agent主机访问
3、 修改了守护进程wgcloud-daemon-release的默认端口导致的,server配置文件和守护进程配置文件没有同步修改端口,查看修改说明
4、若是v3.3.5或之后版本,查看server本机是否能正常访问http://localhost:9997获得返回值,如:2faa233a1400201bedc199fe1d8ab393,若server主机的localhost不能使用,可以在配置文件server/config/application.yml,将配置项daemonUrl: http://localhost:9997 中的localhost改成server主机ip
5、 wgcloud-server-release.jar不要编辑修改,若编辑过,还原到安装包里的wgcloud-server-release.jar即可
6、 server和agent要保持同一个版本号
7、server端的守护进程(wgcloud-daemon-release)不要关闭,特别是Windows注意不要关闭守护进程窗口。若是Linux,守护进程可能是被kill了,查看守护进程是否还存活(ps -ef | grep wgcloud)
还有一种可能是server部署在Windows,不小心左键点击守护进程的窗口,进入编辑模式了,右击恢复就好了
如果此原因导致的话,重启server(守护进程会随着server启动)后,1小时内所有agent会陆续恢复上线,也可以手动重启agent(立即上线)
8、 server如果运行在arm、龙芯等系统,需要将守护进程wgcloud-agent-release替换为对应的版本,点击下载
9、 如果server或守护进程(wgcloud-daemon-release)长时间没有启动运行,那么当server重新启动后,agent会在1小时内陆续自动恢复上线,不用重启agent。也可以手动重启agent,会立刻恢复上线
10、 可能是agent主机ping不通server主机,或访问不到server端口,我们可以在agent主机使用ping [server主机IP]和telnet [server主机IP] 9999来测试连通性
11、如果是在docker部署 server,我们检查下是否把config/application.yml中的守护进程url中的localhost改为宿主机ip了,如下
一般需要改下,除非是docker容器内可以访问http://localhost:9997的话,那就可以不改
#守护进程访问url,server服务使用,agent不使用(一般保持默认即可)
daemonUrl: http://localhost:9997
如下图,红色字体标识主机下线
WGCLOUD的配置使用 - 导入sql文件
一往情深赞 1阅读 387
最好用的 python 库合集
tiny极客赞 11阅读 2.8k评论 2
花了半个小时基于 ChatGPT 搭建了一个微信机器人
Java极客技术赞 12阅读 3.2k评论 3
花了几个月时间把 MySQL 重新巩固了一遍,梳理了一篇几万字 “超硬核” 的保姆式学习教程!(持续更新中~)
民工哥赞 11阅读 1.1k
技术社区的朋友们,让我们在 2050 团聚吧!
SegmentFault思否赞 5阅读 13.2k评论 1
Fork:剖析「云计算大楼」中的每一块砖|开发者说
万事ONES赞 3阅读 12.3k评论 1
Vland:像乐高一样搭建元宇宙|开发者说
万事ONES赞 3阅读 14.1k
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。