ZADZMO 代码

主要观点:Nepenthes 是用于捕获网络爬虫的陷阱,旨在针对为 LLM 抓取数据的爬虫,能生成无尽页面序列并添加延迟和可选的 Markov-babble 来消耗爬虫资源。它是恶意软件,使用需谨慎,可能导致服务器 CPU 负载增加和网站从搜索结果中消失。

关键信息

  • 工作原理:生成无尽页面序列,页面随机生成但确定性,添加延迟防止爬虫 bog 服务器,可添加 Markov-babble 加速模型崩溃。
  • 警告:是恶意软件,需谨慎使用;LLM 爬虫 relentless,使用可能导致 CPU 负载;无法区分索引和训练爬虫,使用后网站可能消失。
  • 用途:可隐藏在 nginx 或 Apache 后,通过设置 HTTP 头配置,有 Docker 和手动安装两种方式,安装需安装多个模块。
  • Markov 相关:需要训练 corpus,可通过 curl 发送数据训练,可删除 corpus 重新训练,有 corpus 统计端点。
  • 统计:有多个统计端点返回 JSON,可过滤查看,新增加 corpus 统计端点。
  • 防御性使用:可通过链接隐藏真实内容,利用统计信息创建 ACL 阻止爬虫,可关闭 Markov 模块节省 CPU。
  • 强制性 robots.txt:在 robots.txt 中添加 Disallow 规则阻止爬虫访问。
  • 攻击性使用:不阻止爬虫,设置低延迟和大 Markov corpus 让爬虫消耗资源。
  • 高级功能:可监听 unix 域套接字,需设置 X-Forwarded-For 头,未经过严格测试需谨慎。
  • 配置文件:包含多个配置项,如监听主机、端口、前缀等。
  • 许可证:遵循 MIT 许可证,包含第三方组件,v1.1 有一些改进。
  • 历史:版本号根据兼容性变化,v1.0 初始发布,v1.1 有多项改进。

重要细节

  • Docker 安装:使用提供的 Dockerfile 和 compose.yaml,可调整配置文件后 'docker compose up',启用 Markov 需 bootstrap corpus。
  • 手动安装:需安装多个模块,创建 nepenthes 用户,解压 tarball 并调整 config.yml 后启动。
  • Markov 训练:通过 curl 发送 POST 或 DELETE 请求进行训练或删除 corpus,训练可能耗时很长。
  • 统计端点:可通过不同端点查看不同类型的统计信息,可过滤和使用 jq 美化输出。
  • 配置文件详细:列举了所有配置项及其作用,如 http_host、http_port 等。
阅读 10
0 条评论