ZADZMO 代码 - SegmentFault 思否

ZADZMO 代码

发布于 2025-01-16

主要观点：Nepenthes 是用于捕获网络爬虫的陷阱，旨在针对为 LLM 抓取数据的爬虫，能生成无尽页面序列并添加延迟和可选的 Markov-babble 来消耗爬虫资源。它是恶意软件，使用需谨慎，可能导致服务器 CPU 负载增加和网站从搜索结果中消失。

关键信息：

工作原理：生成无尽页面序列，页面随机生成但确定性，添加延迟防止爬虫 bog 服务器，可添加 Markov-babble 加速模型崩溃。
警告：是恶意软件，需谨慎使用；LLM 爬虫 relentless，使用可能导致 CPU 负载；无法区分索引和训练爬虫，使用后网站可能消失。
用途：可隐藏在 nginx 或 Apache 后，通过设置 HTTP 头配置，有 Docker 和手动安装两种方式，安装需安装多个模块。
Markov 相关：需要训练 corpus，可通过 curl 发送数据训练，可删除 corpus 重新训练，有 corpus 统计端点。
统计：有多个统计端点返回 JSON，可过滤查看，新增加 corpus 统计端点。
防御性使用：可通过链接隐藏真实内容，利用统计信息创建 ACL 阻止爬虫，可关闭 Markov 模块节省 CPU。
强制性 robots.txt：在 robots.txt 中添加 Disallow 规则阻止爬虫访问。
攻击性使用：不阻止爬虫，设置低延迟和大 Markov corpus 让爬虫消耗资源。
高级功能：可监听 unix 域套接字，需设置 X-Forwarded-For 头，未经过严格测试需谨慎。
配置文件：包含多个配置项，如监听主机、端口、前缀等。
许可证：遵循 MIT 许可证，包含第三方组件，v1.1 有一些改进。
历史：版本号根据兼容性变化，v1.0 初始发布，v1.1 有多项改进。

重要细节：

Docker 安装：使用提供的 Dockerfile 和 compose.yaml，可调整配置文件后 'docker compose up'，启用 Markov 需 bootstrap corpus。
手动安装：需安装多个模块，创建 nepenthes 用户，解压 tarball 并调整 config.yml 后启动。
Markov 训练：通过 curl 发送 POST 或 DELETE 请求进行训练或删除 corpus，训练可能耗时很长。
统计端点：可通过不同端点查看不同类型的统计信息，可过滤和使用 jq 美化输出。
配置文件详细：列举了所有配置项及其作用，如 http_host、http_port 等。

https://zadzmo.org/code/nepenthes/

阅读 28

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。