主要观点:Nepenthes 是用于捕获网络爬虫的陷阱,旨在针对为 LLM 抓取数据的爬虫,能生成无尽页面序列并添加延迟和可选的 Markov-babble 来消耗爬虫资源。它是恶意软件,使用需谨慎,可能导致服务器 CPU 负载增加和网站从搜索结果中消失。
关键信息:
- 工作原理:生成无尽页面序列,页面随机生成但确定性,添加延迟防止爬虫 bog 服务器,可添加 Markov-babble 加速模型崩溃。
- 警告:是恶意软件,需谨慎使用;LLM 爬虫 relentless,使用可能导致 CPU 负载;无法区分索引和训练爬虫,使用后网站可能消失。
- 用途:可隐藏在 nginx 或 Apache 后,通过设置 HTTP 头配置,有 Docker 和手动安装两种方式,安装需安装多个模块。
- Markov 相关:需要训练 corpus,可通过 curl 发送数据训练,可删除 corpus 重新训练,有 corpus 统计端点。
- 统计:有多个统计端点返回 JSON,可过滤查看,新增加 corpus 统计端点。
- 防御性使用:可通过链接隐藏真实内容,利用统计信息创建 ACL 阻止爬虫,可关闭 Markov 模块节省 CPU。
- 强制性 robots.txt:在 robots.txt 中添加 Disallow 规则阻止爬虫访问。
- 攻击性使用:不阻止爬虫,设置低延迟和大 Markov corpus 让爬虫消耗资源。
- 高级功能:可监听 unix 域套接字,需设置 X-Forwarded-For 头,未经过严格测试需谨慎。
- 配置文件:包含多个配置项,如监听主机、端口、前缀等。
- 许可证:遵循 MIT 许可证,包含第三方组件,v1.1 有一些改进。
- 历史:版本号根据兼容性变化,v1.0 初始发布,v1.1 有多项改进。
重要细节:
- Docker 安装:使用提供的 Dockerfile 和 compose.yaml,可调整配置文件后 'docker compose up',启用 Markov 需 bootstrap corpus。
- 手动安装:需安装多个模块,创建 nepenthes 用户,解压 tarball 并调整 config.yml 后启动。
- Markov 训练:通过 curl 发送 POST 或 DELETE 请求进行训练或删除 corpus,训练可能耗时很长。
- 统计端点:可通过不同端点查看不同类型的统计信息,可过滤和使用 jq 美化输出。
- 配置文件详细:列举了所有配置项及其作用,如 http_host、http_port 等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。