停止抓取我的 Git Forge

发布于 2025-07-24

主要观点：作者决定深入研究自托管 Git 仓库的网络服务器分析，发现 Cloudflare 通过隧道将其暴露在互联网上。虽开源代码供他人使用，但不喜欢大公司将其放入机器学习模型的黑箱。对开源代码所适用的许可证受此影响不确定。长期以来一直讨论公司未经许可窃取或使用作品用于机器学习模型，作者过去虽使用过一些机器学习工具但多出于好奇。此篇主要关于公司如何收集数据，其分析中看到“Amazonbot”从“git.gmem.ca”拉取大量数据，怀疑其用于 AWS 的机器学习模型，遂屏蔽该“Amazonbot”及其他爬虫，之后 WAF 规则已阻止约 25000 次请求，作者呼吁他人查看自己的日志以确定自身实例是否被爬取。
关键信息：

自托管 Git 仓库，Cloudflare 提供分析，通过隧道暴露。
对公司使用开源代码不满，担心数据被用于机器学习模型。
“Amazonbot”从“git.gmem.ca”拉取大量数据，被怀疑用于 AWS 模型。
屏蔽“Amazonbot”及其他爬虫，WAF 规则阻止约 25000 次请求。
重要细节：
“Amazonbot”的用户代理为“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/...”。
Cloudflare Radar 将其列为“AI Crawler”。
屏蔽时决定不屏蔽 IP 范围或 ASNs，仅屏蔽“Known bots”。
从 2024 年 6 月 2 日 5:15PM BST 到 6 月 3 日 2:30PM BST 期间，WAF 规则阻止了约 25000 次请求。

阅读 70