主要观点:作者决定深入研究自托管 Git 仓库的网络服务器分析,发现 Cloudflare 通过隧道将其暴露在互联网上。虽开源代码供他人使用,但不喜欢大公司将其放入机器学习模型的黑箱。对开源代码所适用的许可证受此影响不确定。长期以来一直讨论公司未经许可窃取或使用作品用于机器学习模型,作者过去虽使用过一些机器学习工具但多出于好奇。此篇主要关于公司如何收集数据,其分析中看到“Amazonbot”从“git.gmem.ca”拉取大量数据,怀疑其用于 AWS 的机器学习模型,遂屏蔽该“Amazonbot”及其他爬虫,之后 WAF 规则已阻止约 25000 次请求,作者呼吁他人查看自己的日志以确定自身实例是否被爬取。
关键信息:
- 自托管 Git 仓库,Cloudflare 提供分析,通过隧道暴露。
- 对公司使用开源代码不满,担心数据被用于机器学习模型。
- “Amazonbot”从“git.gmem.ca”拉取大量数据,被怀疑用于 AWS 模型。
- 屏蔽“Amazonbot”及其他爬虫,WAF 规则阻止约 25000 次请求。
重要细节: - “Amazonbot”的用户代理为“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/...”。
- Cloudflare Radar 将其列为“AI Crawler”。
- 屏蔽时决定不屏蔽 IP 范围或 ASNs,仅屏蔽“Known bots”。
- 从 2024 年 6 月 2 日 5:15PM BST 到 6 月 3 日 2:30PM BST 期间,WAF 规则阻止了约 25000 次请求。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。