开源开发者称 AI 爬虫主导流量，迫使对整个国家进行封锁

发布于 3 月 26 日

主要观点：今年初软件开发者 Xe Iaso 因亚马逊的 AI 爬虫流量导致 Git 仓库服务不稳定和停机，尽管采取了标准防御措施仍无法阻止，最终通过设置 VPN 和“Anubis”系统来应对；开源社区正面临 AI 爬虫过载基础设施导致持续 DDoS 攻击的危机，如 Fedora Pagure 项目、GNOME GitLab、KDE 的 GitLab 基础设施等都受影响，“Anubis”系统虽有效但对合法用户有弊端；AI 公司长期存在未经许可获取数据的行为，不同公司在爬虫行为和责任上有差异，且未采取合作或限流措施；为应对攻击出现了如“Nepenthes”和“AI Labyrinth”等新防御工具，社区也在开发协作工具来保护网站。
关键信息：

Xe Iaso 遭遇亚马逊 AI 爬虫问题及应对措施。
开源社区中多个项目受 AI 爬虫影响及相关情况。
AI 公司爬虫行为的动机、频率及不同公司的差异。
新防御工具的出现及社区的协作努力。
重要细节：
配置标准防御措施如调整 robots.txt、 blocking 已知爬虫 user-agents 等无效，AI 爬虫会伪装 user-agents 和使用住宅 IP 地址作为代理。
一些开源项目 97%流量来自 AI 公司 bots，增加带宽成本等负担。
如 Fedora Pagure 项目需封锁巴西流量，GNOME GitLab 实施“Anubis”系统等。
“Anubis”系统对合法用户有延迟影响，如移动用户等待两分钟。
AI 公司在 2022 年前就有不尊重所有权的数据收集行为。
不同 AI 公司在爬虫行为上的差异，如 Alibaba 等更 aggressive，OpenAI 等至少设置正确 user-agent 字符串。
“Nepenthes”是设计用来浪费 AI 公司资源的工具，Cloudflare 的“AI Labyrinth”是类似的商业工具。
“[ai.robots.txt]”项目提供相关工具和列表。

阅读 16