开源开发者称 AI 爬虫主导流量,迫使对整个国家进行封锁

主要观点:今年初软件开发者 Xe Iaso 因亚马逊的 AI 爬虫流量导致 Git 仓库服务不稳定和停机,尽管采取了标准防御措施仍无法阻止,最终通过设置 VPN 和“Anubis”系统来应对;开源社区正面临 AI 爬虫过载基础设施导致持续 DDoS 攻击的危机,如 Fedora Pagure 项目、GNOME GitLab、KDE 的 GitLab 基础设施等都受影响,“Anubis”系统虽有效但对合法用户有弊端;AI 公司长期存在未经许可获取数据的行为,不同公司在爬虫行为和责任上有差异,且未采取合作或限流措施;为应对攻击出现了如“Nepenthes”和“AI Labyrinth”等新防御工具,社区也在开发协作工具来保护网站。
关键信息

  • Xe Iaso 遭遇亚马逊 AI 爬虫问题及应对措施。
  • 开源社区中多个项目受 AI 爬虫影响及相关情况。
  • AI 公司爬虫行为的动机、频率及不同公司的差异。
  • 新防御工具的出现及社区的协作努力。
    重要细节
  • 配置标准防御措施如调整 robots.txt、 blocking 已知爬虫 user-agents 等无效,AI 爬虫会伪装 user-agents 和使用住宅 IP 地址作为代理。
  • 一些开源项目 97%流量来自 AI 公司 bots,增加带宽成本等负担。
  • 如 Fedora Pagure 项目需封锁巴西流量,GNOME GitLab 实施“Anubis”系统等。
  • “Anubis”系统对合法用户有延迟影响,如移动用户等待两分钟。
  • AI 公司在 2022 年前就有不尊重所有权的数据收集行为。
  • 不同 AI 公司在爬虫行为上的差异,如 Alibaba 等更 aggressive,OpenAI 等至少设置正确 user-agent 字符串。
  • “Nepenthes”是设计用来浪费 AI 公司资源的工具,Cloudflare 的“AI Labyrinth”是类似的商业工具。
  • “[ai.robots.txt]”项目提供相关工具和列表。
阅读 8
0 条评论