网站正在阻止错误的 AI 爬虫(因为 AI 公司一直在制造新的)

主要观点:数百网站在阻止 Anthropic 抓取内容时阻塞了错误的 bots,因复制粘贴过时指令及新 bot 不断出现。Anthropic 的部分热门网站 robots.txt 在阻塞旧 bot“ANTHROPIC - AI”和“CLAUDE - WEB”,而其当前活跃的 crawler 是“CLAUDEBOT”未被阻塞。Data Provenance Initiative 论文显示内容创作者和网站主在阻止 AI 工具训练时面临普遍困惑,阻止 AI 爬虫的责任全在网站主,且爬虫数量不断增加,当前 user agent 景观混乱。
关键信息

  • Anthropic 发言人称“ANTHROPIC - AI”和“CLAUDE - WEB”不再使用,已配置 ClaudeBot 尊重之前为这些弃用 bot 设置的 robots.txt 指令。
  • Dark Visitors 追踪数百 web crawlers 和 scrapers,帮助网站主更新 robots.txt 以防止抓取。
  • 一些网站因复制粘贴旧 blocker 列表而未实际阻止 Anthropic,如 Reuters.com 和 Condé Nast 家族网站。
  • iFixit 和 Read the Docs 称 Anthropic 的 crawlers 对其网站造成大量访问和费用。
  • Data Provenance Initiative 论文指出不明 agent 的起源和原因不清,Anthropic 称 ANTHROPIC - AI 和 CLAUDE - WEB 不再使用。
  • 专家称当前 user agent 景观混乱,多数网站主应积极阻止疑似 AI 爬虫,以防被滥用。
    重要细节
  • Dark Visitors 追踪的 agent 信息及各 scraper 的作用。
  • 如 Applebot - Extended 和 Meta - ExternalAgent 等新 agent 的出现。
  • 不同网站在阻止 crawlers 时的不同做法及影响,如 Reddit 仅被 Google 爬行。
  • 各专家对当前状况的看法和建议,如 Walter Haydock 认为应将内容置于付费墙后。
  • Cory Dransfeldt 维护的 AI bot blocklist 及相关态度。
阅读 17
0 条评论