网站正在阻止错误的 AI 爬虫（因为 AI 公司一直在制造新的）

发布于 7 月 24 日

主要观点：数百网站在阻止 Anthropic 抓取内容时阻塞了错误的 bots，因复制粘贴过时指令及新 bot 不断出现。Anthropic 的部分热门网站 robots.txt 在阻塞旧 bot“ANTHROPIC - AI”和“CLAUDE - WEB”，而其当前活跃的 crawler 是“CLAUDEBOT”未被阻塞。Data Provenance Initiative 论文显示内容创作者和网站主在阻止 AI 工具训练时面临普遍困惑，阻止 AI 爬虫的责任全在网站主，且爬虫数量不断增加，当前 user agent 景观混乱。
关键信息：

Anthropic 发言人称“ANTHROPIC - AI”和“CLAUDE - WEB”不再使用，已配置 ClaudeBot 尊重之前为这些弃用 bot 设置的 robots.txt 指令。
Dark Visitors 追踪数百 web crawlers 和 scrapers，帮助网站主更新 robots.txt 以防止抓取。
一些网站因复制粘贴旧 blocker 列表而未实际阻止 Anthropic，如 Reuters.com 和 Condé Nast 家族网站。
iFixit 和 Read the Docs 称 Anthropic 的 crawlers 对其网站造成大量访问和费用。
Data Provenance Initiative 论文指出不明 agent 的起源和原因不清，Anthropic 称 ANTHROPIC - AI 和 CLAUDE - WEB 不再使用。
专家称当前 user agent 景观混乱，多数网站主应积极阻止疑似 AI 爬虫，以防被滥用。
重要细节：
Dark Visitors 追踪的 agent 信息及各 scraper 的作用。
如 Applebot - Extended 和 Meta - ExternalAgent 等新 agent 的出现。
不同网站在阻止 crawlers 时的不同做法及影响，如 Reddit 仅被 Google 爬行。
各专家对当前状况的看法和建议，如 Walter Haydock 认为应将内容置于付费墙后。
Cory Dransfeldt 维护的 AI bot blocklist 及相关态度。

阅读 17