主要观点:数百网站在阻止 Anthropic 抓取内容时阻塞了错误的 bots,因复制粘贴过时指令及新 bot 不断出现。Anthropic 的部分热门网站 robots.txt 在阻塞旧 bot“ANTHROPIC - AI”和“CLAUDE - WEB”,而其当前活跃的 crawler 是“CLAUDEBOT”未被阻塞。Data Provenance Initiative 论文显示内容创作者和网站主在阻止 AI 工具训练时面临普遍困惑,阻止 AI 爬虫的责任全在网站主,且爬虫数量不断增加,当前 user agent 景观混乱。
关键信息:
- Anthropic 发言人称“ANTHROPIC - AI”和“CLAUDE - WEB”不再使用,已配置 ClaudeBot 尊重之前为这些弃用 bot 设置的 robots.txt 指令。
- Dark Visitors 追踪数百 web crawlers 和 scrapers,帮助网站主更新 robots.txt 以防止抓取。
- 一些网站因复制粘贴旧 blocker 列表而未实际阻止 Anthropic,如 Reuters.com 和 Condé Nast 家族网站。
- iFixit 和 Read the Docs 称 Anthropic 的 crawlers 对其网站造成大量访问和费用。
- Data Provenance Initiative 论文指出不明 agent 的起源和原因不清,Anthropic 称 ANTHROPIC - AI 和 CLAUDE - WEB 不再使用。
- 专家称当前 user agent 景观混乱,多数网站主应积极阻止疑似 AI 爬虫,以防被滥用。
重要细节: - Dark Visitors 追踪的 agent 信息及各 scraper 的作用。
- 如 Applebot - Extended 和 Meta - ExternalAgent 等新 agent 的出现。
- 不同网站在阻止 crawlers 时的不同做法及影响,如 Reddit 仅被 Google 爬行。
- 各专家对当前状况的看法和建议,如 Walter Haydock 认为应将内容置于付费墙后。
- Cory Dransfeldt 维护的 AI bot blocklist 及相关态度。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。