云flare 称，AI 站点 Perplexity 使用“隐形策略”来无视禁止爬取的法令。

发布于 8 月 5 日

主要观点：网络安全和优化服务 Cloudflare 周一称，AI 搜索引擎 Perplexity 正在使用隐形机器人和其他策略来规避网站的禁止抓取指令，若属实则违反了已存在三十多年的互联网规范。Cloudflare 研究人员发现 Perplexity 在已知爬虫被阻止后会使用隐形机器人通过多种方式规避网站封锁，且这种行为在众多域名和大量请求中都有出现。同时，Cloudflare 称不是第一个指出 Perplexity 违反规范的，此前 Reddit CEO 及其他出版商也对 Perplexity 提出了类似指控，而 Perplexity 未回应相关指控。

关键信息：

Cloudflare 发布博客指出 Perplexity 规避网站指令行为及相关测试发现。
隐形爬虫利用多个未在 Perplexity 官方 IP 范围的 IP 并轮换，还从不同 ASN 发起请求以规避封锁。
1994 年提出的 Robots Exclusion Protocol 及 2022 年成为 IETF 标准，网站通过 robots.txt 文件告知爬虫不被允许抓取。
其他出版商如 Forbes、Wired 指责 Perplexity plagiarized 内容及存在可疑流量模式。
Cloudflare 表示将采取行动阻止使用其内容交付服务的爬虫访问网站。

重要细节：

Cloudflare 收到客户关于 Perplexity 抓取机器人的投诉，虽客户已设置 robots.txt 文件和 Web 应用防火墙阻止，但 Perplexity 仍能访问网站内容。
Cloudflare 提供了示意图说明 alleged Perplexity 隐形爬虫的技术流程。
Reddit CEO 称 Microsoft、Anthropic、Perplexity 认为互联网内容可随意使用。
Perplexity 代表未回应关于指控真实性的邮件。

阅读 35