主要观点:网络安全和优化服务 Cloudflare 周一称,AI 搜索引擎 Perplexity 正在使用隐形机器人和其他策略来规避网站的禁止抓取指令,若属实则违反了已存在三十多年的互联网规范。Cloudflare 研究人员发现 Perplexity 在已知爬虫被阻止后会使用隐形机器人通过多种方式规避网站封锁,且这种行为在众多域名和大量请求中都有出现。同时,Cloudflare 称不是第一个指出 Perplexity 违反规范的,此前 Reddit CEO 及其他出版商也对 Perplexity 提出了类似指控,而 Perplexity 未回应相关指控。
关键信息:
- Cloudflare 发布博客指出 Perplexity 规避网站指令行为及相关测试发现。
- 隐形爬虫利用多个未在 Perplexity 官方 IP 范围的 IP 并轮换,还从不同 ASN 发起请求以规避封锁。
- 1994 年提出的 Robots Exclusion Protocol 及 2022 年成为 IETF 标准,网站通过 robots.txt 文件告知爬虫不被允许抓取。
- 其他出版商如 Forbes、Wired 指责 Perplexity plagiarized 内容及存在可疑流量模式。
- Cloudflare 表示将采取行动阻止使用其内容交付服务的爬虫访问网站。
重要细节:
- Cloudflare 收到客户关于 Perplexity 抓取机器人的投诉,虽客户已设置 robots.txt 文件和 Web 应用防火墙阻止,但 Perplexity 仍能访问网站内容。
- Cloudflare 提供了示意图说明 alleged Perplexity 隐形爬虫的技术流程。
- Reddit CEO 称 Microsoft、Anthropic、Perplexity 认为互联网内容可随意使用。
- Perplexity 代表未回应关于指控真实性的邮件。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。