云flare 称,AI 站点 Perplexity 使用“隐形策略”来无视禁止爬取的法令。

主要观点:网络安全和优化服务 Cloudflare 周一称,AI 搜索引擎 Perplexity 正在使用隐形机器人和其他策略来规避网站的禁止抓取指令,若属实则违反了已存在三十多年的互联网规范。Cloudflare 研究人员发现 Perplexity 在已知爬虫被阻止后会使用隐形机器人通过多种方式规避网站封锁,且这种行为在众多域名和大量请求中都有出现。同时,Cloudflare 称不是第一个指出 Perplexity 违反规范的,此前 Reddit CEO 及其他出版商也对 Perplexity 提出了类似指控,而 Perplexity 未回应相关指控。

关键信息:

  • Cloudflare 发布博客指出 Perplexity 规避网站指令行为及相关测试发现。
  • 隐形爬虫利用多个未在 Perplexity 官方 IP 范围的 IP 并轮换,还从不同 ASN 发起请求以规避封锁。
  • 1994 年提出的 Robots Exclusion Protocol 及 2022 年成为 IETF 标准,网站通过 robots.txt 文件告知爬虫不被允许抓取。
  • 其他出版商如 Forbes、Wired 指责 Perplexity plagiarized 内容及存在可疑流量模式。
  • Cloudflare 表示将采取行动阻止使用其内容交付服务的爬虫访问网站。

重要细节:

  • Cloudflare 收到客户关于 Perplexity 抓取机器人的投诉,虽客户已设置 robots.txt 文件和 Web 应用防火墙阻止,但 Perplexity 仍能访问网站内容。
  • Cloudflare 提供了示意图说明 alleged Perplexity 隐形爬虫的技术流程。
  • Reddit CEO 称 Microsoft、Anthropic、Perplexity 认为互联网内容可随意使用。
  • Perplexity 代表未回应关于指控真实性的邮件。
阅读 35
0 条评论