介绍 | Versara

主要观点:AI 搜索工具的兴起改变了网页内容的消费方式, bypass 了数字出版商的收入模式,各大数字出版商起诉 AI 公司侵犯知识产权,但法律行动并非全面解决方案。当前技术手段如 CAPTCHAs 和 robots.txt 限制无效,需在代码层面采取不同方法阻止 AI 爬虫,于是推出 Versara。
关键信息

  • Versara 不检测爬虫,而是混淆和毒害所有页面访问者收到的原始 HTML,生成大量“垃圾”数据插入合法内容,使 LLM 无法分辨真假。
  • 对人类访问正常,利用人类和爬虫在网页交互方式上的差异,通过动态生成的 CSS 样式表存储去混淆规则。
  • Versara 有简单灵活的 API 可集成到任何栈,在静态生成网站中使用简单,对各种自动化抓取有效,尤其对 LLM 效果显著。
  • 通过设置示例网页展示 Versara 的能力,ChatGPT 对未受保护和受 Versara 保护的内容总结不同,受保护的内容会使 ChatGPT 产生错误响应。
    重要细节
  • 传统搜索范式下用户需访问信息来源网站,AI 搜索则无需,这影响了数字出版商的收入。
  • 法律行动针对众多 AI 公司成本高且耗时,小出版商等缺乏资源。
  • Versara 可将垃圾内容用于向 LLM 传递对抗性输入有效载荷。
  • 公共 API 尚未上线,可通过这里请求 API 密钥以控制内容。
阅读 9
0 条评论