介绍 | Versara

发布于 2025-01-20

主要观点：AI 搜索工具的兴起改变了网页内容的消费方式， bypass 了数字出版商的收入模式，各大数字出版商起诉 AI 公司侵犯知识产权，但法律行动并非全面解决方案。当前技术手段如 CAPTCHAs 和 robots.txt 限制无效，需在代码层面采取不同方法阻止 AI 爬虫，于是推出 Versara。
关键信息：

Versara 不检测爬虫，而是混淆和毒害所有页面访问者收到的原始 HTML，生成大量“垃圾”数据插入合法内容，使 LLM 无法分辨真假。
对人类访问正常，利用人类和爬虫在网页交互方式上的差异，通过动态生成的 CSS 样式表存储去混淆规则。
Versara 有简单灵活的 API 可集成到任何栈，在静态生成网站中使用简单，对各种自动化抓取有效，尤其对 LLM 效果显著。
通过设置示例网页展示 Versara 的能力，ChatGPT 对未受保护和受 Versara 保护的内容总结不同，受保护的内容会使 ChatGPT 产生错误响应。
重要细节：
传统搜索范式下用户需访问信息来源网站，AI 搜索则无需，这影响了数字出版商的收入。
法律行动针对众多 AI 公司成本高且耗时，小出版商等缺乏资源。
Versara 可将垃圾内容用于向 LLM 传递对抗性输入有效载荷。
公共 API 尚未上线，可通过这里请求 API 密钥以控制内容。

阅读 26