主要观点:AI 搜索工具的兴起改变了网页内容的消费方式, bypass 了数字出版商的收入模式,各大数字出版商起诉 AI 公司侵犯知识产权,但法律行动并非全面解决方案。当前技术手段如 CAPTCHAs 和 robots.txt 限制无效,需在代码层面采取不同方法阻止 AI 爬虫,于是推出 Versara。
关键信息:
- Versara 不检测爬虫,而是混淆和毒害所有页面访问者收到的原始 HTML,生成大量“垃圾”数据插入合法内容,使 LLM 无法分辨真假。
- 对人类访问正常,利用人类和爬虫在网页交互方式上的差异,通过动态生成的 CSS 样式表存储去混淆规则。
- Versara 有简单灵活的 API 可集成到任何栈,在静态生成网站中使用简单,对各种自动化抓取有效,尤其对 LLM 效果显著。
- 通过设置示例网页展示 Versara 的能力,ChatGPT 对未受保护和受 Versara 保护的内容总结不同,受保护的内容会使 ChatGPT 产生错误响应。
重要细节: - 传统搜索范式下用户需访问信息来源网站,AI 搜索则无需,这影响了数字出版商的收入。
- 法律行动针对众多 AI 公司成本高且耗时,小出版商等缺乏资源。
- Versara 可将垃圾内容用于向 LLM 传递对抗性输入有效载荷。
- 公共 API 尚未上线,可通过这里请求 API 密钥以控制内容。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。