主要观点:在讨论提示注入攻击的两年半时间里,针对该问题的稳健解决方案进展甚微,而谷歌 DeepMind 的新论文《通过设计击败提示注入》改变了这一趋势,值得关注。LLM 易受提示注入攻击是因为将用户的可信提示和来自邮件等的不可信文本连接在一起,目前尚无可靠方法让 LLM 在不同文本类别中安全执行指令,而 CaMeL 系统可解决此问题。
关键信息:
- 提示注入攻击的简单版本及难以防止的原因。
- 谷歌 DeepMind 的新论文介绍的 CaMeL 系统,通过将用户提示转换为类似 Python 的代码序列,并使用自定义解释器应用额外规则来确保数据安全传递。
- 指出作者之前提出的双 LLM 模式存在的缺陷,即隔离的 Q-LLM 仍可能暴露于恶意指令。
- CaMeL 系统中使用能力和自定义解释器来解决缺陷,能力可跟踪数据的读取权限和来源,政策可据此允许或拒绝操作。
- CaMeL 系统的其他潜在好处,如 P-LLM 可更强大,Q-LLM 可更弱且可在本地运行,以提高用户隐私。
- 强调 CaMeL 不依赖更多 AI 来解决提示注入问题,而是通过系统设计提供强保证。
- 指出 CaMeL 虽有进步但仍有局限性,如用户需制定和维护安全策略,存在用户疲劳问题。
重要细节:
- 新论文地址为 https://arxiv.org/abs/2503.18813 ,作者提出的双 LLM 模式相关文章为 https://simonwillison.net/202... 。
- 文中提及的相关图表,如展示文档检索过程的流程图等。
- 对 SQL 注入等类似攻击的提及及相关比较。
- 关于用户疲劳的举例,如安全研究员 Troy Hunt 因疲劳而遭受网络钓鱼攻击。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。