主要观点:“提示注入”(prompt injection)漏洞自 2022 年聊天机器人流行以来一直困扰开发者,虽有众多尝试但未找到可靠解决方案,谷歌 DeepMind 推出的 CaMeL 是一种新的阻止提示注入攻击的方法。
关键信息:
- 提示注入是 AI 系统无法区分合法用户命令和隐藏在处理内容中的恶意指令,如在 GPT-3 时代就已出现,会导致 AI 忽略护栏。
- CaMeL 基于双 LLM 架构,将责任在两个语言模型间分配,“特权 LLM”(P-LLM)生成代码定义步骤,“隔离 LLM”(Q-LLM)解析非结构化数据为结构化输出,两者分离确保恶意文本不影响 AI 行动。
- CaMeL 将用户提示转换为代码序列,通过特殊安全解释器运行并跟踪数据来源(数据轨迹),应用安全策略,类似“最小权限原则”。
- CaMeL 经 AgentDojo 基准测试,在抵御提示注入攻击方面表现良好,其基于能力的设计还可抵御内部威胁和数据泄露,但并非完美解决方案,需用户编码并维护安全策略,存在平衡安全与用户体验的挑战。
重要细节: - 2022 年 9 月独立 AI 研究员 Simon Willison 创造“提示注入”术语。
- 早期网络应用通过架构改变解决 SQL 注入攻击,CaMeL 不期望 AI 设计解决提示注入问题,而是确保其不能对不可信数据采取行动。
- CaMeL 用锁定的 Python 子集编写代码,使用 ast 库分析和运行代码,监测数据流动。
- 研究团队在 AgentDojo 基准测试中展示了 CaMeL 的高水平效用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。