研究人员声称在对抗人工智能令人沮丧的安全漏洞方面取得突破

发布于 4 月 16 日

主要观点：“提示注入”（prompt injection）漏洞自 2022 年聊天机器人流行以来一直困扰开发者，虽有众多尝试但未找到可靠解决方案，谷歌 DeepMind 推出的 CaMeL 是一种新的阻止提示注入攻击的方法。
关键信息：

提示注入是 AI 系统无法区分合法用户命令和隐藏在处理内容中的恶意指令，如在 GPT-3 时代就已出现，会导致 AI 忽略护栏。
CaMeL 基于双 LLM 架构，将责任在两个语言模型间分配，“特权 LLM”（P-LLM）生成代码定义步骤，“隔离 LLM”（Q-LLM）解析非结构化数据为结构化输出，两者分离确保恶意文本不影响 AI 行动。
CaMeL 将用户提示转换为代码序列，通过特殊安全解释器运行并跟踪数据来源（数据轨迹），应用安全策略，类似“最小权限原则”。
CaMeL 经 AgentDojo 基准测试，在抵御提示注入攻击方面表现良好，其基于能力的设计还可抵御内部威胁和数据泄露，但并非完美解决方案，需用户编码并维护安全策略，存在平衡安全与用户体验的挑战。
重要细节：
2022 年 9 月独立 AI 研究员 Simon Willison 创造“提示注入”术语。
早期网络应用通过架构改变解决 SQL 注入攻击，CaMeL 不期望 AI 设计解决提示注入问题，而是确保其不能对不可信数据采取行动。
CaMeL 用锁定的 Python 子集编写代码，使用 ast 库分析和运行代码，监测数据流动。
研究团队在 AgentDojo 基准测试中展示了 CaMeL 的高水平效用。

阅读 11