用于保护 LLM 代理免受提示注入攻击的设计模式

2025 年 6 月 13 日，来自 IBM、Invariant Labs、ETH Zurich、Google 和 Microsoft 等组织的 11 位作者发表了一篇新论文《用于保护 LLM 代理免受提示注入的设计模式》，是关于提示注入和 LLM 安全文献的出色补充。

问题范围：作者明确理解问题范围，认为只要代理及其防御依赖当前语言模型类，通用代理不太可能提供有意义和可靠的安全保证，提出应关注当前能构建的在抵抗提示注入攻击的同时产生有用工作的代理，所提设计模式遵循一旦 LLM 代理摄入不可信输入就必须受限，使其不可能触发任何后果性行动的原则。
设计模式：
- 行动选择模式：通过防止工具动作的反馈回代理，使代理对提示注入免疫，可总结为“LLM 调制的 switch 语句”。
- 计划然后执行模式：允许工具输出的反馈回代理，但防止其影响代理的动作选择，通过提前规划工具调用避免暴露于不可信内容带来的风险。
- LLM 映射减少模式：涉及由协调器指导、暴露于不可信内容并在之后安全聚合结果的子代理，类似经典的映射减少框架。
- 双 LLM 模式：特权 LLM 协调隔离的 LLM，避免暴露于不可信内容，隔离的 LLM 返回符号变量供特权 LLM 使用而不接触被污染内容。
- 代码然后执行模式：是 DeepMind 的 CaMeL 论文描述的模式，特权 LLM 在自定义沙盒 DSL 中生成代码指定调用工具及输出传递方式，可进行全数据流分析。
- 上下文最小化模式：通过在多次交互中删除上下文不必要内容防止某些用户提示注入，如将用户请求转换为数据库查询并在返回结果时删除提示。
案例研究：论文呈现十个案例研究，包括 OS 助手、SQL 代理等，每个都伴有详细威胁模型和潜在缓解策略，如在软件工程项目中通过严格格式化接口安全消费来自不可信外部文档的 API 信息，但对 30 字符方法名是否安全存在疑问。
作者近三年来一直在写关于提示注入的内容，看到此类高质量论文的出现令人欣慰，提示注入仍是负责任部署代理系统的最大挑战，研究界关注越多越好。