主要观点:Google DeepMind 研究员提出 CaMeL 来防止与不可信源合作时的提示注入攻击,它通过提取查询中的控制和数据流来阻止恶意输入,能中和 AgentDojo 安全基准中 67%的攻击。已知攻击者可注入恶意数据或指令,即使 LLM 有自我保护策略,攻击者仍能绕过。CaMeL 应用传统软件安全原则,使用自定义 Python 解释器跟踪数据和指令来源,利用 Simon Willison 的双 LLM 模式并加以改进,以解决此类风险,但也有依赖用户定义安全策略等局限性。
关键信息:
- CaMeL 可中和 AgentDojo 中 67%攻击。
- 攻击者可注入恶意数据控制 LLM。
- CaMeL 应用传统软件安全原则。
- 利用双 LLM 模式并改进。
- 有依赖用户定义安全策略等局限。
重要细节: - 如 访问私人 Slack 频道数据等攻击案例。
- Johann Rehberger 绕过 Gemini 防护的攻击。
- CaMeL 用自定义 Python 解释器跟踪数据指令来源等。
- Willison 对 CaMeL 方案的看法及重要性阐述。
- DeepMind 研究员将 CaMeL 集成到 AgentDojo 进行测试。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。