研究人员声称在对抗人工智能令人沮丧的安全漏洞方面取得突破

主要观点:“提示注入”(prompt injection)漏洞自 2022 年聊天机器人流行以来一直困扰开发者,虽有众多尝试但未找到可靠解决方案,谷歌 DeepMind 推出的 CaMeL 是一种新的阻止提示注入攻击的方法。
关键信息

  • 提示注入是 AI 系统无法区分合法用户命令和隐藏在处理内容中的恶意指令,如在 GPT-3 时代就已出现,会导致 AI 忽略护栏。
  • CaMeL 基于双 LLM 架构,将责任在两个语言模型间分配,“特权 LLM”(P-LLM)生成代码定义步骤,“隔离 LLM”(Q-LLM)解析非结构化数据为结构化输出,两者分离确保恶意文本不影响 AI 行动。
  • CaMeL 将用户提示转换为代码序列,通过特殊安全解释器运行并跟踪数据来源(数据轨迹),应用安全策略,类似“最小权限原则”。
  • CaMeL 经 AgentDojo 基准测试,在抵御提示注入攻击方面表现良好,其基于能力的设计还可抵御内部威胁和数据泄露,但并非完美解决方案,需用户编码并维护安全策略,存在平衡安全与用户体验的挑战。
    重要细节
  • 2022 年 9 月独立 AI 研究员 Simon Willison 创造“提示注入”术语。
  • 早期网络应用通过架构改变解决 SQL 注入攻击,CaMeL 不期望 AI 设计解决提示注入问题,而是确保其不能对不可信数据采取行动。
  • CaMeL 用锁定的 Python 子集编写代码,使用 ast 库分析和运行代码,监测数据流动。
  • 研究团队在 AgentDojo 基准测试中展示了 CaMeL 的高水平效用。
阅读 11
0 条评论