Meta 开源用于 AI 代理组合保护的 LlamaFirewall

主要观点:LlamaFirewall 是旨在保护 AI 代理免受提示注入、目标不一致和不安全代码生成的安全框架,在 AgentDojo 基准测试中能降低攻击成功率超 90%,开发者可通过添加新安全护栏更新其行为。
关键信息

  • 包含 PromptGuard 2(实时检测越狱尝试的微调 BERT 模型)、Agent Alignment Checks(检查代理推理的链思维审计员)、CodeShield(防止编码代理生成不安全代码的在线静态分析引擎)三层保护。
  • PromptGuard 2 能实时分析用户提示和不可信数据源,针对指令覆盖等越狱策略,较上一代性能提升。
  • AlignmentCheck 可检查代理推理以识别目标劫持等迹象,是首个开源实时审计大型语言模型链思维的护栏。
  • CodeShield 支持 Semgrep 和 regex 规则,能检测潜在风险,但不全面,在 CyberSecEval3 中精度 96%、召回率 79%。
  • 结合使用 PromptGuard 和 AlignmentCheck 能提升 AgentDojo 基准测试性能,Meta 研究人员称在更广泛场景中效果更好。
    重要细节
  • 介绍了 LlamaFirewall 可融入代理系统的两种工作流程,如旅行规划代理使用 PromptGuard 扫描网页内容及 AlignmentCheck 监测目标偏移等,编码代理利用 CodeShield 生成 SQL 代码等。
  • 提及 LlamaFirewall 工作将在支持多模态代理、降低延迟、扩大威胁覆盖和更真实基准测试等方向继续推进。
阅读 13
0 条评论