Meta 开源用于 AI 代理组合保护的 LlamaFirewall

发布于 2025-05-13

主要观点：LlamaFirewall 是旨在保护 AI 代理免受提示注入、目标不一致和不安全代码生成的安全框架，在 AgentDojo 基准测试中能降低攻击成功率超 90%，开发者可通过添加新安全护栏更新其行为。
关键信息：

包含 PromptGuard 2（实时检测越狱尝试的微调 BERT 模型）、Agent Alignment Checks（检查代理推理的链思维审计员）、CodeShield（防止编码代理生成不安全代码的在线静态分析引擎）三层保护。
PromptGuard 2 能实时分析用户提示和不可信数据源，针对指令覆盖等越狱策略，较上一代性能提升。
AlignmentCheck 可检查代理推理以识别目标劫持等迹象，是首个开源实时审计大型语言模型链思维的护栏。
CodeShield 支持 Semgrep 和 regex 规则，能检测潜在风险，但不全面，在 CyberSecEval3 中精度 96%、召回率 79%。
结合使用 PromptGuard 和 AlignmentCheck 能提升 AgentDojo 基准测试性能，Meta 研究人员称在更广泛场景中效果更好。
重要细节：
介绍了 LlamaFirewall 可融入代理系统的两种工作流程，如旅行规划代理使用 PromptGuard 扫描网页内容及 AlignmentCheck 监测目标偏移等，编码代理利用 CodeShield 生成 SQL 代码等。
提及 LlamaFirewall 工作将在支持多模态代理、降低延迟、扩大威胁覆盖和更真实基准测试等方向继续推进。

阅读 171