研究人员开源LLM越狱防御算法SafeDecoding

SafeDecoding:保护大语言模型免受越狱攻击的新技术

华盛顿大学、宾夕法尼亚州立大学和艾伦人工智能研究所的研究人员开源了SafeDecoding技术,旨在保护大语言模型(LLMs)免受越狱攻击。SafeDecoding在防御越狱攻击方面表现优异,且不会带来显著的计算开销。

主要观点

  1. 技术核心:SafeDecoding的核心思想是,在解码过程中,尽管越狱攻击的有害响应词元的概率较高,但安全响应的词元仍然位于最可能的选择之中。因此,SafeDecoding通过识别安全响应词元并放大其概率,同时降低有害响应的概率,从而引导生成安全响应。
  2. 应用与评估:研究人员在五个开源LLMs上应用了SafeDecoding,并在六种不同的越狱攻击中评估了其性能,与六种基线防御方法进行了对比。SafeDecoding在几乎所有场景中均优于基线方法。
  3. 研究目标:研究团队的主要目标是开发一种轻量级的解码策略,以增强LLMs的安全性。随着LLMs在现实世界中的应用日益广泛,其安全性保障变得至关重要。SafeDecoding不仅有效缓解了越狱攻击,还能让LLMs继续以高效和有益的方式服务良性用户。

背景与相关工作

随着ChatGPT和GPT-4的发布,许多针对LLMs的越狱技术涌现,这些技术通过特定的提示词绕过模型的安全防护,输出潜在的有害响应。2023年,InfoQ报道了Nvidia的NeMo Guardrails包,该包帮助开发者预防LLM风险。此外,InfoQ还报道了LLM Attacks算法,该算法用于构建对抗性攻击,旨在帮助研究人员理解和预防攻击。

SafeDecoding的工作原理

  1. 专家模型:SafeDecoding通过构建一个专家模型来工作,该模型是目标LLM的微调版本。微调使用的数据集由研究人员通过向LLM提出有害查询构建,其中包含LLM拒绝提示的响应。专家模型的行为类似于原始LLM,但具备更好的拒绝恶意提示的能力。
  2. 推理过程:在推理过程中,用户的提示词同时传递给原始模型和专家模型。在通常的自回归解码方案中,两个模型都会生成一组最可能的下一个词元。SafeDecoding取这两个词元集的交集,并通过将原始模型的概率输出乘以一个常数(1-α),然后加上专家模型概率乘以α,来计算最终概率。这有效地“放大”了代表安全响应的专家模型词元,同时“衰减”了代表有害响应的原始模型词元。

与其他工作的关系

在X上的讨论中,合著者Bill Yuchen Lin被问及SafeDecoding与其之前关于URIAL(一种LLM对齐方法)的工作的关系。他表示,这两项工作确实有一个共同点:调优前后的词元分布变化。在URIAL论文中,关注的是基础模型与对齐模型之间的差异;而在SafeDecoding中,关注的是通用对齐模型(如Vicuna)与安全微调模型之间的差异。关键策略是放大词元分布的变化,以更有效地防御越狱攻击。

开源与资源

SafeDecoding的源代码已在GitHub上开源,供研究人员和开发者使用。

阅读 22
0 条评论