研究人员开源LLM越狱防御算法SafeDecoding

SafeDecoding：保护大语言模型免受越狱攻击的新技术

华盛顿大学、宾夕法尼亚州立大学和艾伦人工智能研究所的研究人员开源了SafeDecoding技术，旨在保护大语言模型（LLMs）免受越狱攻击。SafeDecoding在防御越狱攻击方面表现优异，且不会带来显著的计算开销。

主要观点

技术核心：SafeDecoding的核心思想是，在解码过程中，尽管越狱攻击的有害响应词元的概率较高，但安全响应的词元仍然位于最可能的选择之中。因此，SafeDecoding通过识别安全响应词元并放大其概率，同时降低有害响应的概率，从而引导生成安全响应。
应用与评估：研究人员在五个开源LLMs上应用了SafeDecoding，并在六种不同的越狱攻击中评估了其性能，与六种基线防御方法进行了对比。SafeDecoding在几乎所有场景中均优于基线方法。
研究目标：研究团队的主要目标是开发一种轻量级的解码策略，以增强LLMs的安全性。随着LLMs在现实世界中的应用日益广泛，其安全性保障变得至关重要。SafeDecoding不仅有效缓解了越狱攻击，还能让LLMs继续以高效和有益的方式服务良性用户。

背景与相关工作

随着ChatGPT和GPT-4的发布，许多针对LLMs的越狱技术涌现，这些技术通过特定的提示词绕过模型的安全防护，输出潜在的有害响应。2023年，InfoQ报道了Nvidia的NeMo Guardrails包，该包帮助开发者预防LLM风险。此外，InfoQ还报道了LLM Attacks算法，该算法用于构建对抗性攻击，旨在帮助研究人员理解和预防攻击。

SafeDecoding的工作原理

专家模型：SafeDecoding通过构建一个专家模型来工作，该模型是目标LLM的微调版本。微调使用的数据集由研究人员通过向LLM提出有害查询构建，其中包含LLM拒绝提示的响应。专家模型的行为类似于原始LLM，但具备更好的拒绝恶意提示的能力。
推理过程：在推理过程中，用户的提示词同时传递给原始模型和专家模型。在通常的自回归解码方案中，两个模型都会生成一组最可能的下一个词元。SafeDecoding取这两个词元集的交集，并通过将原始模型的概率输出乘以一个常数（1-α），然后加上专家模型概率乘以α，来计算最终概率。这有效地“放大”了代表安全响应的专家模型词元，同时“衰减”了代表有害响应的原始模型词元。

与其他工作的关系

在X上的讨论中，合著者Bill Yuchen Lin被问及SafeDecoding与其之前关于URIAL（一种LLM对齐方法）的工作的关系。他表示，这两项工作确实有一个共同点：调优前后的词元分布变化。在URIAL论文中，关注的是基础模型与对齐模型之间的差异；而在SafeDecoding中，关注的是通用对齐模型（如Vicuna）与安全微调模型之间的差异。关键策略是放大词元分布的变化，以更有效地防御越狱攻击。

开源与资源

SafeDecoding的源代码已在GitHub上开源，供研究人员和开发者使用。