关于大型语言模型对抗攻击的一些注意事项

这是一篇关于人工智能（AI）安全与安全相关研究的综述文章，主要内容总结如下：

引言（Intro）：作者与行业专家朋友交流后，意识到自己参与构建的一些 LLM 应用在安全方面存在不足。如今进入 AI/LLM 时代，应用逐渐变得智能化，同时也带来了安全风险，如恶意利用 LLM 生成有害内容等。作者通过阅读相关资料，对 AI 安全与安全空间有了更深入的理解，并总结了研究成果。
术语（Terminology）：介绍了 LLM 的训练过程（预训练和微调）、指令调优等概念，以及安全研究人员将对抗攻击分为目标攻击和非目标攻击、黑盒攻击、白盒攻击和灰盒攻击等类别，还提到了攻击的主要机制，如越狱攻击、提示注入和上下文污染等。
越狱攻击（Jailbreak Attacks）：
- 基于人类的越狱攻击（Human-based jailbreaks）：通常是黑盒攻击，攻击者通过手工制作越狱提示来欺骗 LLM 泄露信息或违反安全约束，如 DAN、AIM 和前缀注入攻击等。这些攻击早期较为有效，但随着 LLM 提供商的改进，效果有所降低，但为优化攻击提供了基础。
- 基于混淆的越狱攻击（Obfuscation-based jailbreaks）：利用 LLM 训练中的间隙，通过混淆技术（如 base64 编码、摩尔斯电码、祖鲁语等）绕过 LLM 的安全机制，展示了 LLM 的意外学习能力，但也存在安全隐患。
- 基于优化的越狱攻击（Optimisation-based jailbreaks）：利用优化算法（如贪婪坐标梯度、AutoDAN、PAIR 和 TAP 等）生成越狱输入，白盒攻击（需要访问模型参数）更难防御，这些攻击未来可能会更普遍，尤其是在多代理设置中。
- 荣誉提及（Honorary mentions）：介绍了一些其他的 NLP 攻击，如 HotFlip 和 TextFooler，它们在不同的攻击场景中具有一定的特点。
RatGPT（远程访问特洛伊木马 GPT）：作者介绍了将 ChatGPT 转变为恶意软件代理的研究，通过越狱 LLM 生成恶意代码，并利用 LLM 访问互联网的特性实现远程控制和恶意活动。
结论（Conclusion）：大多数研究认为 LLM 目标之间的紧张关系（既要有帮助性又不能有害）是越狱的主要原因，同时也指出了微调不足和对齐方法的局限性等问题。作者表示将继续探索提示注入攻击等相关内容，并希望未来的 AI 能将人类视为朋友。
白皮书（Whitepapers）：列出了文中引用的关于 AI 安全与安全研究的白皮书列表。

总之，文章深入探讨了 AI 安全领域的各种攻击和相关研究，强调了安全在 AI 发展中的重要性，并指出了未来研究的方向。