双子座黑客在……的帮助下能够发动更强大的攻击:双子座

在人工智能安全领域,间接提示注入已成为攻击者攻击大型语言模型(如 OpenAI 的 GPT-3 和 GPT-4 或 Microsoft 的 Copilot)的最强大手段。通过利用模型无法区分开发者定义的提示和语言模型与之交互的外部内容中的文本,间接提示注入能有效引发有害或意外行为,如泄露终端用户机密联系人或电子邮件、提供可能破坏重要计算完整性的虚假答案等。

尽管提示注入威力强大,但攻击者面临根本挑战,因为像 GPT、Anthropic 的 Claude 和 Google 的 Gemini 等所谓闭源权重模型的内部工作机制是秘密。开发者严格限制对底层代码和训练数据的访问,使其对外界用户而言成为黑箱,因此设计有效的提示注入需要大量劳动和时间的反复尝试。

学术研究人员首次设计出一种针对 Gemini 的计算机生成提示注入方法,其成功率比手动制作的方法高得多。新方法利用微调,这是一些闭源权重模型提供的用于在大量私有或专业数据上进行训练的功能。新技巧提供了一种离散优化工作提示注入的算法,基于离散优化的提示注入在开源权重模型中很常见,但已知的闭源权重模型的攻击只有针对 GPT-3.5 的 Logits Bias 攻击。OpenAI 在一篇研究论文发表后封堵了该漏洞。

创建优化的提示注入需要约 60 小时的计算时间,而 Gemini 微调 API 是免费的,使此类攻击的总成本约为 10 美元。攻击者只需输入一个或多个提示注入,等待即可,在不到三天的时间里,Gemini 将提供显著提高成功可能性的优化。

像所有微调 API 一样,Gemini 1.0 Pro 和 Gemini 1.5 Flash 的微调 API 允许用户定制预训练的语言模型,以在特定子领域有效工作。通过在较小、更特定的数据集上训练语言模型,微调会提供关于其内部工作机制的微妙线索,包括导致扰动等形式不稳定的输入类型。攻击者可利用微调接口提供的损失分数尝试许多前缀/后缀组合,以找到最有可能使提示注入成功的组合。

研究人员通过 PurpleLlama CyberSecEval 测试了 Fun-Tuning 生成的提示注入的性能,结果显示对 Gemini 1.5 Flash 和 Gemini 1.0 Pro 的攻击成功率分别为 65%和 82%,优于基线和消融方法。研究还发现,对一个 Gemini 模型的攻击很容易转移到其他模型,Fun-Tuning 攻击在每次迭代中都有稳定改进,而消融方法则效果不明显。并非所有 Fun-Tuning 生成的提示注入效果都相同,某些攻击成功率低于 50%。

Google 未对新技巧发表评论,但表示已部署众多防御措施来保护用户安全。研究人员认为封堵使 Fun-Tuning 成为可能的漏洞并不容易,因为微调过程中产生的损失数据是自然且不可避免的副产品,限制训练超参数会降低微调接口的效用。他们希望这项工作能引发关于此类攻击的威力以及如何在效用和安全性之间取得平衡的讨论。

阅读 4
0 条评论