艺术提示:基于 ASCII 艺术的针对对齐语言模型的越狱攻击

主要观点:安全对大型语言模型(LLMs)的使用至关重要,虽有多种技术加强其安全性,但现有技术假定用于安全对齐的语料库仅由语义解释,这在实际应用中不成立,导致 LLM 存在严重漏洞,如论坛用户用 ASCII 艺术传达图像信息,为此提出基于 ASCII 艺术的越狱攻击并引入基准 Vision-in-Text Challenge(ViTC)来评估 LLM 识别仅靠语义无法解释的提示的能力,五个 SOTA LLM 难以识别 ASCII 艺术形式的提示,基于此开发的 ArtPrompt 可利用 LLM 识别 ASCII 艺术的不佳表现绕过安全措施并引发不良行为,且仅需对受害 LLM 进行黑盒访问,代码可在[https://github.com/uw-nsl/Art...]获取。
关键信息

  • 提出新攻击及基准。
  • 五个 SOTA LLM 识别 ASCII 艺术提示有困难。
  • ArtPrompt 可诱导不良行为且只需黑盒访问。
  • 代码地址为[https://github.com/uw-nsl/Art...]。
    重要细节
  • 提交历史包括多个版本,从 2024 年 2 月 19 日到 6 月 7 日,文件大小有所变化。
  • 相关论文将发表在 ACL 2024 ,涉及计算与语言(cs.CL)和人工智能(cs.AI)领域,引用为[arXiv:2402.11753]等。
阅读 10
0 条评论