主要观点:安全对大型语言模型(LLMs)的使用至关重要,虽有多种技术加强其安全性,但现有技术假定用于安全对齐的语料库仅由语义解释,这在实际应用中不成立,导致 LLM 存在严重漏洞,如论坛用户用 ASCII 艺术传达图像信息,为此提出基于 ASCII 艺术的越狱攻击并引入基准 Vision-in-Text Challenge(ViTC)来评估 LLM 识别仅靠语义无法解释的提示的能力,五个 SOTA LLM 难以识别 ASCII 艺术形式的提示,基于此开发的 ArtPrompt 可利用 LLM 识别 ASCII 艺术的不佳表现绕过安全措施并引发不良行为,且仅需对受害 LLM 进行黑盒访问,代码可在[https://github.com/uw-nsl/Art...]获取。
关键信息:
- 提出新攻击及基准。
- 五个 SOTA LLM 识别 ASCII 艺术提示有困难。
- ArtPrompt 可诱导不良行为且只需黑盒访问。
- 代码地址为[https://github.com/uw-nsl/Art...]。
重要细节: - 提交历史包括多个版本,从 2024 年 2 月 19 日到 6 月 7 日,文件大小有所变化。
- 相关论文将发表在 ACL 2024 ,涉及计算与语言(cs.CL)和人工智能(cs.AI)领域,引用为[arXiv:2402.11753]等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。