指令层次结构:训练大型语言模型以优先处理特权指令

主要观点:当今的大型语言模型(LLMs)易受提示注入、越狱等攻击,其主要漏洞在于常将系统提示与不可信用户及第三方的文本视为同等优先级。
关键信息:提出指令层次结构来定义不同优先级指令冲突时模型的行为,还提出数据生成方法展示层级指令遵循行为,能让 LLM 有选择性地忽略低优先级指令,将该方法应用于 GPT - 3.5 可大幅提高鲁棒性且对标准能力影响小。
重要细节:涉及学科包括密码学与安全(cs.CR)、计算与语言(cs.CL)、机器学习(cs.LG),引用为[arXiv:2404.13208]([cs.CR])或[arXiv:2404.13208v1]([cs.CR]),通过 DataCite 提供 arXiv 发布的 DOI 为[https://doi.org/10.48550/ArXi...],提交历史显示由 Eric Wallace 于 2024 年 4 月 19 日 22:55:23 UTC 提交(573 KB),版本为 v1。

阅读 13
0 条评论