DeepSeek“防弹衣”来了，模型内生安全加固方案，拒绝杀敌一千自损八百｜上海AI Lab

关注前沿科技量子位

最新研究显示，以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——

即便最终拒绝回答，其思考过程仍可能泄露有害内容。现有防御技术深陷两难：要么防不住攻击，要么让模型变成”惊弓之鸟”，连正常问题都拒绝回答。

上海交大与上海AI Lab联合推出安全防御方案——X-Boundary，试图破解两难局面。

X-Boundary通过分离安全和有害表征，并针对有害表征进行定向消除，在不损害模型通用性能且避免过度安全问题的前提下，实现精准高效的安全加固，使模型能够同时防御多种单轮和多轮攻击。

X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表现如下图所示：

案例分析：当黑客发动恶意提问时，原始模型的”思维链条”会泄露危险信息（左图），而经过X-Boundary安全加固的模型如同被植入”认知净化芯片”——通过精准切除有害特征，彻底封堵信息泄漏通道（右图）。

结合基于规则的检测器，一旦发现安全风险过高导致的异常输出则终止模型思考，同步触发安全代答响应，从而实现高效和安全的兼顾。

四大防御方法首度迁移评测：安全与智能的失衡困局

当主流防御方法（SFT/DPO/GA/CB）应用在推理模型上，一个尖锐的矛盾浮出水面：模型的安全防线每加固一分，其智能水平就衰退一程。

现有的防御方法要么不奏效，要么会对推理能力造成很大的损失。实验数据显示，SFT将攻击成功率（ASR）压低的同时，也导致了DeepSeek-R1-Distill-Llama-8B的数学能力在AIME-2024基准上骤降10%，在XSTest和PHTest上还出现了系统性误判——超过50%的安全提问遭遇无理由拒绝（表3）。这暴露出当前防御策略的致命缺陷：它们并非真正识别出危险，而是通过”宁可错杀一千”的粗暴策略压低风险指标。

团队进一步将这些防御技术引入多轮攻防场景，测评后发现，多轮防御训练本身就像一把双刃剑。在Qwen2.5-7B-Chat模型中加入多轮防御数据后，安全问答的误伤率在OR-Bench和PHTest测试集上飙升30%，证明防御强度的提升与可用性损耗存在强相关性。

这种困境的根源，在特征空间的可视化分析中显露无遗——现有方法构建的安全防线模糊不清，大量边界案例（如询问毒品危害的合理问题）的表征与真正有害的表征的分布高度重合，就像安检仪无法分辨外形相似的矿泉水与易燃液体，最终导致这些安全表征被错误地分类，边界问题也被拒绝回答，模型陷入了“过度安全”的怪圈。

为大模型精准打造“内生安全系统”

面对现有防御技术”伤敌一千自损八百”的困境，团队提出X-Boundary防御框架——如同为AI建立智能安检通道，实现危险内容精准拦截与安全信息无感通行。

三步建立动态防护网

边界绘制：通过设计显式的表征分离优化目标，让危险请求的表征向量与安全表征向量形成90°垂直角，从根源切断两者混淆的可能，在表征空间强行划出“安全禁区”。
威胁瓦解：对危险表征施加不可逆的扰动，使其无法保持原始有害形态（类似文件粉碎机的不可逆擦除）。
智能保鲜：采用表征维持技术，确保绝大多数安全问题的表征不受训练影响，维持模型原生智能。

理论突破 × 实践验证

基于最优传输理论的数学证明，X-Boundary有助于使安全表征更聚集，从而加快大模型训练时的收敛速度。实验显示，在Llama-3-8B和Qwen2.5-7B模型上，训练收敛速度分别提升27%和18%（图4），实现安全防御与训练效率的双重进化。

安全与智能的平衡

“火眼金睛”区分安全和有害表征

如图5所示，X-Boundary成功在模型内部构建出明暗分界的安全防线——使大模型内部的有害表征和安全表征得到清晰的区分，彻底终结了传统方法”敌我不分”的混沌局面。

鲁棒的多轮防御与高可用性兼得

有了清晰的表征区分边界，X-Boundary能在安全性和可用性之间取得平衡（表1）：

多轮攻击防御成功率（ASR）追平现有最优方案
误伤率（Over-refusal）降至最低水平降至最低水平
模型通用能力保持99%以上原生性能

图 6 直观地展示了防御成功率与误伤率之间的权衡。X-Boundary 位于图的左下角，表明 X-Boundary 相比其他方法在两个指标之间取得了更好的平衡。

跨模型规模的稳健打击

当扩展到140亿参数的Qwen2.5-14B-Chat时（表2）：

对复杂多轮攻击的防御强度再提升65%
误伤率增幅严格锁死在5%以内
模型智商损耗不足0.6%

这意味着即使面对更大规模、更复杂的AI系统，X-Boundary依然能实现零感知防御。

作者简介

本文由上海AI Lab、上交大和电子科大联合完成。

主要作者包括上海AI Lab和上交大联培博士生卢晓雅、上海AI Lab青年研究员刘东瑞（共同一作）等。

通讯作者邵婧为上海AI Lab青年科学家，研究方向为AI安全可信。

论文地址：https://arxiv.org/abs/2502.09990 项目主页：https://github.com/AI45Lab/X-...

— 完 —

学术投稿请于工作日发邮件到：

mailto:ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

四大防御方法首度迁移评测：安全与智能的失衡困局

为大模型精准打造“内生安全系统”

三步建立动态防护网

理论突破 × 实践验证

安全与智能的平衡

“火眼金睛”区分安全和有害表征

鲁棒的多轮防御与高可用性兼得

跨模型规模的稳健打击

作者简介

量子位

引用和评论

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

一夜之间，萝卜快跑拿掉了所有安全员

最强32B中文推理大模型易主：开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜

配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+AMX让预填充速度起飞

AI三小时做的小游戏，9天赚12万！马斯克：AI游戏前景无限