一个日益严重的安全问题：模型上下文协议系统中的提示注入漏洞

发布于 2025-11-11

主要观点：大多数公司以相同方式设置 AI 文档助手，存在真实威胁即 AI 助手可能成为特权升级向量，通过隐藏在文档、 poisoned 工具输出、缓慢操纵等方式进行攻击，当前安全工具难以有效防范，可通过架构隔离、输入分类和清理、提示设计、输出过滤和验证、监控和异常检测等多层防御措施来降低风险。
关键信息：

AI 助手按权限过滤结果，易受提示注入威胁，虽数据库权限等仍有效，但会导致特权升级。
Model Context Protocol（MCP）是连接 AI 与外部系统的标准，为攻击创造条件。
攻击者可通过隐藏在文档、 poisoned 工具输出等方式进行攻击，如在客户支持票或内部知识库中添加恶意指令。
攻击可逐渐引导对话，安全工具难以有效捕捉，因语言模型能理解上下文和细微差别，且无代码 - 数据边界。
可通过架构隔离、输入分类等多层防御措施降低风险，如限制 MCP 服务器访问范围、预处理外部内容等。
重要细节：
如在客户支持票中添加隐藏指令，AI 可能会误信并执行；攻击者可控制 MCP 工具输出，使 AI 执行恶意操作。
防御措施包括将 MCP 架构应用最小特权、预处理输入、设计提示、验证输出、监控异常等。
例如通过对外部内容进行分类和清理，去除风险短语；设计明确的系统提示强调指令层次；验证模型输出是否符合预期等。

阅读 94