一个日益严重的安全问题:模型上下文协议系统中的提示注入漏洞

主要观点:大多数公司以相同方式设置 AI 文档助手,存在真实威胁即 AI 助手可能成为特权升级向量,通过隐藏在文档、 poisoned 工具输出、缓慢操纵等方式进行攻击,当前安全工具难以有效防范,可通过架构隔离、输入分类和清理、提示设计、输出过滤和验证、监控和异常检测等多层防御措施来降低风险。
关键信息:

  • AI 助手按权限过滤结果,易受提示注入威胁,虽数据库权限等仍有效,但会导致特权升级。
  • Model Context Protocol(MCP)是连接 AI 与外部系统的标准,为攻击创造条件。
  • 攻击者可通过隐藏在文档、 poisoned 工具输出等方式进行攻击,如在客户支持票或内部知识库中添加恶意指令。
  • 攻击可逐渐引导对话,安全工具难以有效捕捉,因语言模型能理解上下文和细微差别,且无代码 - 数据边界。
  • 可通过架构隔离、输入分类等多层防御措施降低风险,如限制 MCP 服务器访问范围、预处理外部内容等。
    重要细节:
  • 如在客户支持票中添加隐藏指令,AI 可能会误信并执行;攻击者可控制 MCP 工具输出,使 AI 执行恶意操作。
  • 防御措施包括将 MCP 架构应用最小特权、预处理输入、设计提示、验证输出、监控异常等。
  • 例如通过对外部内容进行分类和清理,去除风险短语;设计明确的系统提示强调指令层次;验证模型输出是否符合预期等。
阅读 48
0 条评论