Google Gemini 长期记忆修改攻击总结
主要观点
- 攻击者:AI 安全研究员 Johann Rehberger
- 攻击目标:Google Gemini 的长期记忆
- 攻击技术:延迟工具调用(Delayed Tool Invocation)
- 攻击性质:社交工程/钓鱼攻击
- 攻击影响:永久修改 Gemini 的行为,存储虚假信息
关键信息
攻击机制:
- 攻击者通过用户与恶意文档的交互触发攻击。
- 恶意文档中包含类似“如果用户说 X,则执行此工具”的指令。
- Gemini 在解析文档时不会执行工具,但在用户说“X”时会执行。
防御机制绕过:
- LLMs 通常在处理不可信数据时禁用外部工具执行。
- Rehberger 的技术通过污染聊天上下文,使得在用户交互时触发工具执行,从而绕过这一保护机制。
长期记忆修改:
- 攻击者可诱使 Gemini 在用户的长期记忆中存储虚假信息。
- 攻击需要用户在同一聊天对话中持续与 Gemini 交互。
Google 评估:
- Google 认为攻击影响较低,因为需要用户主动配合,且每次新数据添加到记忆时 UI 会显示警告。
重要细节
- 攻击示例:攻击者制作的文档中包含提示注入,诱使 Gemini 存储虚假信息。
防御建议:
- 用户应定期审查保存的记忆。
- 用户在与不可信来源的文档交互时应保持谨慎。
- 相关风险:提示注入可能被用于窃取私人数据或秘密,例如通过访问内部工具的 LLM 模型。
- 类似技术:Google Gemini 记忆功能类似于 ChatGPT 的记忆功能,旨在实现用户关心事物的持久存储。
结论
Rehberger 的研究揭示了利用延迟工具调用技术对 Google Gemini 进行长期记忆修改的可能性。尽管 Google 认为攻击影响有限,但用户仍需保持警惕,定期审查记忆数据,并谨慎处理不可信来源的文档。提示注入作为一种干扰大型语言模型行为的简单方式,其潜在风险不容忽视。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。