Google Gemini 长期记忆修改攻击总结

主要观点

攻击机制：
- 攻击者通过用户与恶意文档的交互触发攻击。
- 恶意文档中包含类似“如果用户说 X，则执行此工具”的指令。
- Gemini 在解析文档时不会执行工具，但在用户说“X”时会执行。
防御机制绕过：
- LLMs 通常在处理不可信数据时禁用外部工具执行。
- Rehberger 的技术通过污染聊天上下文，使得在用户交互时触发工具执行，从而绕过这一保护机制。
长期记忆修改：
- 攻击者可诱使 Gemini 在用户的长期记忆中存储虚假信息。
- 攻击需要用户在同一聊天对话中持续与 Gemini 交互。
Google 评估：
- Google 认为攻击影响较低，因为需要用户主动配合，且每次新数据添加到记忆时 UI 会显示警告。

Rehberger 的研究揭示了利用延迟工具调用技术对 Google Gemini 进行长期记忆修改的可能性。尽管 Google 认为攻击影响有限，但用户仍需保持警惕，定期审查记忆数据，并谨慎处理不可信来源的文档。提示注入作为一种干扰大型语言模型行为的简单方式，其潜在风险不容忽视。