随着 AI 助手能够控制网络浏览器,出现了新的安全挑战:用户现在必须相信他们访问的每个网站都不会试图用隐藏的恶意指令劫持他们的 AI 代理。本周,在一家领先的 AI 聊天机器人供应商进行测试后,专家对这一新兴威胁表示了担忧,测试显示,AI 浏览器代理近四分之一的时间会被成功诱骗执行有害动作。
周二,Anthropic 宣布推出 Claude for Chrome,这是一个基于网络浏览器的 AI 代理,可以代表用户采取行动。由于安全担忧,该扩展仅作为研究预览向 Anthropic 的 Max 计划的 1000 名订阅者推出,该计划每月费用在 100 至 200 美元之间,其他用户可以加入等待名单。
Claude for Chrome 扩展允许用户在侧边栏窗口中与 Claude AI 模型聊天,该窗口保留浏览器中发生的所有事情的上下文。用户可以授予 Claude 执行诸如管理日历、安排会议、起草电子邮件回复、处理费用报告和测试网站功能等任务的权限。
该浏览器扩展基于 Anthropic 的计算机使用功能,该公司于 2024 年 10 月发布。计算机使用是一项实验性功能,允许 Claude 拍摄屏幕截图并控制用户的鼠标光标来执行任务,但新的 Chrome 扩展提供了更直接的浏览器集成。
Anthropic 的 Claude for Chrome 演示视频。
从更广泛的角度来看,Anthropic 的浏览器扩展反映了 AI 实验室竞争的新阶段。7 月,Perplexity 推出了自己的浏览器 Comet,该浏览器具有一个 AI 代理,试图为用户卸载任务。OpenAI 最近发布了 ChatGPT Agent,这是一个使用自己的沙盒浏览器在网络上采取行动的机器人。谷歌在最近几个月也与 Chrome 推出了 Gemini 集成。
但这种将 AI 集成到浏览器中的热潮暴露了一个基本的安全漏洞,可能会让用户面临严重风险。
安全挑战和安全措施
在准备推出 Chrome 扩展之前,Anthropic 表示已经进行了广泛的测试,发现使用浏览器的 AI 模型可能会面临提示注入攻击,即恶意行为者在网站中嵌入隐藏指令,诱骗 AI 系统在用户不知情的情况下执行有害动作。
该公司测试了 123 个案例,代表 29 种不同的攻击场景,发现在没有安全缓解措施的情况下,浏览器使用的攻击成功率为 23.6%。
一个例子涉及一封恶意电子邮件,指示 Claude 出于“邮箱清理”目的删除用户的电子邮件。如果没有安全措施,Claude 会遵循这些指令,在未经确认的情况下删除用户的电子邮件。
Anthropic 表示,它已经实施了几种防御措施来解决这些漏洞。用户可以通过网站级权限授予或撤销 Claude 对特定网站的访问权限。在 Claude 采取发布、购买或共享个人数据等高风险行动之前,系统需要用户确认。该公司还默认阻止 Claude 访问提供金融服务、成人内容和盗版内容的网站。
这些安全措施将自主模式下的攻击成功率从 23.6%降低到了 11.2%。在对四种特定于浏览器的攻击类型的专门测试中,新的缓解措施据报道将成功率从 35.7%降低到了 0%。
独立 AI 研究员 Simon Willison 广泛撰写了关于 AI 安全风险的文章,并在 2022 年创造了“提示注入”一词,他称剩余的 11.2%的攻击率“灾难性”,在他的博客中写道:“在没有 100%可靠保护的情况下,我很难想象释放这种模式是一个好主意。”
Willison 所说的“模式”是指将 AI 代理集成到网络浏览器中的近期趋势。他在一篇关于最近在 Perplexity Comet 中发现的类似提示注入安全问题的早期帖子中写道:“我强烈认为,代理浏览器扩展的整个概念存在致命缺陷,无法安全构建。”
安全风险不再是理论上的。上周,Brave 的安全团队发现,Perplexity 的 Comet 浏览器可以通过隐藏在 Reddit 帖子中的恶意指令被诱骗访问用户的 Gmail 账户并触发密码恢复流程。当用户要求 Comet 总结一个 Reddit 线程时,攻击者可以嵌入不可见的命令,指示 AI 在另一个标签中打开 Gmail,提取用户的电子邮件地址,并执行未经授权的操作。尽管 Perplexity 试图修复漏洞,但 Brave 后来证实其缓解措施被绕过,安全漏洞仍然存在。
目前,Anthropic 计划利用其新的研究预览来识别和解决在实际使用中出现的攻击模式,然后再更广泛地推出 Chrome 扩展。在没有来自 AI 供应商的良好保护的情况下,安全负担落在用户身上,用户在开放网络上使用这些工具面临着很大的风险。正如 Willison 在他关于 Claude for Chrome 的帖子中所指出的:“我认为期望最终用户对安全风险做出正确的决策是不合理的。”
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。