Copilot暴露了私人GitHub页面，部分已被微软移除

微软Copilot AI助手暴露了超过20,000个私有GitHub仓库的内容

微软的Copilot AI助手暴露了包括谷歌、英特尔、华为、PayPal、IBM、腾讯以及微软自身在内的超过20,000个私有GitHub仓库的内容。这些仓库属于超过16,000个组织，最初在GitHub上公开，但后来被设置为私有，通常是因为开发者意识到其中包含允许未经授权访问的身份验证凭据或其他类型的机密数据。然而，即使几个月后，这些私有页面仍然通过Copilot完整地公开。

僵尸仓库的发现

AI安全公司Lasso在2024年下半年发现了这一行为。在1月份发现Copilot继续存储并公开私有仓库后，Lasso决定测量问题的实际规模。Lasso研究人员Ophir Dror和Bar Lanyado在周四的一篇帖子中写道：“我们意识到，GitHub上的任何数据，即使只公开了一瞬间，也可能被像Copilot这样的工具索引并潜在暴露。我们决定自动化识别僵尸仓库（曾经公开现在私有的仓库）的过程，并验证我们的发现。”

问题的根源

Lasso发现微软暴露了其自己的一个私有仓库后，追踪到问题的根源在于Bing的缓存机制。微软搜索引擎在页面公开时索引了这些页面，并在页面在GitHub上变为私有后从未删除这些条目。由于Copilot使用Bing作为其主要搜索引擎，这些私有数据也通过AI聊天机器人公开。

微软的修复尝试

在Lasso于11月报告问题后，微软引入了旨在修复问题的更改。Lasso确认私有数据不再通过Bing缓存公开，但随后发现了一个有趣的现象——Copilot仍然公开了一个在微软提起诉讼后被设为私有的GitHub仓库。该仓库据称托管了专门设计用于绕过微软生成AI服务安全护栏的工具。尽管该仓库随后从GitHub上删除，但Copilot仍然继续公开这些工具。

修复的局限性

Lasso最终确定，微软的修复涉及切断公众对特殊Bing用户界面（曾位于cc.bingj.com）的访问。然而，修复似乎并未清除缓存中的私有页面。因此，私有信息仍然可以通过Copilot访问，Copilot用户仍然可以获取这些信息。

无法挽回的损害

开发者经常将安全令牌、私有加密密钥和其他敏感信息直接嵌入代码中，尽管最佳实践长期以来呼吁通过更安全的方式输入这些数据。当这些代码在公共仓库中公开时，潜在的损害更加严重。这种现象已经发生了十多年。

法律后果

微软在声称这些工具违反了一系列法律后，花费了法律费用将其从GitHub上删除。公司律师成功地将这些工具删除。然而，迄今为止，Copilot仍然通过公开这些工具来破坏这一工作。

微软的声明

在这篇帖子发布后，微软在一封电子邮件声明中写道：“人们普遍理解，大型语言模型通常是在网络上公开的信息上进行训练的。如果用户希望避免将其内容公开用于训练这些模型，我们鼓励他们始终保持其仓库的私有状态。”