AI 生成的代码可能对软件供应链造成灾难。这就是原因。

发布于 4 月 29 日

主要观点：新研究表明 AI 生成的计算机代码充斥着对不存在第三方库的引用，为供应链攻击创造了机会，可能导致数据窃取、植入后门等恶意行为。
关键信息：

用 16 个最常用大型语言模型生成 576000 个代码样本，其中 440000 个包含不存在的包依赖（幻觉），开源模型幻觉最多达 21%。
非存在依赖会加剧依赖混淆攻击，2021 年已首次演示此类攻击，软件供应链攻击旨在源头污染软件。
研究进行 30 次测试生成 576000 个代码样本，其中 19.7%指向不存在的包，43%的幻觉包在 10 次查询中重复，58%的幻觉包在 10 次迭代中多次重复。
开源和商业模型以及 Python 和 JavaScript 代码在产生包幻觉方面存在差异，可能与模型参数、训练数据等有关。
重要细节：
依赖是代码正常工作所需的组件，节省开发者重写代码的麻烦，是软件供应链的重要部分。
攻击者可利用反复出现的幻觉包名发布恶意软件，等待开发者访问。
大型语言模型的输出易出现幻觉，降低其有用性和可信度，研究将此现象称为“包幻觉”。
Microsoft CTO 预测 5 年内 95%的代码将由 AI 生成，希望开发者注意此问题。

阅读 7