主要观点:新研究表明 AI 生成的计算机代码充斥着对不存在第三方库的引用,为供应链攻击创造了机会,可能导致数据窃取、植入后门等恶意行为。
关键信息:
- 用 16 个最常用大型语言模型生成 576000 个代码样本,其中 440000 个包含不存在的包依赖(幻觉),开源模型幻觉最多达 21%。
- 非存在依赖会加剧依赖混淆攻击,2021 年已首次演示此类攻击,软件供应链攻击旨在源头污染软件。
- 研究进行 30 次测试生成 576000 个代码样本,其中 19.7%指向不存在的包,43%的幻觉包在 10 次查询中重复,58%的幻觉包在 10 次迭代中多次重复。
- 开源和商业模型以及 Python 和 JavaScript 代码在产生包幻觉方面存在差异,可能与模型参数、训练数据等有关。
重要细节: - 依赖是代码正常工作所需的组件,节省开发者重写代码的麻烦,是软件供应链的重要部分。
- 攻击者可利用反复出现的幻觉包名发布恶意软件,等待开发者访问。
- 大型语言模型的输出易出现幻觉,降低其有用性和可信度,研究将此现象称为“包幻觉”。
- Microsoft CTO 预测 5 年内 95%的代码将由 AI 生成,希望开发者注意此问题。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。