我们有一个给你的包裹！由代码生成语言模型对包裹幻觉的综合分析

Abstract 主要内容：Python 和 JavaScript 等流行编程语言依赖集中式包仓库和开源软件，结合代码生成大语言模型（LLMs），给软件供应链带来新威胁即包幻觉。这些幻觉源于使用 LLMs 生成代码时的事实冲突错误，是一种新的包混淆攻击形式，对软件供应链的完整性构成关键威胁。论文对不同编程语言、设置和参数下的包幻觉进行了全面评估，探索多种模型和配置如何影响生成错误包推荐的可能性并确定该现象的根本原因。使用 16 个流行的代码生成 LLMs 和两个独特的提示数据集，生成 576,000 个代码样本进行包幻觉分析，发现商业模型平均幻觉包百分比至少为 5.2%，开源模型为 21.7%，包括 205,474 个独特的幻觉包名示例，强调了该威胁的严重性和普遍性。为克服此问题，实施了几种幻觉缓解策略，可显著减少包幻觉同时保持代码质量。实验和发现强调在使用最先进的 LLMs 进行代码生成时，包幻觉是一个持续的系统性现象，是值得研究界关注的重大挑战。
Comments 相关信息：将发表于 2025 年 USENIX 安全研讨会，22 页，14 幅图，8 个表，从原始版本编辑后提交给不同会议，原始结果和发现无变化。
Subjects 信息：涉及软件工程（cs.SE）、人工智能（cs.AI）、密码学与安全（cs.CR）、机器学习（cs.LG）。
Cite as 信息：可引用arXiv:2406.10279 [cs.SE]（此版本为arXiv:2406.10279v3 [cs.SE]），以及https://doi.org/10.48550/ArXiv.2406.10279，通过 DataCite 发布的 arXiv 分配的 DOI。
Submission history 信息：由 Joseph Spracklen 提交，[v1]于 2024 年 6 月 12 日 03:29:06 UTC（369 KB），[v2]于 2024 年 9 月 24 日 21:46:56 UTC（318 KB），[v3]于 2025 年 3 月 2 日 21:03:52 UTC（424 KB）。