用于调试代码的大型语言模型

主要观点：大型语言模型（LLMs）正改变软件开发周期，可用于代码理解、生成、调试等多方面。文章探讨了如何利用LLMs调试代码库，包括其核心能力、训练方法及未来发展趋势，虽存在幻觉等问题，但通过智能调试框架能提高开发者效率。
关键信息：

核心能力：具备代码理解与分析、 bug 定位与识别、代码修复、基于代码库和问答论坛的检索增强生成（RAG）、测试用例生成等能力。
训练方法：进行领域特定训练、监督微调、采用自然语言作为中间表示（NL-DEBUGGING）、高级提示工程策略、多LLM和智能调试流程等。
局限性与挑战：存在代码理解浅层、复杂逻辑错误处理能力不足、上下文窗口限制、幻觉与不一致输出、测试覆盖问题、“调试衰减”现象等。
重要细节：
代码理解与分析：通过大量代码语料训练识别编程模式和代码段意图，可分析代码语法错误和逻辑不一致。
bug 定位与识别：能辅助定位 bug，从行级到令牌级更精确，如利用 CodeT5 等编码器 LLM。
代码修复：提供修复建议，可直接提出代码更改，还通过自修复技术提高代码可靠性。
RAG：在内部代码库和问答论坛进行高效 RAG，提供相关总结和调试提示。
测试用例生成：生成多种测试输入的单元测试用例，如生成 JUnit 测试用例。
训练方法细节：在公共和内部代码库上进行监督微调，不同 LLM 有不同角色，如“代码学习者”和“代码教师”。
局限性细节：对代码工作原理理解浅，易受非语义变化影响，处理复杂逻辑错误能力差，受上下文窗口限制，存在幻觉问题，测试覆盖有局限，调试效果呈指数衰减。

结论：LLMs 将通过增强效率和开发者生产力来彻底改变代码调试，未来应是人类与 AI 协作的模式，成为软件开发周期中不可或缺的工具。