2月17日至2月23日 LLM论文总结

2月17日至2月23日 LLM 论文总结

1. LLM进展和技术报告

1.1 SWE-Lancer：前沿大语言模型能从现实世界的自由软件工程中赚取100万美元吗？

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

我们来认识一下SWE-Lancer，它是一个基于Upwork平台上1400多项自由软件工程任务构建的基准测试，这些任务在现实中的报酬总计达100万美元。

SWE-Lancer涵盖了独立工程任务和管理任务。独立工程任务类型丰富，小到修复50个程序漏洞，大到价值32000美元的功能开发；管理任务则要求模型在不同技术实施方案中做出选择。

独立任务通过端到端测试进行打分，而且会由经验丰富的软件工程师进行三重核查；管理决策的评估则参照最初聘请的工程经理的选择。

经过对模型性能的评估，我们发现前沿模型还是没办法搞定大多数任务。为了推动后续研究，Docker镜像和名为SWE-Lancer Diamond的公共评估拆分开源地址（https://github.com/openai/SWELancer-Benchmark）。

1.2 Qwen2.5-VL技术报告

Qwen2.5-VL Technical Report

Qwen2.5-VL来啦！它是Qwen视觉语言系列的最新旗舰模型，不管是基础能力还是创新功能，都有重大突破。

Qwen2.5-VL在理解世界和与世界交互方面向前迈进了一大步，它的视觉识别能力更强了，能精确地定位物体，解析文档的能力也很强大，还能理解长视频内容。

这个模型有个很厉害的功能，就是能用边界框或点精准定位物体。在处理发票、表单和表格时，它能高效地提取结构化数据，对图表、示意图和布局的分析也非常细致。

为了处理复杂的输入内容，Qwen2.5-VL引入了动态分辨率处理和绝对时间编码技术。有了这些技术，它不仅能处理各种尺寸的图像，还能处理长达数小时的视频，并且能实现秒级的事件定位。

这使得模型可以直接感知空间尺度和时间动态，不再依赖传统的归一化技术。通过从头开始训练原生动态分辨率Vision Transformer（ViT），并融入窗口注意力机制，我们在保持原生分辨率的同时，降低了计算成本。

所以，Qwen2.5-VL可不只是在静态图像和文档理解方面表现出色，在实际场景中，比如操作计算机和移动设备时，它作为交互式视觉代理，还能进行推理、使用工具并执行任务。

Qwen2.5-VL有三种不同规模的版本，能满足从边缘AI到高性能计算的各种应用场景。旗舰版本Qwen2.5-VL-72B和GPT-4o、Claude 3.5 Sonnet等顶尖模型实力相当，尤其是在文档和图表理解方面表现突出。另外，Qwen2.5-VL还保留了Qwen2.5 LLM强大的语言能力。

2. LLM推理

2.1 过度思考的危险：审视能动任务中的推理 - 行动困境

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

大型推理模型（LRM）在AI解决问题的能力上实现了突破，不过在交互式环境里，它的效果可能会打折扣。

这篇论文就对LRM中的过度思考现象进行了分析。过度思考指的是模型更倾向于进行冗长的内部推理，而不怎么与环境互动。

我们用SWE Bench Verified对软件工程任务做了实验，观察到三种常见模式：分析瘫痪、流氓行为和过早脱离。我们提出了一个研究这些行为的框架，这个框架和人类专家的评估结果相关，还分析了4018条轨迹。

我们发现，过度思考得分越高，模型的表现就越差，而且推理模型比非推理模型更容易出现过度思考的情况。

分析还表明，在代理环境里，一些简单的减轻过度思考的方法，比如选择过度思考得分低的解决方案，能让模型性能提升近30%，同时计算成本降低43%。

这些结果充分说明减轻过度思考很有实际意义。我们建议可以利用原生函数调用能力和选择性强化学习来缓解过度思考的问题。

2.2 高级推理的多样化推理和验证

Diverse Inference and Verification for Advanced Reasoning

像OpenAI o1、o3和DeepSeek R1这些推理LLM，在数学和编程领域取得了很大进步，但是面对国际数学奥林匹克（IMO）组合问题、抽象和推理语料库（ARC）谜题以及人类最后的考试（HLE）这些高级任务时，还是会觉得很有挑战性。

我们采用了多样化推理方法，在测试时把多种模型和方法结合起来。经过实践发现，验证数学和代码问题，以及对其他问题进行拒绝采样，简单又有效。

我们用Lean自动验证IMO问题的答案是否正确，用代码验证ARC谜题的答案，还发现Best-of-N方法能很好地回答HLE问题。

使用我们的方法，IMO组合问题的答案准确率从33.3% 提高到了77.8%，HLE问题的准确率从8% 提升到37%，而且还解决了948个人类无法解决的80%的ARC谜题，以及o3高计算能力都解决不了的26.5%的ARC谜题。

通过测试时模拟、强化学习，以及结合推理反馈的元学习，调整代理图形表示，改变提示、代码和数据集，能提高模型的泛化能力。我们的方法可靠、稳定，而且可扩展性强。

2.3 小模型难以向强推理者学习

Small Models Struggle to Learn from Strong Reasoners

大型语言模型（LLM）在复杂推理任务上表现优异，把它们的推理能力提炼到小模型里，这个思路很有前景。

不过，我们发现了一个有意思的现象，叫小模型可学习性差距：参数小于等于30亿的小模型，并不能一直从长链思维（CoT）推理，或者从大模型的提炼中受益。

相反，当小模型在更短、更简单的推理链上微调时，表现反而更好，因为这些推理链更符合它们的学习能力。为了解决这个问题，我们提出了Mix Distillation方法，它简单又有效，通过结合长短CoT示例，或者融合大小模型的推理，来平衡推理的复杂性。

实验表明，和只用单一数据训练相比，Mix Distillation能显著提升小模型的推理性能。这些发现凸显了直接从强模型提炼的局限性，也说明了根据小模型调整推理复杂性，对于有效转移推理能力很重要。

3. LLM培训与微调

3.1 LLM如何获取新知识？知识回路对持续预培训的看法

How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

大型语言模型（LLM）在知识密集型任务中表现出色，但在理解如何将新知识内化方面，还存在很大的不足，特别是在如何把学到的知识融入到神经计算结构里。

我们从知识电路进化的角度来研究这个问题，找到了那些有助于知识存储和处理的计算子图。

通过系统分析持续预训练过程中的电路演变，我们有了几个重要发现：

新知识的获取和它与已有知识的相关性有关。
知识电路的演变会经历从形成到优化的明显阶段变化。
知识回路的演变遵循从深到浅的规律。

这些发现不仅加深了我们对LLM获取新知识机制的理论理解，还为改进持续预训练策略、提升模型性能提供了思路。

3.2 Craw4LLM：用于LLM预训练的高效Web爬虫

Craw4LLM: Efficient Web Crawling for LLM Pretraining

网页爬虫是大型语言模型（LLM）预训练数据的主要来源，但是因为数据质量不高，大部分爬取的网页在预训练时都被舍弃了。

这篇论文介绍了Crawl4LLM，这是一种高效的网络爬虫方法，它会根据LLM预训练的需求来探索网络图。具体来说，它把网页在LLM预训练中的影响力作为爬虫调度器的优先级分数，取代了原来基于标准图形连接的优先级设置。

我们用包含商业搜索引擎索引中9亿个网页的网络图做了实验，结果表明Crawl4LLM在获取高质量预训练数据方面非常高效。

只抓取21%的URL，用Crawl4LLM数据预训练的LLM就能达到和之前抓取方式相同的下游性能，大大减少了抓取的浪费，也减轻了网站的负担。

3.3 ReLearn：通过学习来取消大型语言模型的学习

ReLearn: Unlearning via Learning for Large Language Models

目前，大型语言模型的忘却方法大多依靠反向优化来降低目标标记的概率。但这种方式会影响后续标记的预测，降低模型性能和语言连贯性。

而且，现有的评估指标太注重上下文遗忘，对响应的流畅性和相关性评估不够。为了解决这些问题，我们提出了ReLearn，这是一个通过数据增强和微调来实现有效忘却的流程，还配套了一个全面的评估框架。

这个框架引入了知识遗忘率（KFR）和知识保留率（KRR）来衡量知识层面的保留情况，用语言评分（LS）来评估生成质量。实验显示，ReLearn能在实现目标遗忘的同时，保证输出的高质量。

通过机理分析，我们还进一步说明了反向优化是怎么破坏连贯文本生成的，而ReLearn又是如何保留这一关键能力的。

4. LLM偏好优化和调整

4.1 通过主成分分析重新思考多样化的人类偏好学习

Rethinking Diverse Human Preference Learning through Principal Component Analysis

理解人类偏好对于优化基础模型、构建个性化AI系统至关重要。但偏好本身复杂多样，传统的奖励模型很难全面捕捉。

虽然精细的偏好数据有帮助，但是收集起来成本高，还不容易扩展。在这篇论文里，我们介绍了分解奖励模型（DRM），这是一种新方法，不用精细注释，就能从二元比较中提取多样化的人类偏好。

我们的核心思路是把人类偏好表示成向量，用主成分分析（PCA）进行分析。通过构建首选响应和被拒响应之间嵌入差异的数据集，DRM能找到代表不同偏好方面的正交基向量。

这些分解后的奖励可以灵活组合，满足不同用户的需求，为传统奖励模型提供了一个可解释、可扩展的替代方案。

我们证明了DRM能有效提取有意义的偏好维度，比如有用性、安全性、幽默感，而且不用额外训练就能适应新用户。结果表明，DRM是实现个性化、可解释的LLM对齐的有力框架。

4.2 关于生成基础模型的可信度：指南、评估和观点

On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

生成基础模型（GenFM）已经成为变革性的工具，但随着它的广泛应用，人们对其多维度的可信度产生了担忧。

这篇论文提出了一个全面的框架来解决这些问题，主要有三个贡献：

我们系统梳理了政府、监管机构的全球AI治理法律法规，以及行业实践和标准。在此基础上，通过多学科合作，融合技术、伦理、法律和社会视角，提出了一套GenFM的指导原则。
我们推出了TrustGen，这是首个动态基准测试平台，能评估文本到图像、大语言、视觉语言等多种模型类型在多个维度的可信度。TrustGen利用模块化组件，包括元数据管理、测试用例生成和上下文变化，实现自适应和迭代评估，克服了静态评估方法的局限。通过TrustGen，我们看到了可信度方面的进展，也发现了一些持续存在的问题。
我们深入探讨了可信GenFM面临的挑战和未来发展方向，揭示了可信度的复杂多变性，强调了效用和可信度之间的微妙平衡，以及对各种下游应用的考量，明确了持续的挑战，并为未来研究提供了战略路线图。

这项工作为提升生成式人工智能的可信度搭建了一个整体框架，为更安全、更负责任地将GenFM应用到关键领域奠定了基础。为了推动行业发展，我们还发布了动态评估工具包。

5. LLM扩展和优化

5.1 DarwinLM：大型语言模型的进化结构化修剪

DarwinLM: Evolutionary Structured Pruning of Large Language Models

大型语言模型（LLM）在很多自然语言处理任务中都成绩斐然，但巨大的计算成本限制了它们的广泛应用，尤其是在实时应用场景中。

结构化修剪是个有效的解决办法，它能压缩模型，直接提升端到端的运行速度，而且不受硬件环境的影响。

模型的不同组件对修剪的敏感程度不一样，所以需要非均匀的模型压缩。但修剪方法不仅要找到合适的子结构，还要考虑压缩后的训练。

为此，我们提出了DarwinLM，这是一种考虑训练的结构化修剪方法。它基于进化搜索过程，每一代通过变异生成多个后代模型，然后挑选出表现最好的模型。

为了评估训练后的效果，我们在后代种群中加入了轻量级的多步骤训练过程，逐步增加训练数据量，在每个选择阶段淘汰表现差的模型。

我们在Llama-2-7B、Llama-3.1-8B和Qwen-2.5-14B-Instruct上进行了大量实验，验证了该方法在结构化剪枝方面的卓越性能。比如，DarwinLM的表现超过了ShearedLlama，而且在压缩后训练时所需的训练数据减少了5倍。

[查看arXiv页面] [查看PDF]

6. 检索增强一代（RAG）

6.1 SearchRAG：搜索引擎可以帮助回答基于LLM的医学问题吗？

SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

大型语言模型（LLM）在通用领域表现出色，但在处理需要专业知识的任务时常常力不从心。

传统的检索增强生成（RAG）技术一般从静态知识库中检索外部信息，这些信息可能过时或不完整，缺少准确回答医学问题所需的精细临床细节。

在这项研究中，我们提出了SearchRAG框架，它借助实时搜索引擎克服了这些缺点。我们的方法通过合成查询生成，把复杂的医学问题转化为适合搜索引擎的查询，再利用基于不确定性的知识选择，筛选并将最相关、最有用的医学知识融入到LLM的输入中。

实验结果显示，我们的方法显著提高了医学问答任务的回答准确率，尤其是对于那些需要详细、最新知识的复杂问题。

7. 注意力模型

7.1 原生稀疏注意力：硬件对齐且原生可训练的稀疏注意力

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

长上下文建模对下一代语言模型至关重要，但标准注意力机制的高计算成本带来了很大挑战。

稀疏注意力为在保持模型性能的同时提高效率提供了方向。我们介绍一种原生可训练的稀疏注意力机制NSA，它把算法创新和硬件优化结合起来，实现高效的长上下文建模。

NSA采用动态分层稀疏策略，将粗粒度令牌压缩和细粒度令牌选择相结合，既能保持全局上下文感知，又能保证局部精度。

我们的方法有两项关键创新，推动了稀疏注意力设计的发展：

通过算术强度平衡算法设计，并针对现代硬件进行优化，大幅提升了运行速度。
支持端到端训练，在不降低模型性能的前提下减少了预训练计算量。实验表明，用NSA预训练的模型在一般基准测试、长上下文任务和基于指令的推理中，表现与全注意力模型相当，甚至更优。

同时，在64k长度序列的解码、前向传播和反向传播过程中，NSA比全注意力机制速度更快，证明了它在整个模型生命周期中的高效性。

8. LLM评估和基准测试

8.1 ZeroBench：当代大型多模态模型的不可能的视觉基准

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

大型多模态模型（LMM）在图像理解方面存在很大缺陷，从某些方面看，它们的空间认知能力甚至不如小孩或动物。

尽管如此，它们在许多常见的视觉基准测试中仍能获得高分，而且随着模型的快速发展，这些基准测试的区分度越来越低。因此，我们迫切需要更具挑战性、更持久有效的基准测试。

基于此，我们推出了ZeroBench轻量级视觉推理基准测试，对当代前沿LMM来说，这个测试几乎是不可能完成的。我们的基准测试包含100个精心编制的问题和334个难度稍低的子问题。

我们用ZeroBench对20个LMM进行了评估，结果它们的得分都是0.0% ，我们还对错误进行了严格分析。为了推动视觉理解领域的发展，我们公开了ZeroBench。

8.2 MMTEB：海量多语言文本嵌入基准测试

MMTEB: Massive Multilingual Text Embedding Benchmark

文本嵌入通常在一组有限的任务上进行评估，这些任务受语言、领域和任务多样性的限制。

为了解决这些限制并提供更全面的评估，我们推出了海量多语言文本嵌入基准（MMTEB），它是MTEB的大规模、由社区推动的扩展版本，涵盖了250多种语言的500多项经过质量控制的评估任务。

MMTEB包含一系列具有挑战性的全新任务，比如指令跟随、长文档检索和代码检索，这代表了迄今为止用于嵌入模型的最大规模的多语言评估任务集合。

利用这个任务集合，我们开发了多个高度多语言的基准测试，并用于评估一组具有代表性的模型。我们发现，虽然拥有数十亿参数的大型语言模型（LLM）在某些语言子集和任务类别上可以达到最先进的性能，但表现最佳的公开可用模型却是仅有5.6亿参数的multilingual-e5-large-instruct。

为了提高可及性并降低计算成本，我们引入了一种基于任务间相关性的新型下采样方法，这种方法在保留模型相对排名的同时，确保了多样化的选择。

此外，我们通过对困难负样本进行采样来优化检索等任务，创建更小但更有效的数据子集。这些优化使我们能够推出大幅降低计算需求的基准测试。

例如，我们新推出的零样本英文基准测试，其模型排名顺序与完整规模版本相似，但计算成本却大幅降低。

本文由mdnice多平台发布

2月17日至2月23日 LLM论文总结