DAPO-Math-17K：17000数学题整数答案数据集，为LLM强化学习设计，确保准确奖励信号。

2025-03-17, 由字节跳动、清华大学人工智能产业研究院、香港大学和清华大学AIR-SIA实验室联合创建了DAPO系统及其配套的DAPO-Math-17K数据集。该数据集通过精心设计和转换，为大规模LLM强化学习提供了高质量的数学问题和答案，助力模型在复杂推理任务上取得显著提升，推动了LLM在数学领域的应用和发展。

一、研究背景

近年来，推理能力的提升为大型语言模型带来了前所未有的变革，强化学习作为核心驱动技术，能够激发复杂推理行为，如自我验证和迭代优化。然而，目前最先进的推理LLMs的关键技术细节大多被隐藏，导致社区难以复现其强化学习训练结果，限制了相关研究的进一步发展。

目前遇到困难和挑战:

1、技术细节不公开：如OpenAI和DeepSeek等机构的技术报告中，隐藏了大规模强化学习训练的实际算法和关键细节，使得其他研究者难以复现其成果。

2、训练过程复杂：在大规模LLM强化学习中，存在诸如熵崩溃、奖励噪声和训练不稳定等关键问题，这些问题严重影响了模型的训练效果和性能提升。

3、缺乏开源系统：目前缺乏一个完全开源的大规模LLM强化学习系统，包括算法、训练代码和数据集，这使得研究人员难以在现有基础上进行进一步的研究和开发。

数据集地址：DAPO-Math-17k|数学学习数据集|算法训练数据集

二、让我们一起来看一下DAPO-Math-17K

DAPO-Math-17K是一个包含17,000个数学问题及其整数答案的数据集，专为大规模LLM强化学习设计，经过精心转换以确保准确的奖励信号。

数据集构建：

数据集构建过程中，研究者们首先从AoPS网站和竞赛主页收集问题和答案，然后通过人工标注和转换，将答案统一为整数形式。最终，DAPO-Math-17K数据集包含了17,000个问题，每个问题都配有整数答案，便于模型进行强化学习训练。

数据集特点：

1、高质量标注：所有问题都经过人工标注和转换，确保答案的准确性和一致性。

2、整数答案：通过将答案转换为整数形式，简化了奖励信号的计算，减少了错误。

3、大规模：包含17,000个问题，为大规模强化学习提供了丰富的训练样本。

数据集使用方法：

研究者可以使用DAPO-Math-17K数据集进行LLM的强化学习训练，通过定义奖励函数和优化策略，提升模型在数学推理任务上的表现。数据集的整数答案形式使得奖励信号清晰明确，有助于模型快速学习和优化。

基准测试：

在AIME 2024测试中，使用DAPO算法和DAPO-Math-17K数据集训练的Qwen2.5-32B模型取得了50分的成绩，超越了DeepSeek-R1-Zero-Qwen-32B模型的47分，且仅用了50%的训练步骤，证明了数据集和算法的有效性。

DAPO算法：它通过以下四种关键技术来实现大规模LLM强化学习的成功

Clip-Higher：
通过分离上下剪辑范围，增加低概率令牌的探索空间，避免熵崩溃，提高系统的多样性。

动态采样（Dynamic Sampling）：
通过过滤掉准确率为0或1的样本，确保每个批次的样本都有有效的梯度，提高训练效率和稳定性。

Token级策略梯度损失（Token-Level Policy Gradient Loss）：
在长链推理（long-CoT）场景中，对每个token计算损失，而不是对整个样本计算平均损失，从而更有效地处理长序列样本。

过长奖励塑形（Overlong Reward Shaping）：
对超过预定义最大长度的样本进行惩罚，减少奖励噪声，稳定训练过程。

                    应用于 DAPO 的渐进技术的主要结果

响应长度、奖励分数、生成熵和 DAPO 平均概率的度量曲线，它们显示了 RL 训练的动态，并作为识别潜在问题的基本监控指标。

三、展望DAPO-Math-17K的应用

假设有一位名叫小K的高中生，正在积极备战AIME数学竞赛。小K知道AIME的题目难度很高，尤其是数论和组合数学部分，常常感到无从下手。为了提升解题能力，决定利用DAPO-Math-17K数据集进行训练。

训练过程
小K首先从DAPO-Math-17K数据集中挑选了一些数论和组合数学的题目进行练习。这些题目不仅有详细的解题步骤，还经过了精心转换，答案都是整数形式，能够更清晰地理解题目要求。例如，有一道数论题目要求求解一个复杂的同余方程，小K通过数据集中的解题步骤，学会了如何利用费马小定理和递推方法来逐步推导答案。

提升效果
经过一段时间的训练，小K发现自己的解题能力有了显著提升。不仅能够更快地识别题目的类型和解题方法，还能在解题过程中保持更高的准确率。比如，在一次模拟考试中，遇到了一道类似的数论难题，凭借之前在DAPO-Math-17K数据集上的练习经验，小K成功地在有限的时间内找到了正确的解题思路，并得到了正确答案。

思维拓展
更让小K惊喜的是，DAPO-Math-17K数据集中的题目还激发了创新思维。在解决一道复杂的组合数学问题时，小K尝试了多种不同的解题方法，最终发现了一种全新的解题思路。这种多角度思考问题的能力，让小K在面对AIME竞赛中的创新性题目时，不再感到害怕，反而能够更加从容地应对。

通过使用DAPO-Math-17K数据集进行训练，小K不仅在数学知识和解题技巧上有了质的飞跃，还培养了更强大的逻辑推理和创新思维能力，在AIME数学竞赛中取得优异成绩打下了坚实的基础。

更多免费的数据集，请打开：遇见数据集

https://www.selectdataset.com/

DAPO-Math-17K：17000数学题整数答案数据集，为LLM强化学习设计，确保准确奖励信号。

一、研究背景

目前遇到困难和挑战:

二、让我们一起来看一下DAPO-Math-17K

数据集构建：

数据集特点：

数据集使用方法：

基准测试：

DAPO算法：它通过以下四种关键技术来实现大规模LLM强化学习的成功

三、展望DAPO-Math-17K的应用

更多免费的数据集，请打开：遇见数据集

数据猎手小k

引用和评论

AMO数据集：解决运动模仿偏差的超灵巧人形机器人全身控制混合数据集。

最全糖尿病数据集（不定时更新）

Chinese SimpleQA：包含3000个高质量问题，用来评估大型语言模型中文事实性能力的基准测试.

SCB-Dataset3：首个涵盖从幼儿园到大学的多行为类别学生课堂行为检测数据集

Git-10M :一个全球规模的遥感图像-文本对数据集，包含1000万图像-文本对，覆盖广泛的地理场景和丰富的地理空间元数据。

UAV-VisLoc：一个包含中国11个地点、6742张无人机图像和11幅卫星地图的大规模视觉定位数据集。