原创 PowerData-邱忠喜 PowerData

PowerData

数据之力 非同凡想

■ ■ ■

思考  交流  贡献  共赢

  全文共  2525 字,建议阅读 10 分钟

  文章导读 / Company Nature

最近R1系列爆火,因为笔者是从事医疗人工智能相关的研究便想着[Deepseek R1]的技术报告中提到的R1-Zero方法有没有可能在医疗问答场景下实现,并产生不错的效果,于是开始了复现工作。笔者首先采用[Qwen2.5]系列的1.5B~7B的模型为基础模型进行实验,发现模型知识不太够,观测到的现象和最近的MED-RLVR1比较类似,模型难以出现自我验证的过程。因为这篇技术报告比较详细记录了他们的发现和过程,因此在这里笔者不展开描述这一系列模型的现象,而是笔者根据之前模型的表现推测模型的结果应该和数据集以及模型本身的知识有关,因此笔者切换具备医疗推理能力的[HuatuoGPT-o1-7B]作为基础模型开展以下三种实验,以探究数据集对于模型的影响:

  1. exp1: 从[MedQA-USMLE] 数据中抽取1090个样本作为训练样本去训练模型,这个数据主要是模拟了美国医疗执照考试(USMLE)的风格构造的一套医疗问答评估数据集。
  2. exp2: 从MedQA-USMLE数据中抽取600个样本,并从[MedXpertQA]中抽取490个样本训练模型,新增的MedXpertQA主要是抽取了医学考试中的难题构建,更加贴合临床实际场景,属于难题集合。
  3. exp3:从MedXpertQA中抽取490个样本进行训练,评估模型在全难题下的推理学习和最终表现。

           作者:PowerData-邱忠喜|编辑:PowerData-李钊

  活动推荐 / Recommended activities

Chapter

01

  实验设置

所有的实验都在4块A100 40GB SXM上实现,代码基于[open-r1]构建,采用输出格式(format)和答案评估两种奖励,在实验中发现使用余弦长度奖励在模型长时间采样不到正确答案的情况下变得不稳定,因此去除这部分奖励,仅使用格式和答案两类奖励。训练时模型最长输出长度限制为8192,梯度累积步长为16,训练的批大小为6(每个GPU批大小为2),整体训练6轮(epoch=6),每次生成3个样本(rollout数量为3)。

Chapter

02

  实验结果

exp1 结果

 下面的图1展示了整个训练的过程中的日志可视化,可以发现当输出长度(Completion Length)较长时,模型获得的答案正确奖励也会较大,可能表示在长链条件下模型能够较为准确的回答问题,同时模型在早期也会尝试输出长链。这说明在这个条件下训练是可行的,但是需要后面进行指标验证等进一步确定实验结果。

图1 exp1 日志可视化

       从下图2和图3中可以看到模型会有一个自我验证的过程,这个类似于deepseek的报告中的一个顿悟,模型会自我验证和纠正自己的思考过程,这说明在这个实验上可以有效培养模型的思维链。但是这个会有一个标签对外的长思考过程,这个是不符合预期目标的,这可能是由于本身模型就是一个推理模型且其在USMLE上有不俗的表现,能够通过

图2 exp1中模型输出的样例,此例为最后答案正确

图3 exp1中模型输出的样例,此例为最后答案错误

exp2 结果

 下面的图4展示了整个训练的过程中的日志可视化,类似于exp1中的结果当输出长度(Completion Length)较长时,模型获得的答案正确奖励也会较大,同时这也需要实验指标判定模型最终的性能。

图4 exp2 日志可视化

       从图5和图6可以看出,类似于在exp1中的结果,模型可以学会自我思考和验证输出的正确性,然后根据思维链得出结果。不同之处在于在exp2中模型可以较为稳健的学会输出的格式,这大概率和在这个数据中存在对于模型来说难以获得正确答案的复杂样本,这使得模型会从格式中获得较大收益,从而得到更好的格式化输出。处于格式化输出的考虑个人偏向于此种方式,但孰优孰劣可能需要在实践中进行真正的部署和指标量化进行选择。

图5 exp2中模型输出的样例,此例为最后答案正确

图6 exp2中模型输出的样例,此例为最后答案错误

exp3 结果

exp3因为一些特殊原因被迫中断,所以没有完成最终的结果,但是从现有的结果来看,模型会很快进行思维链长度的扩展,甚至超越我们设定的8192的最长输出限制。笔者推测这是因为模型在完成该任务所需的推理能力不足,很可能是由于缺乏在该语境下有效执行任务所需的知识储备。同时模型在这个条件下会尝试多次思考去解决问题,而且容易观测到技术报告中提到的模型会出现多种语言与符号的混合输出现象,从而导致输出不易读。后续笔者将会继续这个实验,并尝试增长训练步长与搜索空间是否有助于模型训练稳定性提升。

 笔者截取了一张训练过程中的图,从下面的红框中看,模型在这个条件下产生了逼近正确答案的一个纠正过程,不过可惜在最后的\`\`对中没有正确的输出结果导致无法得分,所以或许可以思考如何进一步提升判定规则。

图7 exp3的模型输出样例

Chapter

03

  总结

考虑到模型的知识问题,笔者尝试构建不同的数据集合去进行强化学习的训练,根据目前初步的内容可以发现,在知识足够的情况下,模型在较为简单的场景和混杂有复杂样本的条件下都可以训练得到自我验证的一个过程,从而形成较为有效的思维链。但是如果模型很容易在答案得分时,需要更为严格的格式审查以强迫模型按照指定格式输出。整个结果也说明,在垂直领域应用时,需要考虑模型在本领域的知识量去进行模型的设计,同时引入不同难度的问题可能会有助于模型学习到正确的行为和产生稳健的思维链。此次尝试也不够严谨,USMLE中抽取的样本可能也会包含较为复杂和困难的题目,无法真正代表简单集合,这需要在未来通过模型进行题目集合筛选,从而获得一个包含不同难度题目的数据,并采用课程学习(Deepseek中使用的方案)或者难易样本混合训练让模型稳定的训练和产生稳健的思维链。针对于模型知识不足的情况,笔者建议结合工具使用的学习配合本地知识库,让模型尝试在强化学习框架下学会自动检索相关的知识进行整合和推理,从而构建更加有效的垂域模型。同时,从exp3已有的观测看,在训练时应当考虑复杂和简单问题的占比,从而稳定模型的训练过程。在未来笔者也会探索增大每次生成样本量以及增加实验数据和训练步长的实验从而进一步探索强化学习下垂域模型训练的范式。本项目所用的代码开源在:https://github.com/Qsingle/op...,指标性评测和分析在完成后也会同步到github中。

参考文献

[1] Zhang S, Liu Q, Qin G, et al. Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning[J]. arXiv preprint arXiv:2502.19655, 2025.

[2] Chen J, Cai Z, Ji K, et al. Huatuogpt-o1, towards medical complex reasoning with llms[J]. arXiv preprint arXiv:2412.18925, 2024.

[3] Jin D, Pan E, Oufattole N, et al. What disease does this patient have? a large-scale open domain question answering dataset from medical exams[J]. Applied Sciences, 2021, 11(14): 6421.

[4] Zuo Y, Qu S, Li Y, et al. MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding[J]. arXiv preprint arXiv:2501.18362, 2025.

往期精彩文章合集

【开源人物专栏】

 开源人物-禅道社区王春生:让项目管理更便捷

 开源人物—IoTDB乔嘉林:征服工业互联网数据

【技术文章专栏】

【技术实践】Doris数据查询性能解析:Explain 与 Profile 功能深度应用

【技术实践】大数据SQL优化原理与实践系列之认知篇(一)

【技术实践】推荐系统概述

【社区活动专栏】

 活动回顾 |【数字经济·城市脉动】PowerData西安开源行

 活动回顾 |【数字经济·城市脉动】PowerData 杭州开源行

 国内开源数据社区运营天团

<<<  END >>>

PowerData是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的数据开源社区。

社区整理了一份每日一题汇总及社区分享PPT,内容涵盖大数据组件、编程语言、数据结构与算法、企业真实面试题等各个领域,帮助您提升自我,成功上岸。

      点击关注下方公众号,点击"加入社区",即可加入社区群,免费领取资料,报名社区活动,与社区共同成长。

图片

报名社区活动,与社区共同成长。

图片

图片


PowerData
1 声望6 粉丝

PowerData社区官方思否账号