近日,司南 OpenCompass 研究团队发布了社区真正意义上的第一个开源的 All-in-one Judge Model——CompassJudger 系列,包含1.5B、7B、14B32B 共四个量级的模型,其中 32B 版本更是具备 GPT-4o-0806 95%以上的 Judge 能力,支持 pair-wise/point-wise 多种评价方式,更能输出详细的评价理由。

技术报告地址

https://arxiv.org/abs/2410.16256

HuggingFace 模型权重地址

https://huggingface.co/opencompass

GitHub 地址

https://github.com/open-compass/CompassJudger

JudgerBench 榜单地址

https://huggingface.co/spaces/opencompass/judgerbench_leaderb...

什么是 All-in-one Judge Model?

在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEval,ArenaHard 等数据集上的标准评测模型。然而,在科学研究和模型迭代的过程中,往往需要进行大规模的评测,而使用闭源模型的成本非常高昂。

All-in-one 评价模型目标是能够完成并胜任多种不同的评价任务,在包括多回复选择、单回复打分、复杂指令跟随、回复内容评价修改等多种任务上实现良好表现。目前社区已经研发了一些 Judge Model 如 CritiqueLLM,Auto-J 等,但这些评价模型只专注在某个数据集上使用。此外,评价模型也受到了国内外大型科技公司的广泛关注,如 Google 发布了其评价模型 FLAMe,但该模型和数据尚未公开。Meta 也发布了Self-taught Model,但目前也主要集中在 Pair-wise 的评价。

司南研究团队凭借在模型评测和数据分析领域的深厚积累,研发了 CompassJudger。为了推动相关领域的探索和研究,开源多个不同尺寸的模型来助力相关方向的探索和研究,也使得用户可以更便捷地进行模型训练、测试和优化。

数据收集过程

在模型训练的过程中最重要的流程是数据的收集与处理。于是在训练 CompassJudger的过程中,我们针对三种来源的数据,进行了以下处理:


开源评价数据: 对于收集到的开源 judge 数据,我们首先按照数据集的时间筛选出一批较老的数据,这些数据由例如较早版本的 ChatGPT 进行 judge,评价质量亟待改善。因此我们使用当前的较强开源模型 (Qwen2.5-72B-Instruct) 作为 processor 进行了重新 judge。我们同时利用 processor 给每条数据打上类别标签,按照类别和数据集的数量进行了重新采样以保证最终的数据平衡。

Reward数据: 社区已经开源了大量用于训练 Reward Model 的训练数据,我们在实验中也发现大量的 Reward 数据能给模型带来 judge 能力的提升,但同时也会因输出格式过于单一导致模型坍塌,变为只能输出固定格式,失去了作为通用 judge model 的价值。因此我们采样部分 Reward 数据用于模型训练,并针对数学等题目类型添加了评价理由。

通用SFT数据: 此外,为了更加保持模型的泛化能力,我们依然加入了通用 SFT 数据进行训练,经过我们的实验,平衡了最终的数据比例为 judge 数据:reward 数据:sft 数据=1:3:1,并选用了目前开源 Qwen2.5 系列模型进行 CompassJudger 的训练。

JudgerBench

在模型研发中,我们为了跟踪 CompassJudger 的性能表现,研发了 JudgerBench 来进行模型能力的分析。

JudgerBench 旨在衡量模型的评价能力的优劣, 主要由 Arena Part 和 Benchmark Part 两个部分组成。Arena Part 与 RewardBench 类似,考察模型的直接 Judge 的能力,只要求模型输出[[A]]或[[B]]的 judge 结果即可,共有中英文两个部分,并经过严格的人工审核和类别平衡,包含多轮和单轮对话以及十个类别,是非常平衡完备的一个测试基准。

Benchbark 则是采集了常用的主观数据集(AlignBench,ArenaHard,FoFo,WildBemch)收集了 10 个性能相近的模型在这些数据集上的回复,再利用 GPT-4o 进行 judge,将其评价结果作为比较基准,统计其他模型的评价结果与之的差异。在 Benchmark Part 中我们使用了准确率和皮尔森相关性作为两个衡量的指标,更加完备均衡的展现模型的评价性能。

CompassJudger 性能表现

我们在 RewardBench 和 JudgerBench 上对 CompassJudger 系列模型进行了分析和评价,从表中我们可以看出,CompassJudger 系列在通用评价性能方面表现出色,其最终评价得分在所有开源模型中位居前列,并达到了GPT-4o 95%以上的水准,是兼具多种任务能力的All-in-one Judge Model。


展望

此外,一个好的 All-in-one 的 judge Model 需要具备多种任务能力,例如可以利用自己的 Critique 能力指出模型在主观问答上的缺点,从而进行有针对性的改善,引导模型做出更优质的回复,促进模型进行迭代。目前,JudgerBench 和 CompassJudger 均已开源,欢迎社区用户尝试和探索。


思否编辑部
4.4k 声望117k 粉丝

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。