还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

近日，司南 OpenCompass 研究团队发布了社区真正意义上的第一个开源的 All-in-one Judge Model——CompassJudger 系列，包含1.5B、7B、14B 和 32B 共四个量级的模型，其中 32B 版本更是具备 GPT-4o-0806 95%以上的 Judge 能力，支持 pair-wise/point-wise 多种评价方式，更能输出详细的评价理由。

技术报告地址

https://arxiv.org/abs/2410.16256

HuggingFace 模型权重地址

https://huggingface.co/opencompass

GitHub 地址

https://github.com/open-compass/CompassJudger

JudgerBench 榜单地址

https://huggingface.co/spaces/opencompass/judgerbench_leaderb...

什么是 All-in-one Judge Model?

在进行主观评测的过程中，通常需要一个 Judge Model 来对待测模型的回复进行评分或比较，从而代替人类来进行这一评价工作，得到待测模型在各类主观题上的得分。过去，这往往是由能力较强的闭源模型如 GPT4 来进行的，GPT4 也因此成为了在 AlignBench，AlpacaEval，ArenaHard 等数据集上的标准评测模型。然而，在科学研究和模型迭代的过程中，往往需要进行大规模的评测，而使用闭源模型的成本非常高昂。

All-in-one 评价模型目标是能够完成并胜任多种不同的评价任务，在包括多回复选择、单回复打分、复杂指令跟随、回复内容评价修改等多种任务上实现良好表现。目前社区已经研发了一些 Judge Model 如 CritiqueLLM，Auto-J 等，但这些评价模型只专注在某个数据集上使用。此外，评价模型也受到了国内外大型科技公司的广泛关注，如 Google 发布了其评价模型 FLAMe，但该模型和数据尚未公开。Meta 也发布了Self-taught Model，但目前也主要集中在 Pair-wise 的评价。

司南研究团队凭借在模型评测和数据分析领域的深厚积累，研发了 CompassJudger。为了推动相关领域的探索和研究，开源多个不同尺寸的模型来助力相关方向的探索和研究，也使得用户可以更便捷地进行模型训练、测试和优化。

数据收集过程

在模型训练的过程中最重要的流程是数据的收集与处理。于是在训练 CompassJudger的过程中，我们针对三种来源的数据，进行了以下处理：

开源评价数据： 对于收集到的开源 judge 数据，我们首先按照数据集的时间筛选出一批较老的数据，这些数据由例如较早版本的 ChatGPT 进行 judge，评价质量亟待改善。因此我们使用当前的较强开源模型 (Qwen2.5-72B-Instruct) 作为 processor 进行了重新 judge。我们同时利用 processor 给每条数据打上类别标签，按照类别和数据集的数量进行了重新采样以保证最终的数据平衡。

Reward数据： 社区已经开源了大量用于训练 Reward Model 的训练数据，我们在实验中也发现大量的 Reward 数据能给模型带来 judge 能力的提升，但同时也会因输出格式过于单一导致模型坍塌，变为只能输出固定格式，失去了作为通用 judge model 的价值。因此我们采样部分 Reward 数据用于模型训练，并针对数学等题目类型添加了评价理由。

通用SFT数据： 此外，为了更加保持模型的泛化能力，我们依然加入了通用 SFT 数据进行训练，经过我们的实验，平衡了最终的数据比例为 judge 数据：reward 数据：sft 数据=1:3:1，并选用了目前开源 Qwen2.5 系列模型进行 CompassJudger 的训练。

JudgerBench

在模型研发中，我们为了跟踪 CompassJudger 的性能表现，研发了 JudgerBench 来进行模型能力的分析。

JudgerBench 旨在衡量模型的评价能力的优劣， 主要由 Arena Part 和 Benchmark Part 两个部分组成。Arena Part 与 RewardBench 类似，考察模型的直接 Judge 的能力，只要求模型输出[[A]]或[[B]]的 judge 结果即可，共有中英文两个部分，并经过严格的人工审核和类别平衡，包含多轮和单轮对话以及十个类别，是非常平衡完备的一个测试基准。

Benchbark 则是采集了常用的主观数据集（AlignBench，ArenaHard，FoFo，WildBemch）收集了 10 个性能相近的模型在这些数据集上的回复，再利用 GPT-4o 进行 judge，将其评价结果作为比较基准，统计其他模型的评价结果与之的差异。在 Benchmark Part 中我们使用了准确率和皮尔森相关性作为两个衡量的指标，更加完备均衡的展现模型的评价性能。

CompassJudger 性能表现

我们在 RewardBench 和 JudgerBench 上对 CompassJudger 系列模型进行了分析和评价，从表中我们可以看出，CompassJudger 系列在通用评价性能方面表现出色，其最终评价得分在所有开源模型中位居前列，并达到了GPT-4o 95%以上的水准，是兼具多种任务能力的All-in-one Judge Model。

展望

此外，一个好的 All-in-one 的 judge Model 需要具备多种任务能力，例如可以利用自己的 Critique 能力指出模型在主观问答上的缺点，从而进行有针对性的改善，引导模型做出更优质的回复，促进模型进行迭代。目前，JudgerBench 和 CompassJudger 均已开源，欢迎社区用户尝试和探索。

还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

什么是 All-in-one Judge Model?

数据收集过程

JudgerBench

CompassJudger 性能表现

展望

思否编辑部

引用和评论

OSPO Summit 2025 首批议程发布！

🔥吐血整理 Bolt.diy 部署与应用攻略

百度 Create AI 开发者大会：李彦宏发布两大新模型、多款热门 AI 应用，帮助开发者全面拥抱 MCP

大语言模型的发展与应用综述（2025年5月）

行业首创！快手开源短视频内容质量评测标准KuaiMod！

DeepSeek + Function Call：基于 Eino 的“计划——执行”多智能体范式实战

2025主流AI大模型终极对决：DeepSeek、通义千问、Kimi谁将问鼎？