01背景
近年来,人工智能,特别是自然语言处理(NLP)领域正经历前所未有的飞跃,其影响正深刻地重塑全球产业格局。其中,语言模型凭借其在智能客服、内容生成、自动翻译和智能搜索等领域的广泛应用,已然成为推动技术进步的关键引擎。而预训练模型,作为NLP技术的核心基石,通过海量数据的训练,积累了强大的知识储备,不断突破技术边界。然而,预训练模型的效能高度依赖于高质量的数据集,尤其在中文NLP领域,数据质量的挑战更为突出。尽管英文预训练数据集资源丰富,但中文领域却面临大规模、高质量数据集匮乏的困境,这无疑制约了中文NLP技术的进一步发展,特别是在教育、智能搜索等关键领域,高质量的数据集需求尤为迫切。这不仅是挑战,更是机遇,预示着中文NLP领域蕴藏着巨大的发展潜力。2024年,OpenCSG 社区开源了 Chinese Fineweb Edu、Chinese Smoltalk 和 Chinese Cosmopedia 等一系列高质量中文数据集,这为全球开源社区注入了宝贵的资源。凭借这些杰出的成果和开放的共享理念,OpenCSG 在全球范围内赢得了广泛的赞誉和高度的认可,彰显了其在开源领域的领先地位。
针对中文NLP领域高质量数据集的迫切需求,OpenCSG社区近年来投入巨资,致力于打造顶尖中文预训练数据集。2025年伊始,社区隆重推出UltraFeedback-Chinese数据集,这款数据集以其规模宏大、粒度精细、类型多样等特性脱颖而出,专为奖励模型和批评模型的训练量身定制,并能完美支持PPO和DPO等先进训练方法。UltraFeedback-Chinese不仅借鉴了国际领先的数据集构建经验,更采用了与UltraFeedback相同的方法,从而确保了其在中文NLP训练中的有效性和实用性。该数据集的推出,标志着中文NLP领域在数据资源建设上迈出了关键一步。UltraFeedback-Chinese 的推出,不仅填补了中文预训练数据集的空白,也为中文NLP技术的进步提供了强有力的支持,特别是在提升模型对复杂语言处理的能力方面显示出显著的优势。OpenCSG团队将继续依据用户反馈和技术发展的需要,不断完善和扩充UltraFeedback-Chinese数据集,致力于为全球中文NLP社区提供更加丰富和高质量的数据资源。
02 UltraFeedback数据集介绍
UltraFeedback 是一个大规模、细粒度且多样化的偏好数据集,专为训练强大的奖励模型和评价模型而设计。该数据集收集了约64,000条来自多种资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN)的提示语,并利用这些提示查询多个大型语言模型,为每个提示生成四种不同的响应,共产生256,000个样本。为了收集高质量的偏好数据和文本反馈,设计了一套详细的注释指南,涵盖了指令遵循、真实性、诚实性和有用性四个方面。通过这些细致的指导,GPT-4对收集的样本进行注释,确保了数据的质量和实用性。
03 UltraFeedback Chinese数据集介绍
UltraFeedback-Chinese 是根据UltraFeedback数据集的构建方法制定的中文版本,专为训练强大的奖励模型和批评模型而设计。该数据集支持PPO(Proximal Policy Optimization)和DPO(Direct Preference Optimization)两种训练方式。UltraFeedback-Chinese 在数据格式上与原始的UltraFeedback保持一致,同样包含对指令遵循、真实性、诚实性和有用性这四个方面的细致评分,评分由深度学习模型deepseek-v3生成。UltraFeedback-Chinese 数据集从多种资源收集了约58,000个中文指令,包括但不限于 smoltalk-chinese, silk-road/Wizard-LM-Chinese-instruct-evol, shareAI/ShareGPT-Chinese-English-90k, wenbopan/Chinese-dpo-pairs, 和 Maxlinn/TruthfulQA_zh。这些数据不仅覆盖了广泛的主题和任务类型,而且通过精心设计的生成模型和反馈机制,提供了高质量和多样性的文本样本。为确保数据集的质量和适用性,每个指令均由多个先进的模型生成多个响应,并通过系统的提示加以指导,强调指令遵循、真实性、诚实性和有用性等关键维度。此外,通过对响应进行细致的评分和筛选,构建了适用于DPO训练的UltraFeedback-Chinese-binarized版本,进一步提升了模型训练的效率和效果。
下载地址:
OpenCSG社区:
https://opencsg.com/datasets/MagicAI/UltraFeedback-chinese
huggingface社区:
https://huggingface.co/datasets/opencsg/UltraFeedback-chinese
数据收集与模型响应
我们从多个中文资源库中收集了约58k条中文指令,涵盖了以下数据集:源数据集数量
对于每个instruction,我们从以下9个模型中,随机抽取4个,生成4个response。同时,每次生成response时,会随机选取一种 system prompt,用于强调 instruction-following, truthfulness, honesty, helpfulness 这4个方面中的某个方面:
- deepseek-v3
- gpt-4o-mini
- qwen2.5-72b-instruct
- qwen2-7b-instruct
- qwen2.5-1.5b-instruct
- phi3.5-mini-instruct
- Llama3.1-8B-Chinese-Chat
- mistral-v0.1-instruct-chinese
- glm-4-9b-chat
数据集变体:UltraFeedback-Chinese-Binarized
UltraFeedback-Chinese-Binarized 是从 UltraFeedback-Chinese 转化而来的版本,专为DPO训练优化。
通过设定权重 {instruction-following: 0.2, truthfulness: 0.2, honesty: 0.2, helpfulness: 0.4} 对每个响应的分数进行加权,以计算得到每个响应的综合评分(overall score)。
在此基础上,我们从每条样本的四个响应中选出得分最高的作为chosen response,随机选取一个作为rejected response,以此构建适用于DPO训练的数据集。
实验
我们利用 UltraFeedback-Chinese-Binarized 及其他中文DPO数据集对在 fineweb-edu-chinese 上预训练后,在 smoltalk-chinese 上进行指令微调的2b模型进行DPO训练。训练过程包括2个训练周期,采用5e-6的cosine学习率衰减,global batch size设定为128。训练完成后,在AlighBench平台上评估了该模型的中文对话能力,结果显示UltraFeedback-Chinese在提升模型综合性能方面表现出色。
评估结果
训练结束后,我们在 AlighBench 上评估了其中文对话能力,结果如下。结果表明,ultrafeedback-chinese 对模型综合能力的提升高于其他DPO数据集。其中,ultrafeedback-chinese-binarized-lowest 的效果优于 ultrafeedback-chinese-binarized。可能的原因是:在 ultrafeedback-chinese-binarized中,可能存在分数较为接近的chosen和rejected response,带来了噪声;而在 ultrafeedback-chinese-binarized-lowest 中,正负样本的差距则更明显。
代码
https://github.com/yuyijiong/ultrafeedback-chinese
我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区,共同推动技术的进步。敬请期待数据集的开源发布!
作者及单位原文作者:
俞一炅、戴紫赟、Tom Pei 单位:OpenCSG LLM Research Team
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。