前沿科技速递🚀
🎉震撼发布!OpenCSG全网独家首发llama3.1-8B-instruct中文DPO版!
👏 特别鸣谢社区之星——来自河南工业大学AI系的大三才子来新璐同学,他不仅是B站AIGC领域炙手可热的UP主“飞鸟白菜”,更拥有清华、盛大云、百度等顶尖企业的实习经历,现于香港中文大学(深圳)担任研究助理。在OpenCSG强大算力的加持下,他仅凭8台A100显卡,便以惊人的5分钟完成了模型的训练!
🔍 精心采用DPO(beta 0.5)与LoRA(rank128, alpha256)技术,确保模型性能卓越无损,中文DPO版在问答能力上更是超越市面同类产品,不仅完美保留了原版强大功能,还增添了对趣味中文与emoji表情的独特偏好,让交流更加生动有趣。
🚀 部署流程简便快捷,一切精彩尽在传神社区等你来探索!诚邀您下载试用,一同开启中文AI的无限想象之旅,体验前所未有的智能互动乐趣!
01 模型介绍
🦙llama3.1-8B-instruct中文DPO版基于meta最新发布的版本llama3.1进行微调。
llama3.1作为最新一代的语言模型,在各项自然语言处理任务中都展现了出色的表现。llama3.1 8B 是从405B上蒸馏得到的,作为基座模型应该比直接纯训练的llama3 8B表现更好,实际使用中的感受也是如此。我们的8B参数中文版本通过微调技术进一步提升了在中文语境下的应用能力。
特点 💡
- 偏好中文和emoji表情:模型在回答问题时,会使用有趣的中文和emoji表情,使互动更加生动有趣。
- 性能卓越:实测结果显示,许多微调模型会导致原版能力的遗忘,但我们的模型在这方面表现优异,确保了强大的原生能力。
- 多样化应用:无论是用于聊天机器人、文本生成、还是其他自然语言处理任务,llama3.1-8B-instruct中文DPO版都能胜任。
02 训练细节🔍
llama3.1中文版模型使用了最先进的微调训练方法和优质的数据集,确保其在各类应用场景中的卓越表现:
- 训练数据:使用了shareAI-DPO中文版本数据集,该数据集包含了丰富的中英文和emoji表情的对话数据,确保模型能够在多种语境下表现出色。
- 实验训练方式:我们采用了LoRA rank128, alpha256,并配合激活"lm_head", "input_layernorm", "post_attention_layernorm", "norm"层参数更新,使训练效果显著优于只使用LoRA的方式。
- DPO beta 0.5:相比于SFT方式动辄几天才能在llama3上训练一个中文版本,使用DPO 方法仅用了5分钟,大大提高了训练效率。
- 算力支持:由OpenCSG社区的赞助支持,使用了8台A100显卡,仅用5分钟便完成了训练。
03 模型部署 🚀
我们提供了简单易用的模型部署方式,方便大家快速上手:
- 网页脚本文件:在Github仓库中,已经内置了一份web.py,可以直接使用。
安装必要依赖:
bash pip install streamlit pip install transformers==4.40.13.
运行模型:
bash streamlit run web.py ./llama3.1-8b-instruct-dpo-zh
04 模型下载和仓库地址 📥
OpenCSG始终致力于推动中文自然语言处理技术的发展。我们相信,llama3.1-8B-instruct中文DPO版的发布将为广大开发者和研究者提供强有力的支持。本次微调我们不只是开源了权重文件,还把这次训练用的数据集直接开源了出来,方便大家自己训练欢迎大家下载试用,期待你们的反馈!🎉
- 模型地址:https://opencsg.com/models/shareAI/llama3.1-8b-instruct-dpo-zh
- 微调数据地址:https://opencsg.com/datasets/AIWizards/DPO-zh-en-emoji
- 仓库地址:https://github.com/CrazyBoyM/llama3-Chinese-chat
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。