AI开发者发布ChatGPT训练算法的开源实现

AI研究组织LAION和CarperAI发布开源项目

AI研究组织LAION和CarperAI分别发布了OpenAssistant和trlX,这是基于人类反馈的强化学习(RLHF)算法的开源实现,该算法用于训练ChatGPT。此外,独立AI开发者Phil Wang也开源了他自己的RLHF算法实现。

LAION与OpenAssistant

LAION(大规模人工智能开放网络)是一个非营利性机器学习研究组织,致力于向公众提供AI模型、数据集和代码。2022年,LAION发布了包含超过50亿个图像-文本对的AI训练数据集LAION-5B。LAION的最新项目是OpenAssistant,旨在“让每个人都能访问一个优秀的基于聊天的大型语言模型”。OpenAssistant的MVP实现将基于OpenAI的InstructGPT论文,包括人类生成的指令数据集、机器生成的响应及其人类排名数据集,以及RLHF的实现。LAION表示,他们的目标不仅是复制ChatGPT,还要构建未来的助手,能够完成有意义的工作、使用API、动态研究信息等,并且任何人都可以对其个性化和扩展。他们还希望以开放和可访问的方式实现这一目标,这意味着不仅要构建一个优秀的助手,还要使其足够小和高效,能够在消费级硬件上运行。

CarperAI与trlX

CarperAI是EleutherAI研究小组内的一个新实验室,致力于“通过强化学习提高大型语言模型(LLM)的性能和安全性”。2022年10月,该实验室宣布了一个使用RLHF训练和公开发布“指令调优”模型的项目。该项目是多个组织的合作成果,包括HuggingFace、Scale和Humanloop。作为该项目的一部分,CarperAI开源了Transformer Reinforcement Learning X(trlX),这是一个使用RLHF微调HuggingFace语言模型的框架。

Phil Wang的PaLM + RLHF

独立AI开发者Phil Wang以开源深度学习研究模型(如Imagen和Make-A-Video)的实现而闻名。他分享了自己正在进行的PaLM语言模型的RLHF实现,称为PaLM + RLHF。Wang指出,目前没有预训练模型,只有一个供用户自行训练的框架。他还建议有兴趣复制ChatGPT的用户加入LAION的Discord频道。

开源项目的现状与挑战

尽管这些开源项目包含了ChatGPT训练方法的实现,但目前还没有任何训练好的模型可用。Wang的项目FAQ指出,训练可能需要“数百万美元的计算资源和数据”。LAION的OpenAssistant路线图文档列出了收集数据和训练模型的计划,但并未明确说明何时会发布训练好的模型。CarperAI的Twitter账号表示,他们尚未正式发布任何RLHF模型,只是在Discord中进行了一些小型复制实验。

AI社区的讨论

AI社区的几位知名成员在社交媒体上讨论了这些努力。HuggingFace的CTO Julien Chaumond预测,六个月后将有“10个开源复制版的ChatGPT”。AI研究员Sebastian Raschka认为,虽然会有许多开源实现,但高质量模型不会太多,因为人们不喜欢手动标注或编写训练数据。StabilityAI的创始人Emad Mostaque表示,他的公司正在“开发开源的ChatGPT”,并指出除了RL部分需要数百万美元外,最具挑战性的是治理方面。

开源代码

OpenAssistant、trlX和PaLM + RLHF的源代码均已发布在GitHub上。

阅读 11
0 条评论