展心展力 metaapp：基于 DeepRec 的稀疏模型训练实践

1 背景

推荐场景大模型在国内的使用很早，早在 10 年前甚至更早，百度已经用上了自研的大规模分布式的 parameter server 系统结合上游自研的 worker 来实现 TB 级别的万亿参数的稀疏模型。后来，各家平台也陆续基于这种方案，开发了自己的分布式训练系统，普遍特点是大量使用 id embedding，因此参数量巨大，模型大小也非常夸张。当然，随着开源训练工具 TensorFlow/Pytorch 的流行，使用 TensorFlow/Pytorch 作为 worker，结合自研 ps 的方案也十分流行。究其原因，以 TensorFlow 为例，虽然内置了分布式训练系统，但是对于大规模 id embedding 的支持却非常糟糕，无法作为完整的平台使用。而使用 TensorFlow+ 自研 ps 的方案也存在不少问题，比如自研 ps 一般对于特征输入都有特定的要求、二次开发成本比较高等。

完整内容请点击下方链接查看：

https://developer.aliyun.com/article/1200344?utm_content=g_10...

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

展心展力 metaapp：基于 DeepRec 的稀疏模型训练实践

1 背景

阿里云开发者

引用和评论

福利来了！计算巢支持在已经购买的 ECS 上搭建幻兽帕鲁服务器，支持图形化管理配置

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

DeepSeek(私有化)+IDEA+Dify+微信搭建AI助手保姆级教程

大模型中的Token究竟是什么？从原理到作用深度解析

Open WebUI：开源AI交互平台的全面解析

一文掌握 MCP 上下文协议：从理论到实践

人工智能与机器学习入门：决策树应用

展心展力 metaapp：基于 DeepRec 的稀疏模型训练实践

1 背景

阿里云开发者

引用和评论

福利来了！计算巢支持在已经购买的 ECS 上搭建幻兽帕鲁服务器，支持图形化管理配置

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

DeepSeek(私有化)+IDEA+Dify+微信 搭建AI助手保姆级教程

大模型中的Token究竟是什么？从原理到作用深度解析

Open WebUI：开源AI交互平台的全面解析

一文掌握 MCP 上下文协议：从理论到实践

人工智能与机器学习入门：决策树应用

DeepSeek(私有化)+IDEA+Dify+微信搭建AI助手保姆级教程