RWKV-8 预览之 DeepEmbed：对端侧友好的稀疏设计，解决 MoE 显存占用

发布于 6 月 10 日中国

RWKV-8 预览之 DeepEmbed 技术介绍，旨在通过稀疏设计提升模型推理性能，同时减少显存占用，使得大模型能够在端侧设备上部署。DeepEmbed 为每个 token 训练高维向量，在推理阶段存储于 RAM/SSD，并通过乘性调制提升模型对语义的感知能力。此技术支持 n-gram 和 LoRA 等优化，进一步降低显存和训练成本。

关键点

RWKV-8 新架构 DeepEmbed 技术的核心是通过稀疏设计实现类似 MoE 的推理性能，同时极大减少显存占用。
DeepEmbed 在训练阶段为每个 token 生成高维向量，这些向量在推理时存储于 RAM 或 SSD，适合端侧设备部署。
DeepEmbed 通过对 FFN 输出进行乘性调制，增强模型对 token 语义的感知能力，同时对显存几乎无额外需求。
可结合 n-gram 和 LoRA 技术，进一步优化模型性能和降低训练开销。
DeepEmbed 技术已引发广泛关注，并将在未来公布更多创新内容。

阅读 304