Meta开源Byte Latent Transformer LLM，提升可扩展性 - SegmentFault 思否

Meta开源Byte Latent Transformer LLM，提升可扩展性

发布于 1 月 7 日

Meta 开源了名为 Byte Latent Transformer (BLT) 的大型语言模型架构，该架构使用了一种动态学习方案来处理字节片段，而非传统的分词器。BLT 模型的性能与 Llama 3 相当，但在推理时所需的浮点运算次数（FLOPS）减少了 50%。

主要观点

动态字节片段处理：
- 传统的大型语言模型（LLMs）通常将文本字节映射到固定的词元集，而 BLT 则动态地将字节分组为片段。
- BLT 使用一个小型语言模型计算序列中下一个字节的熵，并在熵增加时开始新的片段。这种方法预测单词的结尾，相比生成新单词更为简单。
- 由于直接处理字节，BLT 对包含拼写错误的噪声输入更具鲁棒性。
性能与效率提升：
- 增加片段大小可以减少推理所需的 FLOPS，从而在相同的计算预算下实现更大的模型和更好的性能。
- BLT 解锁了新的扩展维度，允许在固定推理预算内同时增加模型和片段大小，适用于实际场景中的计算需求。
与传统分词方法的对比：
- 传统 LLMs（如 Llama）使用固定词元集，并通过启发式方法将输入字节序列映射到词元。分词虽减少计算量，但存在不足，如处理多语言和拼写错误的能力受限。
- BLT 直接处理原始字节，提升了对长尾数据的处理能力，增强了对噪声输入的鲁棒性，并加深了对子词结构的理解。

关键信息

实验验证：
Meta 进行了一系列实验，发现 BLT 模型在字符级任务（如噪声输入或低资源语言翻译）上优于 Llama 3。然而，将 Llama 3 转换为 BLT 而非从头训练时，在多个 LLM 基准测试中表现显著下降。
社区讨论：
在 Reddit 上，用户讨论了 BLT 如何帮助解决“草莓问题”（如 ChatGPT 无法正确统计单词中的字母）。此外，BLT 的多模态潜力被提及，但由于内存和计算需求尚未完全满足，仍需进一步优化。

重要细节

开源代码：BLT 的训练和推理代码已在 GitHub 上公开。
技术优势：BLT 提供了一种可扩展且鲁棒的框架，为更高效和适应性更强的语言模型提供了替代方案。

总结

BLT 通过动态字节片段处理，显著提升了语言模型的效率和鲁棒性，同时解锁了新的扩展维度。尽管在现有模型转换时存在性能下降的问题，但其潜力在字符级任务和多模态应用中已得到初步验证。开源代码的发布为后续研究和应用提供了基础。

Meta Open-Sources Byte Latent Transformer LLM with Improved Scalability

https://www.infoq.com/news/2025/01/meta-byte-latent-transformer/

阅读 46

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。