Falcon-Edge:一系列强大、通用、可微调的 1.58 比特语言模型。

这是一篇关于 Falcon-Edge 系列语言模型的博客文章,主要内容如下:

  • 系列介绍:Falcon-Edge 是基于 BitNet 架构的一系列强大、通用且可微调的语言模型,以三元格式提供,有 10 亿和 30 亿参数两种规模,每种规模都有基础模型和指令微调模型,可在Hugging Face 集合中找到。
  • 创新架构:采用《1 位 LLM 时代:所有大型语言模型都在 1.58 位》论文中的架构,去除 BitNet 层内的层归一化层,保留原有的预注意力和预 MLP 层归一化,以确保与 Llama 架构的兼容性,还实现了优化的 Triton 内核用于activation_quantweight_quant,降低了模型预训练成本,并选择较小的 32678 词汇量以减少最终模型的内存占用。
  • 性能表现:在不同规模模型的基准测试中,与其他类似规模的模型相比,Falcon-Edge 在 leaderboard v2 任务上表现相当或更好,证明了在所需领域训练强大的 BitNet 模型并在其他任务上具有竞争力的可能性;在 bfloat16 变体的 1B 和 3B 基础模型的端到端评估中,确认了通过注入权重缩放来近似非 BitNet 版本模型的方法;与 Microsoft 的新 BitNet 模型在 leaderboard v1 上的比较也显示出优势。
  • 通用性与可微调性:通过特定的代码实现,论证了在训练后量化模型时,注入权重缩放可得到足够好的近似模型;发布预量化权重,帮助社区围绕 1 位微调开展生态系统建设,提供了用于微调预量化权重的 Python 包onebitllms,包含将预量化模型转换为 BitNet 训练格式、将训练后的检查点量化为 BitNet 格式和bfloat16格式等功能。
  • 后续方向:提出多个有趣的后续研究方向,如为 BitNet 架构编写更强大的 GPU 推理内核、支持 BitNet 微调的 PEFT 方法、更严格研究 Bitnet 检查点的通用性、开发多模态 Bitnet 模型以及优化 Bitnet 训练内核等。
  • 引用与贡献者:提供了引用信息,列出了核心贡献者的照片和姓名。
阅读 13
0 条评论