Stability AI 开源 70 亿参数语言模型 StableLM - SegmentFault 思否

Stability AI 开源 70 亿参数语言模型 StableLM

发布于 2023-05-02

Stability AI 发布 StableLM 语言模型

Stability AI 发布了其大型语言模型（LLM）套件 StableLM 的两组预训练模型权重。这些模型基于 1.5 万亿文本标记进行训练，并采用 CC BY-SA-4.0 许可，允许商业使用。

模型参数与训练数据集

模型参数：发布的模型分别包含 30 亿（3B）和 70 亿（7B）参数，更大规模的模型即将推出。
训练数据集：训练数据集是 EleutherAI 的 The Pile 数据集的更新版本，数据量是 EleutherAI 模型训练所用数据的三倍。

微调模型与许可

微调模型：StableLM 模型还发布了经过指令跟随和聊天数据集微调的版本，包括 Stanford's Alpaca 数据集。
许可限制：由于 Alpaca 的许可要求，微调模型仅限非商业使用。

Stability AI 的目标

Stability AI 表示，StableLM 模型套件的发布是为了让基础 AI 技术更加普及。这些模型能够生成文本和代码，并支持多种下游应用。Stability AI 强调，语言模型将成为数字经济的支柱，他们希望每个人都能参与到模型设计中。

开源模型的发展

生成式 LLM（如 OpenAI 的 GPT-3）的成功推动了类似能力的开源模型的发展。例如，EleutherAI 的 GPT-NeoX-20B 和 Meta 的 7B 参数 LLaMA 模型。OpenAI 的 ChatGPT 展示了通过“指令跟随”数据集微调可以显著提升 LLM 性能。

未来计划

更大规模模型：Stability AI 正在开发 150 亿（15B）、300 亿（30B）和 650 亿（65B）参数的模型，并计划推出 1750 亿（175B）参数的模型。
开源数据集：公司将众包一个开源数据集，用于微调聊天机器人助手，以推动 OpenAssistant 等项目的进展。

性能与应用

尽管 Stability AI 未公布模型的基准性能数据，但他们声称这些模型在对话和编码任务中表现出“惊人的高性能”。

社区反应与技术支持

Hacker News 讨论：有用户认为通过远程 API 访问 LLM 是技术发展的过渡阶段，未来更多价值将通过本地运行模型实现。
硬件使用：Stability AI 的 CEO Emad Mostaque 透露，训练模型使用了 3000 台 A100 和 512 台 TPU v4。
使用提示：Stability 的 LLM 负责人 Stanislav Fort 建议在提示前添加“User: ”以提高早期 StableLM 模型的表现。

资源获取

代码与模型权重：StableLM 模型的代码可在 GitHub 获取，模型权重和聊天演示界面可在 HuggingFace 获取。

Stability AI 的 StableLM 模型套件展示了透明、可访问和支持性的 AI 技术承诺，为用户提供了强大的文本和代码生成工具。

Stability AI Open-Sources 7B Parameter Language Model StableLM

https://www.infoq.com/news/2023/05/stablelm-release/

阅读 48

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。