上期回顾:NVIDIA AI Enterprise 科普 | Triton 推理服务器 & TensorRT-LLM 两大组件介绍及实践
本期我们将介绍 NVIDIA AI Enterprise 中的一个重要工具套件——NVIDIA NeMo。它是一个端到端云原生框架,无论是在本地还是在云上,用户可以灵活地构建、定制和部署生成式 AI 模型。
它包含但不限于预训练模型、数据管护工具、模型对齐工具、训练和推理框架、检索增强工具和护栏工具包(如下图示意),为用户使用生成式 AI 提供了一种既方便、又经济的方法。
图片来源于NVIDIA
此外 NeMo 框架还包含对一些流行的多模态模型的支持,包括 Stable Diffusion、Vision Transformer 等,不过当前仍处于开发使用的早期阶段,后续我们也将继续深入介绍上述大语言模型和多模态模型。
本文我们将具体介绍 NVIDIA NeMo 框架及其所包含的组件工具。
NeMo 框架组件
1. 模型⽀持
Multimodal (MM) Language Models:
- NeVA (LLaVA)
- Kosmos-2
Large Language Models (LLMs):
- GPT-style models (decoder only)
- T5/BART/UL2-style models (encoder-decoder)
- BERT-style models (encoder only)
- RETRO model (decoder only)
Speech Processing:
- Jasper
- QuartzNet
- Citrinet
- ContextNet
- Conformer-CTC
- etc.
Text To Speech (TTS):
- FastPitch
- Mixer-TTS/Mixer-TTS-X
- RAD-TTS
- Tacotron2
- SSL FastPitch
- etc.
Vision models:
- Vision Transformer (ViT)
- AutoencoderKL (VAE with KL loss)
2. NeMo Curator
⼀个 Python 库,由⼀系列可扩展的数据挖掘模块组成,⽤于整理⾃然语⾔处理(NLP)数据以训练⼤型语⾔模型(LLM)。NeMo Data Curator 中的模块可帮助 NLP 研究⼈员从未经整理的海量⽹络语料库中⼤规模挖掘⾼质量⽂本。
- 可配置的数据下载和⽂本提取
- 通过 ftfy (fixes text for you) 进⾏⽂本重新格式化和清理
- 质量过滤
- ⽂件级重复数据删除
3. NeMo Aligner
⼀套可扩展的⼯具包,⽤于⾼效的模型对⻬。该⼯具包⽀持最先进的模型对⻬算法,如SteerLM,DPO 和 RLHF。这些算法使⽤户能够将语⾔模型对⻬得更安全、⽆害和有益。⽤户可以在各种模型⼤⼩上进⾏端到端的模型对⻬,并利⽤并⾏技术来确保以⾼性能和资源⾼效的⽅式完成模型对⻬。
- 使⽤RLHF模型对⻬
- 使⽤SteerLM模型对⻬
- 使⽤DPO模型对⻬
4. 训练框架和⼯具
以下⼯具库都集成在 NVIDIA NGC 官⽅容器:
NeMo Launcher,⼜称为 NeMo-Megatron-Launcher: 简化 NeMo Framework 的使⽤,提供了⼀个⽤户友好型界⾯,可有效管理和组织各种环境下的实验。NeMo Launcher 基于 Hydra 框架(详情可点击:高度适配于 OpenUSD 的渲染框架——Hydra),使⽤户能够使⽤配置⽂件和命令⾏参数轻松组成和调整分层配置。
NeMo AutoConfigurator: 为⼤型语⾔模型(LLM)的训练和推理搜索吞吐量最⾼的超参数(Hyper-Parameters),⽬标是为了快速迭代不同的模型配置,以最少的时间和代价找到最佳配置。
NeMo Megatron core,代码仓库: 是NVIDIA Applied Deep Learning Research团队开发的⼀款功能强⼤的transformer,⽀持⾼效的、模型并⾏(张量、序列和流⽔线)和多节点预训练的基于 transformer 的模型,如使⽤混合精度的 GPT、BERT 和 T5。
⽀持并⾏技术
- Data Parallelism
- Fully Sharded Data Parallelism (FSDP)
- Tensor Parallelism
- Pipeline Parallelism
- Sequence Parallelism
- Expert Parallelism
- Context Parallelism
内存节约技术
- Selective Activation Recompute (SAR)
- CPU offloading (Activation, Weights)
- Attention: Flash Attention (FA), Grouped Query Attention (GQA), Multi-Query Attention(MQA), Sliding Window Attention (SWA)
5. NeMo Retriever
是⽤于构建、定制和部署⽣成式⼈⼯智能模型的框架和⼯具 NVIDIA NeMo 系列中的⼀款新产品,其在 NVIDIA NeMo 中以微服务的形式存在,可帮助企业利⽤企业级检索增强⽣成(RAG) 功能增强其⽣成式⼈⼯智能应⽤。
6. NeMo Guardrails
⼀个开源⼯具包,为基于 LLM 的对话应⽤程序添加可编程的保护栏。Guardrails(简称 “rails”)是控制⼤型语⾔模型输出的特定⽅式,例如不谈论政治、以特定⽅式响应特定⽤户请求、遵循预定义对话路径、使⽤特定语⾔⻛格、提取结构化数据等。
7. 推理框架和⼯具
- Triton Inference Server: 是⼀个开源的推理服务软件,⽤于简化AI模型的部署和推理过程,并提供⾼性能的推理服务。
- TensorRT / TensorRT-LLM:是针对⼤型语⾔模型构建最优化的TensorRT 引擎,以在 NVIDIA GPU 上⾼效执⾏推理。TensorRT-LLM包含⽤于创建执⾏这些 TensorRT 引擎的 Python 和 C++ 运⾏时的组件,还包括与 NVIDIA Triton 推理服务器集成的后端,⽤于提供⼤模型服务的⽣产级系统。
下期预告
下期我们将使⽤ NVIDIA NeMo 框架实践 TTS 的训练和推理应⽤,特别是频谱模型和⾳频合成器模型的训练和微调,感兴趣的小伙伴欢迎关注我,及时接收文章更新!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。