如今,大语言模型 (LLM) 的发展正在从规模参数迭代升级拓展至应用场景的适配与创新,在这个过程中,其也暴露出一系列问题。例如,在推理环节的效率较低,处理复杂任务时耗时较长,难以满足对实时性要求较高的场景需求;在资源利用方面,由于模型规模庞大,对计算资源和存储资源的消耗巨大,且存在一定程度的浪费等。
针对于此,来自加州大学伯克利分校 (UC Berkeley) 的研究团队于 2023 年开源了 vLLM (Virtual Large Language Model), 这是一款专为大语言模型推理加速而设计的框架,其依靠卓越的推理效率和资源优化能力在全球范围内引发广泛关注。
为了帮助国内开发者更加便捷地获悉 vLLM 的版本更新及前沿动态,HyperAI超神经现已上线首个 vLLM 中文文档, 从技术科普到实用教程,从前沿动态到重磅更新,无论是初学者还是资深专家都能够找到所需要的干货内容。
vLLM 中文文档:
追溯 vLLM:开源历程及技术演进
vLLM 的雏形诞生于 2022 年年底,加州大学伯克利分校的研究团队在部署一个名为「alpa」的自动化并行推理项目时,发现其运行速度非常慢且 GPU 利用率低。研究人员敏锐地察觉到,大语言模型推理存在着巨大的可优化空间。然而,市场上并没有专门针对大语言模型推理优化的开源系统,随即,他们决定自己动手创建一个大语言模型推理框架。
经过无数次的试验和调试,他们关注到了操作系统中的虚拟内存和分页技术,并基于此在 2023 年提出了开创性注意力算法 PagedAttention,其可以有效地管理注意力键和值。在此基础上,研究人员构建了高吞吐量的分布式 LLM 服务引擎 vLLM,实现了 KV 缓存内存几乎零浪费,解决了大语言模型推理中的内存管理瓶颈问题。 与 Hugging Face Transformers 相比,其吞吐量提升了 24 倍,而且这一性能提升不需要对模型架构进行任何更改。
更值得一提的是,vLLM 不受硬件限制,不仅仅局限于 Nvidia GPU,还对 AMD GPU、Intel GPU、AWS Neuron 和 Google TPU 等市面上众多硬件架构敞开怀抱,真正推动了大语言模型在不同硬件环境下的高效推理和应用。如今, vLLM 已经能够支持超 40 个模型架构,并获得了包括 Anyscale、AMD、NVIDIA、Google Cloud 在内的 20 多个企业的支持和赞助。
2023 年 6 月,vLLM 的开源代码正式发布。短短一年时间里,vLLM 在 Github 上星标数就突破了 21.8k。截止目前,该项目星标数已达 31k。
vLLM 在 GitHub 上已获得 31k stars
同年 9 月,研究团队发表了论文「Efficient Memory Management for Large Language Model Serving with PagedAttention」,进一步阐述 vLLM 的技术细节和优势。而团队对 vLLM 研究的脚步并未停歇,仍在围绕兼容性、易用性等方面展开迭代升级。例如在硬件适配方面,除了 Nvidia GPU 之外,怎样能够让 vLLM 在更多的硬件上面跑起来;再比如在科研方面,如何进一步提高系统效率和推理速度等。而这些也都体现在 vLLM 的一次次的版本更新中。
论文地址:
https://dl.acm.org/doi/10.1145/3600006.3613165
vLLM 系统概览
vLLM v0.6.4 更新吞吐量提高 2.7 倍,延迟减少 5 倍
就在上个月,vLLM 的版本更新到了 0.6.4,在性能提升、模型支持和多模态处理等方面都取得了重要的进展。
在性能方面,新版本引入了多步调度 (Multistep scheduling) 和异步输出处理 (Asynchronous output processing),优化了 GPU 的利用率并提高了处理效率,从而提高了整体的吞吐量。
vLLM 技术解析
- 多步调度允许 vLLM 一次性完成多个步骤的调度和输入准备,使得 GPU 可以连续处理多个步骤而不必每个步骤都等待 CPU 指令,这样分散了 CPU 的工作负载,减少了 GPU 的空闲时间。
- 异步输出处理使得输出处理与模型的执行可以并行进行。具体来讲,vLLM 不再立即处理输出,而是延迟处理,在执行第 n+1 步的同时处理第 n 步的输出。虽然这可能会导致每个请求多执行一步,但对 GPU 利用率的大幅提高远远弥补了这一成本。
例如,在 Llama 8B 模型上可以实现 2.7 倍的吞吐量提升和 5 倍的 TPOT(每个输出标记的时间)减少,如下图所示。
在 ShareGPT 数据集上对搭载于 1 张 H100 的 Llama 8B 模型进行 vLLM v0.5.3 与 v0.6.0 之间的性能比较
而在 Llama 70B 模型上实现了 1.8 倍的吞吐量提升和 2 倍的 TPOT 减少,如下图所示。
在 ShareGPT 数据集上对搭载于 4 张 H100 的 70B 模型进行 vLLM v0.5.3 与 v0.6.0 之间的性能比较
模型支持方面 vLLM 新纳入了对 Exaone、Granite 和 Phi-3.5-MoE 等前沿大语言模型的适配。在多模态领域,增加了多图像输入的功能(官方文档中以 Phi-3-vision 模型作为示例演示),以及对 Ultravox 的多个音频块的处理能力,进一步扩展了 vLLM 在多模态任务中的应用范围。
首个完整版 vLLM 中文文档上线
毫无疑问,vLLM 作为大模型领域的一项重要技术创新,代表了当前高效推理的发展方向。为了让国内开发者更便捷、准确地理解其背后的先进技术原理,将 vLLM 引入到国内大模型的开发中,进而推动该领域的发展。HyperAI超神经的社区志愿者们通过开放合作的方式,经过翻译和校对的双重审核,成功完成了首个 vLLM 中文文档,现已完整上线至 hyper.ai。
vLLM 中文文档:
vLLM 中文文档官方网站
vLLM 这份文档为您提供了:
- 从零入门的基础概念科普
- 快速上手的一键克隆教程
- 及时更新的 vLLM 知识库
- 友好开放的中文社区生态
vLLM 在不同计算芯片上的安装方式
构建开源桥梁: TVM、Triton 与 vLLM 社区共建之旅
2022 年,HyperAI超神经上线国内首个 Apache TVM 中文文档 (点击查看原文:TVM 中文站正式上线!最全机器学习模型部署「参考书」它来了) ,在国产芯片如火如荼高歌猛进之际,我们为国内的编译器工程师提供了了解和学习 TVM 的基础设施,同时我们也联合 Apache TVM PMC 冯思远博士等人,组建起国内最活跃的 TVM 中文社区, 通过线上线下的活动,吸纳主流国产芯片厂商的参与和支持,覆盖千余位芯片开发者和编译器工程师。
TVM 中文文档官方网站
TVM 中文文档地址:
2024 年 10 月,我们上线了 Triton 中文站 (点击查看原文:首个完整 Triton 中文文档上线!开启 GPU 推理加速新时代) ,进一步拓展了 AI 编译器社区的技术边界和内容范畴。
Triton 中文文档官方网站
Triton 中文文档地址:
在构建 AI 编译器社区的旅程中,我们一直在倾听大家的声音,并持续关注行业趋势。此次 vLLM 中文文档的上线,是我们观察到,随着大模型的飞速发展,大家对 vLLM 的关注和使用需求正不断上升,我们期望为广大开发者提供学习、交流与合作的平台,共同推动前沿技术在中文语境下的普及与发展。
TVM、Triton 和 vLLM 中文文档的更新和维护,是我们构建中文社区的基础工作。未来,期待更多伙伴的加入,共建更开放、多元、包容的 AI 开源社区!
查看完整 vLLM 中文文档:
在 GitHub vLLM 中文:
https://github.com/hyperai/vllm-cn
本月,HyperAI超神经将在上海举办 Meet AI Compiler 线下技术交流会,扫码备注「AI 编译器」加入活动群,第一时间获取活动相关信息。
参考资料:
1.https://blog.vllm.ai/2024/09/05/perf-update.html
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。