PyGraph:PyTorch 中对 CUDA 图的稳健编译器支持

主要观点:CUDA Graphs 是 NVIDIA GPU 的新硬件特性,旨在通过捕获和启动一系列 GPU 任务(内核)作为有向无环图(DAG)来减少 CPU 启动开销,但由于图的静态结构,其部署面临挑战且会因数据复制产生性能开销,甚至在很多情况下会损害性能。
关键信息:引入 PyGraph 这一在 PyTorch2 中自动利用 CUDA Graphs 能力的新方法,基于三个关键观察实现三个优化,能更广泛部署 CUDA Graphs、减少 GPU 内核参数复制开销并基于成本效益分析选择性部署,与 PyTorch2 编译工具链无缝集成,无需手动修改代码,在各种机器学习基准测试中展示出比 PyTorch2 显著的性能提升。
重要细节:Subjects 为 Machine Learning (cs.LG),可引用为arXiv:2503.19779 [cs.LG](此版本为arXiv:2503.19779v1 [cs.LG]),通过 DataCite 有 arXiv-issued DOI 为[https://doi.org/10.48550/ArXi...],提交历史从 Abhishek Ghosh 于 2025 年 3 月 25 日 15:47:54 UTC 提交,文件大小 1406 KB,版本为 v1。

阅读 4
0 条评论