GPU 内存一致性：规范、测试以及性能工具的机会

发布于 8 月 3 日

主要观点：2024 年 MICRO 文章介绍消除 GPU 程序中冗余同步可提升性能，引出工具 ScopeAdvice，引发研究讨论并写成博客。文中探讨 GPU 内存模型研究，包括测试与形式化工作及相关工具，以 ScopeAdvice 为例进行案例研究，验证部分优化，指出存在问题及未来挑战。
关键信息：

高性能计算中减少同步开销是长期目标，GPU 部署规模大使节省更重要但风险也大，需深入理解内存模型。
CUDA 开启 GPU 通用编程，线程分层次有不同同步机制，CUDA 内存模型有放松特性和各种同步栅栏。
早期 GPU 内存排序理解不足，研究通过测试揭示硬件行为，如 GPUHarbor 平台，同时形式化模型也在发展，如 Vulkan 和 PTX 的模型及相关工具。
MICRO 文章提出三种过同步优化及消除方法，其中 Variant 1 在 NVIDIA PTX 内存模型下不合理，但在实践中未出现意外结果，引发关于如何发现优化机会、验证优化合理性及测试是否导致意外结果的问题，工具 ScopeAdvice、Dartagnan 和 GPUHarbor 可分别解决部分问题。
重要细节：
不同层次同步栅栏性能不同，块级栅栏比设备级快 21 倍。
2015 年论文将 CPU 内存测试技术应用于 GPU 并发现问题。
形式化模型工具可自动回答关于内存重排序等问题。
ScopeAdvice 针对 CUDA，Dartagnan 可验证并发库等，GPUHarbor 可探索硬件内存行为。
MICRO 文章中三种优化及各优化的特点与存在问题。

阅读 81