主要观点:
- 这是一个专为构建 GPU 内核而设计的排行榜,在Discord上,用户可提交自己的内核实现参与竞争,无需自己的 GPU 也能参与。
- 大型基础模型训练和推理需大量计算资源,其基于深度学习库调度内核在 GPU 上运行,许多内核远非最优,此排行榜旨在为人们找到所用设备的最快内核提供资源。
- 排行榜按不同设备分别进行运行时排名,允许创建者指定可用设备,通过连接自身云计算的 Discord 机器人运行和测量内核提交的各种指标,还提供调试和未来将实现的性能分析工具等。
- 旨在支持多种 GPU 编程语言、DSL 和框架,目前测试允许使用 PyTorch、Jax、Triton、Inline CUDA 等在 Python 排行榜提交,以及 CUDA、CuBLAS、CUTLASS、ThunderKittens 等在 CUDA 排行榜提交。
关键信息:
- 排行榜平台:Discord
- 无需 GPU 参与:用户可通过 Discord 机器人在自身云计算上运行和测量内核
- 支持语言等:多种语言框架,如 Python 相关和 CUDA 相关的多种工具
- 参与流程:直观,可提交首个内核
重要细节:
- 大型基础模型需大量计算资源且内核优化不足
- 排行榜按设备分离排名且可指定可用设备
- 平台提供调试和未来的性能分析工具等功能
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。