现代多核处理器上的高级矩阵乘法优化

发布于 2025-07-24

主要观点：代码可在sgemm.c获取，此博客介绍在现代处理器上使用 FMA3 和 AVX2 向量指令优化多线程 FP32 矩阵乘法，实现在多种 x86 - 64 CPU 上有良好性能，需微调超参数，AVX - 512 CPU 上 BLAS 库可能更快且故意省略部分以支持更多处理器，展示了 Intel Core Ultra 265 和 AMD Ryzen 7 9700X 的性能结果。
关键信息：

介绍矩阵乘法在神经网络中的重要性及相关 BLAS 库。
详细说明安装和基准测试 OpenBLAS 的步骤及相关参数。
理论上计算 Ryzen 9700X 的理论峰值 FLOPS。
给出朴素矩阵乘法实现及核心的内核（kernel）概念和优化方法。
讨论内核大小选择及相关 SIMD FMA 指令实现。
介绍填充（padding）以处理不同矩阵尺寸情况。
阐述缓存阻塞（cache blocking）利用 CPU 缓存优化数据访问。
进行内核微优化，如显式展开数组等。
实现多线程矩阵乘法，并行化不同部分以提升性能。
重要细节：
不同 BLAS 库的特点及 OpenBLAS 代码结构。
安装 OpenBLAS 时的注意事项及编译参数。
理论极限计算中关于 CPU 寄存器和 SIMD 扩展的说明。
内核实现中各种向量寄存器和指令的使用及作用。
填充时不同情况下的处理方式及相关函数使用。
缓存阻塞中各层缓存及数据访问的细节。
多线程实现中不同循环的并行化及参数选择。

阅读 231