这是一篇关于 AMD Zen5 架构的技术文章,主要内容如下:
- 概述:Zen5 相比 Zen4 在 AVX512 方面有显著提升,实现了 4x512 位的执行吞吐量,成为首款具备此能力的桌面处理器,但移动版 Strix Point 的 AVX512 性能有所削减。Intel 在 SIMD 方面曾领先,如今 AMD 已超越。
- 内存带宽与性能瓶颈:尽管 Zen5 的 AVX512 性能强大,但内存带宽成为瓶颈,导致在高内存访问的工作负载下性能受限,如 y-cruncher 测试中,16 核的 Zen5 从 2 倍内存带宽提升变为 4 倍内存绑定。
- IPC 表现差异:Zen5 的 IPC 提升在不同工作负载下差异较大,标量整数和 AVX512 提升显著,其他方面表现平平,如 Cinebench 和 CPU-Z 等基准测试的提升未达预期。
- 时钟速度与热功耗:Zen5 顶级 SKU 的最大时钟速度仍为 5.7GHz,但实际情况较为复杂,Zen4 曾因 AVX 工作负载导致 5.7GHz 不稳定而降低频率,Zen5 则重新夺回该频率。在热功耗方面,Zen5 宣称有所改善,但实际测试中与 Zen4 相比改善不明显,主要是因为 Zen5 更高效,产生的热量更少。
AVX512 相关特性:
- 向量单元拆解:512 位宽度对于性能提升至关重要,几乎所有 512 位指令的吞吐量翻倍,但 1 周期 SIMD 指令的延迟从 1 周期增加到 2 周期。
- 负载/存储吞吐量:Zen5 的 512 位负载/存储吞吐量提升,在一些方面超过 Intel,但在 128/256 位负载吞吐量上仍落后于 Intel 的 Arrow Lake。
- 512 位存储特性:512 位存储较为复杂,在 Zen5 中 store 端口的情况及与其他指令的交互存在多种情况,需要注意避免影响性能。
- 512 位字节粒度洗牌:Zen5 有两个 512 位字节粒度洗牌单元,性能提升明显,但 128 位和 256 位复杂洗牌性能未变。
- FADD 延迟:Zen5 的 FADD 延迟在数据可转发时为 2 周期,否则为 3 周期,Strix Point 的 FADD 延迟仍为 3 周期。
- AVX512-VP2INTERSECT:AMD 在 Zen5 中加入该指令,性能较好为 1 周期吞吐量,但其未来是否保留尚不明确。
- 数据端口限制:Zen5 的向量端口布局与 Zen4 相似,仍存在 10 数据读端口限制,虽较难达到但在高度优化代码中仍会影响性能。
- 向量寄存器文件:Zen5 的向量寄存器文件大幅增加至 384x512 位,是 x86 处理器中最大的,但整数寄存器文件增长不明显。
- 整数单元拆解:Zen5 增加了两个额外的 ALU, capable 支持 multiply、CRC、PDEP/PEXT 等指令,吞吐量提升显著,但难以持续达到 6 IPC,64x64->128 位乘法也有相应变化。
- 最终思考:Zen5 的 AVX512 性能令人印象深刻,超越了 Intel 在该领域的优势,但内存带宽和 AVX512 采用率低是其最大弱点,未来 Zen6 可能会改善内存带宽,而 AVX512 的采用情况取决于开发者的选择和 Intel 的决策。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。