使用软件（Go 版本）测量系统性能 - Daniel Lemire 的博客

主要观点：编程软件时在系统抽象上工作，程序员需了解底层系统特性，可通过实验观察系统行为；在软件和硬件间有多层，如编译器、操作系统等，好程序员应考虑这些层；Go 中可通过基准测试衡量性能，包括执行函数时间、内存分配等，且所有基准测试受测量误差和系统干扰影响；还介绍了 Go 中测量内存分配的方法、页面大小对性能和内存使用的影响、内联优化、缓存行、CPU 缓存、内存带宽、内存延迟与并行性、超标量和数据依赖、分支预测等方面的内容及相关代码示例。

关键信息：

软件工作于系统抽象，程序员要了解底层系统。
Go 基准测试可测函数执行时间和内存分配等。
内存有栈内存和堆内存，Go 靠垃圾回收管理堆内存。
内联可优化函数，某些情况下能提升性能。
缓存行大小影响性能，可通过特定实验测量。
CPU 缓存大小可通过随机洗牌数组实验确定。
内存带宽受多种因素影响，线性访问可获最佳带宽。
内存延迟影响链表遍历等操作，可通过并行化提升性能。
超标量处理器可并行执行指令，数据依赖会影响性能。
分支预测可能提升或降低性能，可使用分支无代码优化。

重要细节：

Go 中通过testing.B参数进行基准测试函数定义，b.N表示执行次数。
测量内存使用时需注意 Go 垃圾回收延迟及相关函数调用。
内联优化受编译器限制，如递归函数较难内联。
缓存行测量实验中处理器可能获取多余缓存行。
CPU 缓存大小实验中通过随机洗牌数组观察时间变化。
内存带宽测量代码中通过多次测量取最佳结果。
内存延迟实验中链表遍历受其影响，可通过并行化提升性能。
超标量处理器执行指令受内存访问和数据依赖限制。
分支预测受分支条件影响，分支无代码在某些情况下更优。