最近在准备第三季的内容时候看了一下NEON汇编指令,挺有意思。我写了个小程序来试试NEON汇编指令究竟能有多少快。有的小伙伴可能不知道啥鸟是NEON。其实NEON就是ARM公司给自家的SIMD指令取了一个好听的花名。

SIMD指的是单指令多数据流,它对多个数据元素同时执行相同的操作。这些数据元素被打包成一个更大的寄存器中的独立通道(Lanes)。例如,ADD指令将32位数据元素加在一起。这些值被打包到两对128位寄存器(分别是V8和V9)中的单独通道中。然后将第一源寄存器中的每个通道添加到第二源寄存器中的相应通道,然后将其存储在目标寄存器(V10)中的同一通道中。

 ADD V0.4S, V1.4S, V2.4S


ADD指令会并行做4个加法运算,它们分别位于处理器内部的4个计算通道并且是相互独立的,任何一个通道发生了溢出或者进位都不会影响其他通道。

 V0.4S[0] = V1.4S[0]+ V2.4S[0]

 V0.4S[1] = V1.4S[1]+ V2.4S[1]

 V0.4S[2] = V1.4S[2]+ V2.4S[2]

 V0.4S[3] = V1.4S[3]+ V2.4S[3]

                       

20220321_141631_021.jpg

SIMD非常适合图像处理场景。图像的数据常用的数据类型是RGB565,RGBA8888, YUV422等格式,这些格式的数据特点是一个像素点的一个分量(A、R、G以及B分量)使用8位数据表示。如果使用传统的处理器做计算,虽然处理器的寄存器是32位或是64位的,处理这些数据确只能使用寄存器的低8位,有点浪费浪费。如果把64位寄存器拆成8个8位数据通道就能同时完成8个操作,计算效率提升了8倍。

20220321_141631_022.jpg

背景

RGB24图像格式是一个像素用24个位(3个字节)表示R(红)、G(绿), B(蓝)三种颜色。它们在内存中的存储格式是R0、G0、B0、R1、G1、B1,以此类推。而BGR24图像格式与RGB24有一点不一样,它在内存的存储格式是B0、G0、R0、B1、G1、R1,依次类推。

20220321_141631_023.jpg

下面用C语言来实现RGB24转BGR24。

640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

后面我分别使用手工编写NEON汇编以及使用NEON内建函数的方式来改写这个段C语言代码,然后在树莓派4b上跑了一下:分别使用这三种方式来转换10张4K大小的图像数据。

惊呆

640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 (1).png

不跑不知道,一炮吓一跳!使用NEON指令优化的纯汇编代码比纯C语言要快17倍以上,比使用NEON内建函数要快4倍以上。

我将在第三季视频课程里和大家详细聊一聊NEON指令,有趣!第三季视频课程:ARM64体系结构与编程,等你哟!


奔跑吧Linux社区
4 声望4 粉丝

奔跑吧Linux社区,为广大小伙伴布道Linux开源!


引用和评论

0 条评论