最全讲解：GPU技术架构知识

GPU的起源

GPU缩写为Graphics Processing Unit的，一般称为视觉处理单元。

GPU被广泛用于嵌入式系统、移动电话、个人电脑、工作站和电子游戏解决方案当中。

现代的GPU对图像和图形处理是十分高效率的，这是因为GPU被设计为很高的并行架构这样使得比通用处理器CPU在大的数据块并行处理算法上更具有优势。

1985年 8月20日 ATi公司成立，同年10月ATi使用ASIC技术开发出了第一款图形芯片和图形卡，1992年 4月 ATi发布了 Mach32 图形卡集成了图形加速功能，1998年 4月 ATi被IDC评选为图形芯片工业的市场领导者，但那时候这种芯片还没有GPU的称号，很长的一段时间ATI都是把图形处理器称为VPU，直到AMD收购ATI之后其图形芯片才正式采用GPU的名字。

NVIDIA公司在1999年发布GeForce 256图形处理芯片时首先提出GPU的概念。

从此NVIDIA显卡的芯片就用这个新名字GPU来称呼。GPU使显卡削减了对CPU的依赖，并执行部分原本CPU的工作，尤其是在3D图形处理时。

GPU所采用的核心技术有钢体T&L、立方环境材质贴图与顶点混合、纹理压缩及凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬体T&L技术能够说是GPU的标志。

关于GPU必须知道的基本知识

图形处理单元（或简称GPU）会负责处理从PC内部传送到所连接显示器的所有内容，无论你在玩游戏、编辑视频或只是盯着桌面的壁纸，所有显示器中显示的图像都是由GPU进行渲染的。

对普通用户来说，实际上不需要独立显卡就可以向显示器「提供」内容。像笔记本电脑或平板用户，通常CPU芯片都会集成GPU内核，也就是大家熟称的「核显」，这样就可以为对显示要求不高的低功耗设备提供更好的性价比。

正因如此，部分笔记本电脑、平板电脑和某些PC用户来说，要想将其图形处理器升级到更高级别也很困难，甚至不太可能。

这就会导致游戏（和视频编辑等）性能不佳，只能将图形质量设置降低才能工作。对此类用户而言，只有在主板支持和空闲空间足够的情况下，添加新显卡才能够把（游戏）显示体验提高到一个新的水平。

GPU工作流程

GPU目前已成为PC内部最强大的组件之一，其性能大部分都来自于VRAM。由于独立显卡使用的显示内存独立于计算机内存，这些存储器模块允许快速存储和接收数据，而不必再通过CPU路由到主板上插的内存。

虽然显卡内存与计算机内存相似，但却完全不同，例如：支持DDR4内存的主板也可能会支持GDDR5 RAM的显卡。显卡上的VRAM用于在卡上快速存储和访问数据，以及为显示器缓冲渲染帧。其还有助于降低影响屏幕上近似数据的「锯齿状边缘」以实现抗锯齿，使图像看起来更平滑。

顶点处理：这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建立起3D图形的骨架。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的VertexShader（定点着色器）完成。

光栅化计算：显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像素点。

纹理帖图：顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射（texturemapping）工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应的图片，从而生成“真实”的图形。TMU（Texturemapping unit）即是用来完成此项工作。

像素处理：这阶段（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Pixel Shader（像素着色器）完成最终输出，由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。

GPU散热

要利用好GPU的原始设计效能必需有大量供电，大量用电就意味着大量发热。显卡（或处理器）产生的热量是以热设计功耗（或简称TDP）和瓦特为单位测量的。但商家对产品的标称并不是直接所需的功耗值，例如新的GTX 1080标称为180W TDP等级，但这并不意味着它需要180W的功率。

之所以提醒大家关心这个值是因为，具有较高TDP的GPU用到有限空气流动的紧凑空间中可能会导致散热问题。特别是对GPU超频的用户来说，需要有足够的冷却手段来处理增加的热量，才能让其稳定运行。

GPU术语

架构：GPU基于的平台（或技术）。一般由GPU厂商进行定义，如AMD 的Polaris架构。

显存带宽：它决定了GPU如何有效地利用可用的VRAM。显卡可以使用GDDR5内存，但如果没有有效地利用带宽仍然会有瓶颈。

纹理填充率：指GPU在单位时间内所能处理的纹理贴图的数量，单位是MTexels/S，由内核时钟乘以可用纹理映射单元（TMU）确定。

内核/处理器：显卡上可用的并行内核（或处理器）数。

核心时钟：与CPU的时钟速率类似，通常该值越高GPU则能够更快地工作。

SLI/CrossFire：SLI和CrossFire分别是Nvidia和AMD使用的技术，它们允许用户安装多块GPU卡并协同工作。

显卡解决图形问题和其他任务的众多核心都是专门设计的，强大的显卡和GPU可以为游戏提供更高的保真度和分辨率，虽然它比CPU更强大，但实际只能用于特定的应用程序。

最全讲解：GPU技术架构知识

FinovyCloud

引用和评论

英伟达 RTX 5090 震撼发布，RTX 4090 会降价吗？

一文掌握 MCP 上下文协议：从理论到实践

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式