你经常玩游戏，了解显卡吗？

日期：2024-10-18 18:05:09 来源：机蟹游戏

如果你所热衷的电脑游戏画面是这样：形态万千的建筑，细节臻于完美的车辆，所有的一切都显得那般逼真。你经常玩游戏，了解显卡吗？

实际上，它们的本质乃是一个个处于不同位置的点，这些顶点在空间当中相互连接成线，进而形成不计其数的三角面。历经贴图、光照、着色等纷繁复杂的渲染流程之后，最终呈现在我们眼前的便是那美轮美奂的画面。从三角形的生成直至图像的输出，其中的每一个步骤都离不开显卡，它在电脑中是晶体管数量最多的核心组件。

那么，显卡有着怎样的结构？又是如何开展工作的呢？今天我们就以这张 ROG Strix RTX 4080 猛禽为例，从零开始深入认识显卡。

显卡的正面配备了用于散热的风扇，底部那黄色的长条是用于传输数据和供电的 PCIe 接口，侧面则是起装饰作用的 logo 以及供电接口，而尾部则是用于连接显示器的视频接口。显卡通常会以侧插的方式安装在主板之上，此时风扇会朝向机箱底部，视频接口则会出现在机箱的尾部。从机箱的侧面进行观察，我们通常所能看到的仅仅是显卡的侧面和背板。

在显卡侧面靠右的位置，乃是显卡的外接供电接口，与电源连接之后，能够为显卡提供充足的电力供应。此前，大部分显卡所采用的都是 8pin PCIe 供电接口，能够提供大约 225 瓦左右的供电。高功耗的显卡则需要运用多个8pin，才可满足其需求。

这张 4080 猛禽采用了最新的 12V-2X6的接口，体积极为小巧，单个接口就能够提供高达 600 瓦的供电。华硕还设计出了无需外接供电的背插显卡，能够直接从主板获取电力，安装完成之后会显得更为简洁美观，不过需要搭配特定的主板或者转接头方可使用。

这张显卡在满载运行时的功耗能够达到 360 瓦，为了能够有效地排出热量。巨大的散热模组占据了整张显卡约 90%的体积，而位于最下方的这张小小的电路板，其实才是显卡的本体，同时也是热量的主要来源。散热模组由风扇、鳍片、热管与均热板所构成，其中的核心当属热管。热管的内壁是通过粉末烧结而成的多孔结构。

在制造成型之后，热管内部会填充少量的高纯水，并被抽成真空状态，以此来降低水的沸点和凝固点。当热管的一侧接触到热源时，这一侧的水便会蒸发成为水蒸气，朝着压强更低的另一侧飘去，在温度更低的区域释放出热量，重新凝结成为液态水。而凝结而成的液滴会在毛细作用下沿着多孔的内壁回流，从而达成气液循环，通过气体与液体的相互转化来实现热量的高效传递。

为了提升导热效果，大多数显卡都会使用多根热管来传递热量。然而，热管直接接触核心不仅会存在空隙，而且还会出现热管无法接触到 GPU 芯片的情况。所以当下的高端显卡通常会使用大铜体包裹热管来进行均热，一些更为高端的显卡则会运用导热能力更强的均热板来取代大铜底。

均热板您可以将其理解为面积十分巨大的板状热管，同样是采用气液转换的方式来传递热量，其导热能力是纯铜底的数倍之多。不过，热管和均热板所能提供的对流面积终归是十分有限的，因此还需要搭配大量的铝制散热鳍片，以扩大散热面积，最后借助风扇来加强空气对流，带走鳍片上的热量。

早期的显卡采用的是下压式风扇设计，从风扇面进风，再从侧面出风。现代的显卡为了进一步提高散热效果，会采用贯穿式风道设计，热量能够直接从背板的格栅处排出。这张 4080 的风扇还运用了特殊的设计，中间的风扇与左右两侧的风扇旋转方向有所不同，确保风扇之间的气流方向保持一致，从而能够更加高效地排出热量，并降低噪音。

散热模块确保了显卡能够在舒适的温度下稳定运行，而这张小巧的电路板才是显卡的真正本体。排除掉一些零散分布的电容和芯片，我们能够将这块电路板从外往里划分为四个部分，分别是接口、供电、显存以及 GPU。

GPU 相当于显卡的大脑，承担着几乎所有的运算任务。需要注意的是，GPU 并不等同于显卡。GPU 通常所指的是位于最中间的这块芯片，而显卡指的是包括芯片、显存、供电接口、电路板以及散热模块的整体。GPU芯片主要由英特尔、AMD 和 NVIDIA 这三家厂商供应。而我们所熟知的华硕等 AIC 厂商，主要完成的是电路板与散热的设计和生产工作。

就如同主板上所有的元器件都是为 CPU 服务一样，显卡电路板上的所有元器件也都是为 GPU 服务的。视频接口使得显卡能够直接将运算完成的图像发送给显示器进行显示。这张 4080 猛禽搭载了 2 个 HDMI2.1 和 3 个 DP1.4 接口，不同版本的视频接口所能承载的分辨率和刷新率各不相同。PCIe 接口让显卡能够通过主板和 CPU 内存等其他元器件交互数据，它的数据传输能力与版本以及规格密切相关。比如这张 4080 显卡所使用的便是 PCIe4.0X16 接口，在主板同样支持 PCIe4.0 的情况下，单条 4.0 通道每秒能够传输 2GB 的数据，16 条总共能够传输每秒 32GB 的数据。

供电模块保证了显卡拥有充足的电力分配，它们分布在 GPU 和显存的外围，由 PWM 芯片、电容、电感和 mos 管所组成。电源会从右上方的供电接口输入正 12 伏的供电，之后再由供电模块降压至 1.1 伏与 1.35 伏，输送给 GPU 与显存。这张 RTX 4080 猛禽采用的是直出供电的设计，一个 mos 管和一个电感就是一个供电相。总共拥有 18相70A的 GPU 供电和 3相50A的显存供电，即便显卡处于满载运转的状态，也能够提供持续且稳定的电能。CPU 在进行计算时，需要将数据临时存放在内存当中，而高速运行的 GPU 同样需要将数据暂存在显存里。

在 GPU 周边的那些黑色小方块便是显存。此款 4080 猛禽所采用的是最新的 GDDR6X 显存，其频率为 1400 兆赫，每颗显存的容量为 2GB，位宽是 32 比特，共计 8 颗，合起来显存总量为 16GB，位宽达 256 比特。显存的总带宽是由频率、位宽以及显存类型共同决定的。显存的频率意味着一秒钟能够传输的周期数量，位宽则代表显存单次能够传输的数据量。

GDDR6X 显存在每个周期内能够传输 16 位的数据。将它们相乘，再把比特换算为 byte 之后，便能得出 716.8GB 每秒的总带宽，这代表了显存每秒所能传输的数据量。通常来讲，游戏的分辨率越高，贴图和模型越精细，对于显存容量和带宽的要求也就越高。然而，在显存充足的情况下，显卡的性能依旧是由显卡的核心 GPU 来决定。

这张 RTX 4080 显卡所搭载的 GPU 芯片称作 AD103-301。它运用的是NVIDIA最新的ADA-Lovelace架构，面积仅有 379 平方毫米，不过一个矿泉水瓶盖大小，但其内部却集成了多达 459 亿颗晶体管。之所以能够拥有如此之高的晶体管密度，依靠的是台积电先进的 5 纳米光刻工艺。台积电会依据英伟达的设计方案，在一块 12 英寸的硅晶圆上，通过繁杂的生产工艺刻制出复杂的电路图案。数量庞大的晶体管在 GPU 的内部组成了复杂的电路结构，犹如一座微缩的城市。其中大部分的电路均可用于图形运算。

我们一般会借助一张简化图来进行观察，GPU 结构主要由 SM 流式多处理器、L2 缓存、NVENC 视频编码器、NVDEC 视频解码器、显存控制器以及 PCIe 控制器构成。SM 流式多处理器占据了 GPU 的大部分面积，它负责了近乎所有的图形运算。这颗 AD103-301 核心里总计有 76 组 SM 单元，每组 SM 单元包含 128 个流处理器，总共 9728 个流处理器。英伟达将这些流处理器称为 CUDA 核心，显卡的流处理器数量越多，频率越高，性能就越强。

倘若把每组 SM 类比作一个 CPU 核心，那么这颗 GPU 就相当于一颗 76 核 9728 线程的处理器。不过 CPU 核心仿若经验丰富的数学家，能够处理更为复杂的任务。而 GPU 核心更像是只会四则运算的小学生，适合进行简单的并行计算。在 AI 模型的训练和推理、3D 游戏中的图形渲染等场景中，均需要大量简单计算，此时显卡核心的数量优势就要比 CPU 核心的质量优势更具效率。

要理解为何显卡更适宜此类运算，我们就需要了解一下游戏画面究竟是如何渲染的。接下来就让我们一同走进“The matrix”，认识图形渲染的基本流程。空间中的两个顶点能够连成一条线，三个顶点能构成一个三角面，千千万万个三角面就组成了一个精美的模型。真实的物体还需要更多的色彩与细节，所以还得给模型添加贴图。在三维空间里，每个模型都有着自身的位置，模型上所有的顶点都具有对应的坐标，而无数个带有坐标的模型共同构建了这个世界。

想要观察这个世界，我们还需要一个虚拟摄像机，只有处在摄像机视野范围内的模型才会被渲染出来，同时这些模型相对于摄像机的位置也会被重新计算，获取新的坐标值。摄像机所捕获到的这些画面实际上是一个二维平面，三维空间中的模型需要通过投影的方式映射到这个平面上。最后，我们需要将二维画面呈现在由像素点构成的屏幕上。为了获取最终的渲染效果，我们还需要针对每个像素点的纹理、光照和颜色等属性进行单独计算。经过这一系列繁杂的运算，才能够最终生成一帧在屏幕上显示的图像。

在计算过程中，三角面的顶点坐标通常用 32 位的 0 和 1 来表示，首位为符号位，中间八位为指数位，后 23 位为尾数位。我们将其称作 FP32 单精度浮点数。流畅的画面需要每秒 30 帧甚至 60 帧以上的图像，而每一帧都需要大量精准的数学计算。

每秒钟能够计算的次数即为单精度浮点数算力，能够用于衡量图形渲染的性能。RTX4080 的 GPU 核心能够让 9728 个 CUDA 核心同时进行单精度浮点计算。在 2800 兆赫兹的频率下，能够提供大约 54T flops 的单精度浮点算力，意味着每秒钟能够计算 54 万亿次。而像 i9 这样的高端 CPU，FP32 的算力也仅有 2.5T flops。对比之下便会发现，GPU 比 CPU 更适合图形渲染。

单精度浮点主要影响的是游戏图像的渲染性能。在这颗 4080 的 GPU 核心中，所有的 CUDA 都能够计算单精度浮点数。除了能够计算单精度浮点数 F32 之外，同时向下兼容精度更低的半精度浮点数 FP16，但只有一半的 CUDA 能够支持 int 32 的整数计算。英伟达会在官网上标注不同 GPU 所支持的具体算力供大家查询。

需要说明的是，GPU 的算力与架构有关，架构是 GPU 的设计方案，设计方案越先进，在相同算力下的图形渲染效率就越高。例如 GTX1660 的 GPU 架构比 GTX980 更先进。虽然它们的 FP32 算力相近，但 1660 的游戏性能却显著更强。所以英伟达在官网标注算力的时候，还会同时标注 GPU 的架构。

单精度浮点算力和架构共同决定了 GPU 的游戏性能。但当下的 GPU 除了用于玩游戏和做渲染建模之外，还承担了众多与 AI 相关的任务。在CUDA核心的右边是第四代 Tensor Core 张量核心，它极其适合进行与 AI 相关的深度学习计算。所有的 Tensor Core 一共能够提供 780AI tops 算力。比如当下的 AI 绘图软件就能够调用 Tensor Core，生成图片的速度远比纯 CUDA 要快很多。游戏里的 DLSS 功能同样能够调用 Tensor Core，以更低的分辨率进行渲染，再通过 AI 上采样到更高的分辨率，从而提升游戏的流畅度。

逼真的游戏画面离不开真实的光照效果，而光线的反射和折射需要强大的算力支撑。在这张 4080 的核心中，每组 SM 里均配备有一颗第三代 RT core光线追踪核心，专门用于加速光照和反射的计算，总计能够提供 113RT-Tflops 的光追算力。光线追踪能够显著提升画质，然而其对性能的要求也极高。倘若使用的是低端显卡，开启光追之后可能会出现严重的卡顿情况。唯有性能更为强劲的高端显卡才适宜开启光线追踪。

在 SM 单元之外，还存在诸多其他单元，例如视频解码器，它能够使显卡将 0101 的数据转换为连续播放的视频画面。若解码器性能欠佳，在播放视频时就可能出现卡顿、掉帧的现象。而视频编码器则能够让您把拍摄到的视频数据以全新的编码方式压缩成期望的格式和大小。要是编码器性能较弱，在剪辑视频导出时便会耗费过多的时间。