见见Xe HPG，英特尔首款Arc显卡内的跳动之心

这是一个新的竞争时代的开始。今天，英特尔首次亮相的Arc A770和A750图形处理器完全拉开了帷幕，预示着该公司长期被嘲笑进入独立消费显卡领域。英伟达和AMD要当心了。Chipzilla现在处于竞争之中，其新的Xe HPG(高性能游戏)GPU架构为其推波助澜。

英特尔在Arc的首次亮相中采取了一种不同寻常的(但在战略上很聪明的)方式，最初为价格适中的便携式笔记本电脑推出了Arc 3显卡，然后在今年夏天在中国推出了同样普通的Arc A380台式GPU。这样做使英特尔能够利用其在笔记本电脑和软件支持方面的强大优势，而不是在台式机上与NVIDIA和AMD一刀两断，并让该公司花费数月时间提供一些亟需的驱动程序抛光。

我们已经在单独的一篇文章中介绍了Arc 3笔记本电脑GPU的展示和英特尔的杀手级功能，解释了日常人们应该从这一新一代笔记本电脑中期待什么。现在，我们知道了Arc 7台式机显卡的性能。(剧透提醒：如果没有启用PCIe可调整大小条，它有时会打碎，有时会卡顿。)

不过，这不是本文的重点。作为各种展示的一部分，英特尔研究员汤姆·彼得森向媒体提供了支撑这些Arc“炼金术士”显卡的XE HPG架构的高级概述，让人们得以一窥英特尔独立显卡雄心勃勃的具体细节。

因此，正如我们对NVIDIA的Ampere和AMD的rDNA 2架构所做的那样，下面是关于Intel Arc Xe HPG芯片内部的简短技术解释。就像NVIDIA和AMD在设计中使用不同的技术和术语一样，英特尔的Arc芯片依赖于一些专有概念(包括需要解释的对时钟速度的新看法)。这使得很难将Arc与竞争对手的GPU架构进行比较–英特尔甚至没有使用像Rop和TMUS这样的常用术语–但当我们完成这里的工作时，您将对Xe HPG的运行机制有一个坚实的高级理解。我们来挖坑吧。

对于英特尔来说，Xe HPG“渲染切片”构成了每一个Arc GPU的主干。英特尔的笔记本电脑和台式机Arc产品可以根据需要进行扩展或缩小，以满足不同的市场需求，但这些渲染切片是其核心，包含专用的光线跟踪单元、光栅化器、几何图形块和Arc的基本构建块，即Xe内核本身。XE XPG可以一直扩展到旗舰Arc A770中的八个渲染切片。

每个渲染切片包含四个XE核心和四个光线跟踪单元，以及运行现代GPU所需的所有其他位。这些渲染切片完全兼容DirectX 12旗舰版，这意味着英特尔的Arc图形处理器可以处理光线跟踪、可变速率着色、网格着色以及与该标准相关的所有其他功能。

让我们更深入地看看Xe内核本身。每个Xe核心(同样，每个渲染切片有四个)由三个关键比特组成：16个处理更传统的光栅化任务的256位“XVe”向量引擎，16个处理机器学习任务的1024位“XMX”矩阵引擎(就像NVIDIA的竞争对手RTX GPU中的张量核心)，以及192KB的共享L1/SLM高速缓存。该缓存可用于在计算工作负载期间保存任务，或在游戏期间保存着色器和纹理。

PC游戏中最大的公司可能会把重注押在光线跟踪将成为图形的未来–例如，每个Xe Core都包括一个专门的线程排序单元，旨在帮助着色器更高效地处理随意反弹的光线跟踪数据–但目前传统渲染仍然是王道。每个XE向量引擎都包括一个专用浮点(FP)执行端口来处理传统的着色任务，以及一个共享的INT/EM端口，可以同时处理基于整数的任务。

NVIDIA在其RTX 20系列“图灵”架构中引入了并行FP/INT流水线，以防止整数任务阻塞FP32流水线，自那以后这已成为标准。我们在2018年写道：“当NVIDIA检查现实世界游戏的表现时，它发现，每执行100条浮点指令，平均也会处理36条、多达50条非浮点指令，导致情况变得混乱。”新的整数流水线与fp32流水线分开处理这些额外的指令，并与之并行。同时执行这两项任务会带来很大的速度提升。

英特尔专用的“XMX”矩阵引擎与每个Xe内核中的矢量引擎挂钩。它们与NVIDIA的RTX张量核大体相似，旨在极大地加速机器学习任务。这些都是XeSS的潜力，XeSS是英特尔吹嘘的NVIDIA DLSS上采样的竞争对手，以及其他特殊的SASE功能，如超级计算和英特尔新的弧控指挥中心的虚拟相机功能。(同样，请阅读我们的Arc Laptop GPU报道，以更深入地了解这些消费者级别的功能。)

当被兼容的软件(如XeSS游戏或支持Hyper Compute的应用程序)点击时，XMX内核的4深度脉动阵列可以计算每个时钟高达256次乘法累加(MAC)运算，用于INT8推断，比配备DP4a硬件的现代GPU提供的64次运算/时钟和较旧的GPU支持的16次运算/时钟大幅增加。

英特尔的XeSS支持后备模式，以在竞争对手Nvidia和AMD显卡上运行，这些显卡没有XMX内核，默认使用DP4a硬件。这张图片很好地说明了为什么英特尔说XeSS在内置XMX硬件的Arc GPU上运行得更快。

每个Xe Core共有16个矢量和矩阵引擎，每个引擎成对同步运行，能够同时运行FP、INT和XMX任务。Arc GPU确实可以保持非常非常繁忙的状态。这种忙碌的全面程度，以及更深入地研究Xe HPG如何处理复杂的光线跟踪任务，可以在下面的英特尔解说员视频中找到。

英特尔一直为其以闪电般的QuickSync技术为先锋的媒体引擎感到自豪，Xe XPG的媒体引擎也不例外。它包括图形芯片的所有现代功能-各种8K HDR编码和解码支持，HEVC，VP9，等等-但还有一个其他芯片(CPU或GPU)在Arc发布时无法提供的重大功能：硬件加速的AV1编码。(不过，NVIDIA的GeForce RTX 40系列也将支持AV1编码。

高效的下一代视频标准是由行业巨头联盟创建的，并正在迅速成为标准，现代桌面GPU支持AV1解码，可以帮助您观看8K视频而不会导致系统自燃，但到目前为止，您需要单独使用软件来实际创建AV1视频。

英特尔表示，Arc解锁的硬件加速AV1创建速度是软件编码的50倍，或者它能够以与其他编码器相同的比特率提供更清晰的流媒体视频。我们测试了Arc的AV1芯片，发现它确实让NVIDIA和AMD的传统编码器相形见绌。(是的，甚至是NVENC。)

与全英特尔笔记本电脑和台式机中提供的Hyper Encode功能相结合，作为该公司Deep Link套件的一部分，该套件利用了CPU和GPU中的媒体引擎，而不是其中之一，基于Arc的系统可能会对视频创作者产生极大的吸引力。

Xe HPG显示引擎在Arc GPU堆栈中保持一致，这意味着每个Arc显卡都提供相同的视频输出功能(尽管确切的端口配置因型号而异)。如果你真的尝试在一对8K屏幕上玩游戏，不要指望有好的帧速率，但如果你想要所有的像素来完成工作任务，知道Arc会支持它是一件好事！

让我们花点时间将所有这些技术讨论带回实际领域。英特尔将一堆Xe内核和渲染切片拼凑成一对专用的Arc“炼金术师”GPU：高端的ACM-G10支持旗舰Arc 7显卡选项，而更普通的ACM-G11出现在Arc 3笔记本电脑和台式机GPU中。

从那里，这些图形处理器可以被切片和切丁，以满足不同的市场需求。上面的图表显示了第一代笔记本电脑的Arc图形是如何产生的。

在上面的笔记本电脑GPU规格图表中，你可能会突然发现一些东西：它们的超低时钟速度。(台式机图形处理器运行得更快，也更典型。)在NVIDIA的图形处理器达到2 GHz，一些AMD图形处理器支持2.5 GHz的时代，英特尔的Arc移动设备最高可达1650 MHz，最低可达900 MHz，这让人有点瞠目结舌。然而，竞争对手图形品牌之间的时钟速度并不像看起来那么明确。

正如我之前解释的那样，AMD针对Radeon图形处理器的“游戏时钟”与NVIDIA的“Boost Clock”不同。英特尔正在为其Arc图形处理器使用另一种指标，称为“图形时钟”。彼得森将英特尔的图形时钟定义为特定GPU所针对的典型轻工作负载和重工作负载的平均时钟速度(例如，XPG游戏和可能的工作站卡计算任务)。如果您查看上面的笔记本电脑GPU图表，您还会看到为每个图表定义的TDP范围；图形时钟基于最低可用TDP。换句话说，英特尔的笔记本电脑显卡时钟基本上代表了Arc GPU的几乎最坏的情况。(当然，台式机GPU使用固定的功率预算，并且表现得更加典型。)

尽管如此，图形核心可能会以不同的速度运行，这取决于它们被推的力度有多大–例如，在2D复古游戏中，它们的速度会高得多，而在复杂的现代游戏中，它们的速度会低得多，这些游戏会击中Xe Core的每个部分和渲染切片。瓦数也可以对性能产生巨大的影响；正如我们在NVIDIA的移动GeForce产品中所看到的那样，向GPU注入更多的能量可以帮助推动较低级别的GPU超过表面上更强大的兄弟图形处理器的低瓦数版本。

同样值得注意的是，时钟速度并不代表一切。在同一家公司的架构中，更快的通常是更好的–比方说，2 GHz的GeForce图形处理器会比1.5 GHz的快。但AMD的台式机RADEON RX 6500 XT尽管配备了快得离谱的2.8 GHz时钟速度，但仍落后于其兄弟机型。正如AMD的罗伯特·哈洛克曾在我们的完整Nerd播客中解释的那样，原始的时钟速度提高远远不是提高性能的唯一方法。该公司的Ryzen7 5800X3D处理器通过降低时钟速度和在芯片上放置巨大的高速缓存，实际上看到了游戏性能的大幅提升。

这很复杂，这就是我要说的。