AI 推理赛竞争激烈

发布日期: 2024年8月29日 来源:IEEE Spectrum

虽然英伟达的GPU在AI训练方面占据着无可争议的主导地位,但我们或许已经看到AI推理领域的竞争对手在追赶这家科技巨头,尤其是在功耗效率方面。然而,英伟达新推出的Blackwell芯片的绝对性能,或许难以匹敌。

今天上午,ML Commons发布了最新的AI推理竞赛MLPerf Inference v4.1的结果。本轮竞赛首次出现了使用AMD Instinct加速器、最新的Google Trillium加速器、多伦多初创公司UntetherAI的芯片,以及英伟达新款Blackwell芯片的团队提交的结果。另有两家公司,Cerebras和FuriosaAI,宣布了新的推理芯片,但未提交MLPerf。

与奥林匹克体育运动类似,MLPerf有许多类别和子类别。其中提交数量最多的是“数据中心-封闭”类别。封闭类别(相对于开放类别)要求提交者在预定模型基础上运行推理,不进行显著的软件修改。数据中心类别测试提交者的大批量查询处理能力,而相对的边缘类别则专注于降低延迟。

散点图

在每个类别中,有9个不同的基准测试,针对不同类型的AI任务。这些包括流行的应用场景,如图像生成(如Midjourney)和大型语言模型问答(如ChatGPT),以及同样重要但鲜为人知的任务,如图像分类、目标检测和推荐引擎。

本轮比赛中包含了一个新的基准测试,称为专家混合。这是大型语言模型部署中的一个新兴趋势,其中将一个语言模型拆分成几个较小的、独立的语言模型,每个模型针对特定任务进行微调,例如日常对话、解数学题和编程辅助。模型可以将每个查询引导至适当的较小模型子集,或“专家”。这种方法每个查询所需资源较少,从而实现更低的成本和更高的吞吐量,MLPerf Inference工作组主席和AMD技术人员Miroslav Hodak表示。

在流行的数据中心-封闭基准测试的每个基准测试的胜出者仍然是基于英伟达H200 GPU和GH200超级芯片(将GPU和CPU组合在同一封装中)的提交。然而,更仔细查看性能结果会展现一个更复杂的图景。某些提交者使用了许多加速器芯片,而其他提交者仅使用一个。如果我们将每个提交者处理的每秒查询数量按使用的加速器数量进行标准化,并保留每种加速器类型表现最好的提交,一些有趣的细节浮现出来。(需要注意的是,这种方法忽略了CPU和互连设备的作用。)

在每个加速器的基础上,Nvidia的Blackwell在LLM问答任务上的表现超越了之前所有芯片迭代的2.5倍,这是它提交的唯一基准测试。Untether AI的speedAI240预览芯片在其唯一提交的任务图像识别中几乎与H200性能相当。Google的Trillium在图像生成上的表现略低于H100和H200的一半,而AMD的Instinct在LLM问答任务上表现与H100相当。

散点可视化

Blackwell的强大

Nvidia Blackwell成功的其中一个原因是其能够使用4位浮点精度运行LLM。Nvidia及其竞争对手一直在减少用于表示变压器模型(如ChatGPT)部分数据的位数,以加快计算速度。Nvidia在H100中引入了8位数学运算,此次提交标志着在MLPerf基准测试中首次演示了4位数学运算。

Nvidia产品营销总监Dave Salvator表示,使用如此低精度的数字的最大挑战是保持准确性。为了达到MLPerf提交所需的高准确性,Nvidia团队在软件上进行了重大创新。

Blackwell成功的另一个重要贡献是其内存带宽几乎翻倍,8TB/秒,相比H200的4.8TB/秒。

Nvidia的Blackwell提交使用了一个单一芯片,但Salvator表示它是为了网络和扩展而设计的,并且在与Nvidia的NVLink互连结合时表现最佳。Blackwell GPU支持多达18个NVLink 100GB/秒的连接,总带宽为1.8TB/秒,大约是H100互连带宽的两倍。

Salvator认为,随着大型语言模型的规模不断增加,即使是推理也需要多GPU平台来满足需求,而Blackwell正是为此而设计的。“Blackwell是一个平台,”Salvator说。

Nvidia在预览子类别中提交了基于Blackwell芯片的系统,这意味着它尚未销售,但预计将在下一个MLPerf版本发布前六个月内上市。

Untether AI在功耗和边缘计算中的表现

对于每个基准测试,MLPerf还包括一个能量测量指标,系统地测试各个系统在执行任务时的插墙功耗。在这轮主要事件(数据中心关闭能量类别)中,只有两个提交者:Nvidia和Untether AI。虽然Nvidia参加了所有基准测试,Untether仅提交了图像识别任务。

| 提交者 | 加速器 | 加速器数量 | 每秒查询数 | 功率(瓦特) | 每瓦特每秒查询数 |
| — | — | — | — | — | — |
| NVIDIA | NVIDIA H200-SXM-141GB | 8 | 480,131.00 | 5,013.79 | 95.76 |
| UntetherAI | UntetherAI speedAI240 Slim | 6 | 309,752.00 | 985.52 | 314.30 |

这家初创公司通过其称为在内存计算的方法制造芯片,实现了这种令人印象深刻的效率。UntetherAI的芯片被构建为一个内存元件的网格,直接在其旁边分布有小型处理器。处理器是并行化的,每个处理器同时处理附近内存单元中的数据,从而大大减少了在内存和计算核心之间传输模型数据所花费的时间和能量。

“我们发现执行AI工作负载时,90%的能量消耗在于将数据从DRAM移动到缓存再到处理元素,”Untether AI产品副总裁Robert Beachler说道。“因此,Untether做了一些不同的工作…与其将数据移动到计算单元,我更愿意将计算单元移动到数据。”

这种方法在MLPerf的另一个子类别——边缘封闭任务中表现尤为成功。这个类别针对的是更贴近地面的使用案例,如工厂车间的机器检查、引导视力机器人和自动驾驶汽车——这些应用中低能耗和快速处理是关键,Beachler说道。

| 提交者 | GPU类型 | GPU数量 | 单流延迟(毫秒) | 多流延迟(毫秒) | 样本数/秒 |
| — | — | — | — | — | — |
| 联想 | NVIDIA L4 | 2 | 0.39 | 0.75 | 25,600.00 |
| 联想 | NVIDIA L40S | 2 | 0.33 | 0.53 | 86,304.60 |
| UntetherAI | UntetherAI speedAI240 Preview | 2 | 0.12 | 0.21 | 140,625.00 |

在图像识别任务中,UntetherAI唯一报告结果的任务,speedAI240 Preview芯片在延迟性能上比NVIDIA L40S领先了2.8倍,在吞吐量(每秒样本数)上领先了1.6倍。这家创业公司还在这个类别中提交了功耗结果,但其使用Nvidia加速的竞争对手并没有提交,因此难以进行直接比较。然而,UntetherAI的speedAI240 Preview芯片每颗芯片的名义功耗为150瓦,而Nvidia的L40S为350瓦,表明在提高延迟的同时,实现了2.3倍的名义功耗减少。

跳过MLPerf但宣布新芯片的Cerebras和Furiosa

Furiosa的新芯片以不同、更高效的方式实现了AI推理的基本数学功能——矩阵乘法。

昨天在斯坦福举行的IEEE Hot Chips大会上,Cerebras展示了自己的推理服务。这家位于加州Sunnyvale的公司制造巨型芯片,尽可能大到与硅晶圆一样大,因此避免了芯片之间的互连,大大增加了设备的内存带宽,这些设备主要用于训练大规模神经网络。现在,它升级了软件堆栈,以便使用其最新的CS3计算机进行推理。

尽管Cerebras未提交MLPerf,但公司声称其平台生成的LLM tokens速度比H100快7倍,比竞争对手AI初创公司Groq’s芯片快2倍。Cerebras的首席执行官兼联合创始人Andrew Feldman说道:“今天我们处于生成式AI的拨号时代,这是因为存在内存带宽的障碍。无论是Nvidia的H100,还是MI 300或TPU,它们都使用同样的片外内存,这产生了相同的限制。我们突破了这一点,因为我们采用了晶圆级别的设计。”

Hot Chips大会上,总部位于首尔的Furiosa公司也发布了他们的第二代芯片RNGD(发音为“renegade”)。Furiosa芯片的区别在于其张量收缩处理器(TCP)架构。在AI工作负载中,基本操作是矩阵乘法,通常在硬件中作为基本操作实现。然而,矩阵的大小和形状(更普遍称为张量)可能有很大的不同。RNGD实现了这种更广义版本的张量乘法,作为基本操作来处理。Furiosa的创始人兼CEOJune Paik在Hot Chips大会上表示:“在推理过程中,批量大小变化很大,因此充分利用给定张量形状中固有的并行性和数据重用是很重要的。”

尽管未提交至MLPerf,Furiosa在内部比较了其RNGD芯片在MLPerf的LLM摘要基准测试中的表现。其性能达到了Nvidia面向边缘计算的L40S芯片的水平,而功耗仅为185瓦特,相比之下L40S的功耗为320瓦。Paik表示,随着进一步的软件优化,性能还将有所提升。

IBM也宣布了他们的新Spyre芯片,旨在为企业生成式AI工作负载设计,将于2025年第一季度上市。

至少在可预见的未来,AI推理芯片市场上的买家不会感到无聊。

总结:

在最新发布的MLPerf Inference v4.1结果中,英伟达的Blackwell芯片凭借其在LLM问答任务上的出色表现,再次展示了其强大的计算能力。Nvidia Blackwell为AI推理领域带来了显著的性能提升,特别是在4位浮点精度运算方面。尽管在某些基准测试中,其他竞争者如Untether AI、Google Trillium和AMD Instinct也表现不俗,但Blackwell凭借其高内存带宽和NVLink互连技术,依然处于领先地位。

值得注意的是,Untether AI首次亮相便通过图像识别任务展示了其speedAI240芯片的卓越功耗效率,表明在未来的AI推理市场上,这一技术路径具有巨大的潜力。与此同时,Cerebras和Furiosa虽然未提交此次竞赛,但分别展示了独特的AI推理服务和新型推理芯片RNGD,为未来的AI推理市场增加了更多的可能性。

针对AI推理在各个应用场景中的表现,MLPerf的多样化基准测试为不同参与者提供了展示其技术优势的舞台。随着AI技术的不断进步,我们有理由期待更多企业和技术创新者能够在这一领域取得更大的突破。

选择光年AI,让私域流量管理更智能,精确触达每一位潜在客户。在AI驱动的新时代,光年AI通过整合强大的AI模型和灵活的工作流,帮助企业实现高效增长。使用光年AI,不仅能提高营收,还能显著降低成本,让您的品牌在竞争激烈的市场中脱颖而出。选择光年AI,让您的私域流量管理更加高效精准,助您轻松赢得市场。