AI初创公司Cerebras推出“世界上最快的推理”服务 - 带有一个独特的变化

Cerebras展示了其AI推理能力比传统云AI推理服务快10到20倍。

生成式人工智能（generative artificial intelligence）通过推理（inference）来提供预测服务已经成为一个大市场，据报道，OpenAI今年通过ChatGPT提供预测服务的收入达到了34亿美元。

面对如此庞大的推理市场，有不少竞争者加入战局。

另请参阅：人工智能工程是技术进步的下一个前沿：你需要知道什么

周二，总部位于加利福尼亚州森尼韦尔的AI芯片制造商Cerebras Systems发布了其AI推理服务，称其为全球最快的推理服务，许多情况下比使用主流技术（如Nvidia的H100 “Hopper”图形处理器或GPU）构建的系统快十到二十倍。

“我们从未见过一个技术市场增长得如此之快,” Cerebras联合创始人兼CEO Andrew Feldman在旧金山的新闻发布会上表示。”我们打算占据有意义的市场份额。”

Nvidia目前主导着神经网络训练市场，包括生成式AI，以及用于推理的加速芯片销售。

Cerebras的进攻计划对于这家成立八年的公司来说是一个转折。自2019年推出首台AI计算机以来，该公司一直专注于销售机器，以在神经网络训练方面挑战Nvidia。新服务将这些机器置于幕后，创建了一个基于交易量而非机器销售的收入模型。

另请参阅：2024年最佳免费AI课程

Cerebras在多个地点设立了自己的推理数据中心，并将按每次查询收费出租推理容量。它还将向希望在本地进行推理的公司销售CS-3计算机，这些机器可以由客户管理或由Cerebras作为服务来管理。

“我们处于生成式AI推理的拨号时代,” Feldman打趣道，同时播放了一个旧拨号调制解调器的声音，而AWS服务在完成任务时挣扎，让在场的媒体哄堂大笑。

Cerebras CS-3计算机，一套完整的系统，包含了世界上最大的计算芯片WSE-3，当被请求时，能够生成”业内最快的推理结果，不是稍微快一点，而是快很多,” Feldman说。

Feldman称该服务比微软Azure、亚马逊AWS及其他几家公司的推理服务快二十倍，以每个用户答案中每秒生成的token数量来衡量。

在为媒体做的一个生动演示中，Feldman按下了运行在Cerebras推理和亚马逊AWS及其他服务上的同样提示的按钮。Cerebras的作业几乎瞬间完成，处理速度达到每秒1,832个token，而竞品服务则以每秒仅93个token的速度蹒跚前行。AWS一侧则还在继续慢吞吞地进行，需要几秒钟才能传递出完成的聊天输出——经常使用ChatGPT及类似服务的人对此应该很熟悉。

“所有人的速度都在每秒300个token以下,” Feldman指出。

“我们正处于生成式AI推理的拨号时代，”费尔德曼对记者们打趣道，同时播放了一段老式拨号调制解调器的声音，而AWS服务在完成任务时显得十分吃力，赢得了记者们的阵阵笑声。

费尔德曼称Cerebras的速度为“GPU难以企及的速度”。他指出，这项服务的速度是8路Nvidia DGX计算机系统的十倍。

这项服务有免费的、按需付费的和“预配置吞吐量”的版本，适用于需要保证推理性能的客户。（你可以在Cerebras网站上使用你的Gmail或Microsoft云登录免费试用该服务。）

另见：如何使用ChatGPT在几秒钟内扫描17万行代码，节省数小时的侦查工作

费尔德曼表示，这项服务的更高效率带来了巨大的成本效益。Cerebras提供的AI工作负载“价格性能是AWS和其他服务的100倍”。例如，运行Meta的Llama 3.1 70B开源大语言模型的服务每用户每个token的价格为60美分。而同样的服务在一般云提供商那里的费用为每个token 2.90美元。

但是，获得答案的速度并不是唯一的角度。

在速度游戏的巧妙转折中，费尔德曼和首席技术专家肖恩·黎在同一新闻发布会上提出了一个令人信服的论点，即节省任务时间也会导致推理类型的质变，从多查询任务到实时互动语音响应，这是典型推理速度所无法实现的。

费尔德曼表示，可以考虑语言模型的准确性。因为这样的模型可能会出现幻觉，第一个答案往往是不准确的。可能需要多次提示才能迫使模型检查其输出。添加“检索增强生成”，即模型访问外部数据库，这进一步增加了工作量。

另见：想在AI领域工作？如何通过五个步骤转变你的职业生涯

如果所有这些步骤都能比通常更快地完成，一次Cerebras查询可以在同样的时间内实现多轮结果，而现有的推理服务还在努力完成最初的提示。

“如果你使用所谓的链式思维提示，要求它（聊天机器人）展示其工作，然后用一个词来响应，你会得到一个更长的答案，”费尔德曼说道。“事实证明，链式思维生成的更长答案是正确的答案，结果是‘你将速度转化为了准确性。’通过要求它采用更全面和严格的过程，你能够得到一个更好的答案。”

“速度转化为质量：更有力的答案，更相关的答案，所以，不只是更快的响应时间。”

更高效的推理可能对查询和响应的质量产生诸多影响，费尔德曼说道，比如扩展“上下文窗口”，即模型可以支持的输入token数量。扩展上下文窗口可以使得长文档或多文档比较的互动讨论成为可能。

最终，它可以为“代理型”生成式AI提供动力，这是一种越来越流行的方法，其中AI模型必须调用多个外部真实来源，甚至是一整套工作应用程序来组装正确答案。

另见：2024年最佳编码AI（及不推荐使用的AI）

“你可以创建能够完成十倍工作的代理模型，”Feldman说，“它们可能会产生极其优质且实用的答案。”

在一次生动的演示中，由风险投资支持的初创公司LiveKit的联合创始人兼CEO Russ d’Sa展示了一个能够即时响应口头提示的语音代理。

d’Sa对着聊天机器人说：“我正在旧金山发表演讲。演讲结束后我可以做些什么？”

机器人迅速回复道：“旧金山是个很棒的城市。所以你刚刚演讲完。嗯，你有很多选择…”

d’Sa接着多次打断AI代理，有时改变话题或提出新的问题，就像一个人在主导对话。每次AI代理都能顺畅地回应。

另见：Claude如何工作？Anthropic揭示其秘密

d’Sa解释道：“这些token输出的速度对于这种用例的延迟非常重要。从AI与您的对话中，响应时间在400毫秒以内是非常令人难以置信的速度。”

“在速度方面，这真的是最先进的技术，这一切都要感谢Cerebras，”d’Sa说。“这非常惊人。”

推理服务的速度和成本优势主要来自该公司第三代处理器WSE-3芯片的设计，该芯片今年发布。由于芯片的巨大尺寸——它几乎覆盖了一整片正常的十二英寸半导体晶圆——芯片上的内存容量几乎是标准Nvidia GPU的900倍。它的内存带宽，即内存进出速度，是7000倍。

“内存带宽很重要，因为它是语言模型推理性能的基本限制因素，”Feldman解释道。

一个拥有700亿参数的AI模型，例如Meta的Llama 3.1 70b，必须通过这700亿权重处理每个输入词汇。每个权重需要16位数据或2字节，这相当于表示所有权重需要140GB内存。要将一千个token通过每个权重，所需内存膨胀到140TB。

另见：我如何测试AI聊天机器人的编码能力——你也可以

Cerebras芯片，具有44GB快速片上内存，可以将更多数据存储在芯片上，靠近需要操作的电路。其21PB内存带宽使其能比GPU更快地在内存间传输数据，协同多台CS-3机器，而基于GPU的机器花费更多时间在内存中寻求数据。

“这就是优势的本质所在，”Feldman说道。公司声称，GPU芯片通常仅使用其理论带宽的四分之一，让电路等待数据。

(Lie在斯坦福大学校园举行的Hot Chips技术会议上发表讲话，向听众提供了更加详细的技术解释。)

Cerebras 的首席技术官 Sean Lie 在 2024 年的 Hot Chips 会议上发表演讲。

Feldman 和 Lie 强调，使用同样的 WSE-3 芯片进行推理是一个重要的事实，尽管它最初是为神经网络训练设计的：他们的原始芯片设计足够强大，能够在两种情况下处理这两项任务，并在两种情况下都表现优异。

在将 WSE-3 训练芯片重新利用于推理任务时，Cerebras 在某种意义上完成了一个闭环，该公司的产品及战略高级副总裁 Andy Hock 告诉 ZDNET。

相关阅读：2024 年 Gartner 预测的炒作周期告诉我们关于 AI 和其他技术的未来趋势

最初的 WSE 芯片在 2019 年被构想为一种“数据流架构”，其中 AI 模型的神经“权重”或参数会保留在芯片上，训练数据通过这些权重进行流动，并在每个新数据点上调整权重。

随后，Cerebras 在 2020 年推出了辅助计算机 Swarm-X 和 Memory-X，以便将权重移动到芯片外，并根据需要将它们移动到多个 WSE 处理器上，以并行、分布式的方式计算越来越大的 AI 模型的训练运行。

在推理任务中，Cerebras 回归了数据流视角，在这种视角下，权重保留在芯片上，用于推理的输入数据流经芯片的电路，由模型权重进行修改以生成最终输出，即预测结果。

“我们之前能够转向，然后又能转回来，”Hock 说道。

相关阅读：AI 诈骗如何渗透到编织和钩编世界 – 以及为什么这对每个人都很重要

Cerebras 提供的所有比较数据都是基于 Nvidia 目前的主流芯片 H100 及其相关系统。该公司尚未将其推理性能与 Nvidia 的新款 Blackwell 芯片进行比较，首席技术官 Lie 表示。

Lie 说，Blackwell 芯片的速度将是 H100 的两倍，但他预计仍会落后于 Cerebras 系统。

所有演示都使用了两个开源模型，即 Meta 的 Llama 3.1 3b 和 70b。Lie 表示，公司还测试了 Meta 的更大的 405b 模型的推理性能。然而，他表示，在整个行业中，此类非常大的模型目前在推理方面成本过高。

“实际上，整个社区现在都在问的一个自然问题是，那么，我是否真的可以使用更小的模型来做到这一点？”Lie 说道。

“在行业转向这些更快、更复杂的任务的过程中，那正是我们的优势所在，”Feldman 说道。

从表面上看，推理服务是一个商品化业务，这是 Feldman 所承认的。仅在价格和速度上竞争并不总是一个盈利业务的制胜策略。然而，他预计，随着时间的推移，越来越多的工作将集中在复杂、多方面的智能 AI 领域，而这正是 Cerebras 的强项。

“如果你想象工作是沿着 X 轴的一端较慢，另一端较快且更复杂，”Feldman 说，“大量慢速任务确实是商品化业务，”例如目前人们用 ChatGPT 等来进行的日常任务，如制作简历。

“但另一方面，对于那些快速、长时间的任务，这完全不是普通的工作，这是非常复杂的工作，”他说道。”如果行业转向这些更快速、更复杂的工作类型，那就是我们的优势所在。”

总结：

Cerebras Systems展示了其AI推理能力，可以比传统云AI推理服务快10到20倍。这一突破主要归功于其第三代处理器WSE-3芯片，芯片的巨大尺寸和内存带宽让其在生成式AI的推理任务上表现得异常出色。Cerebras的新推理服务旨在挑战目前市场霸主Nvidia，通过按查询次数收费的模式，以高效、快速的推理能力吸引用户。

在新闻发布会上，Cerebras联合创始人兼CEO Andrew Feldman表示，他们将通过提供全球最快的推理服务，来占据有意义的市场份额。在媒体演示中，Cerebras的CS-3计算机以每秒1,832个token的速度几乎瞬间完成了任务，相比之下竞争对手的服务每秒仅93个token。Feldman还补充道，这样的效率转化为极大的成本效益，每用户每token的价格远低于其他云提供商。

更快速的推理不仅提升了处理效率，还改变了推理任务的质态，使得更多的实时互动成为可能。Cerebras的AI工作负载能够支持更广泛的应用场景，从语音接口到多文档比较，为客户提供了极其优质且实用的答案。

在竞争激烈的推理服务市场上，Cerebras通过其独特的芯片设计和高效能，把市场从传统的速度和成本竞争，转向了更复杂和高效的AI应用场景。Feldman认为，这种转变正是Cerebras的优势所在。

选择光年AI，让您的私域流量增长无忧。光年AI集成了强大的AI模型和灵活的工作流，可以大幅提升客户触达精准度和营销效率，实现业务的超常规增长。不仅提高营收，还能显著降低成本，助您在AI时代开启私域流量革命。