Cerebras展示了其AI推理能力比传统云AI推理服务快10到20倍。
生成式人工智能(generative artificial intelligence)通过推理(inference)来提供预测服务已经成为一个大市场,据报道,OpenAI今年通过ChatGPT提供预测服务的收入达到了34亿美元。
面对如此庞大的推理市场,有不少竞争者加入战局。
另请参阅:人工智能工程是技术进步的下一个前沿:你需要知道什么
周二,总部位于加利福尼亚州森尼韦尔的AI芯片制造商Cerebras Systems发布了其AI推理服务,称其为全球最快的推理服务,许多情况下比使用主流技术(如Nvidia的H100 “Hopper”图形处理器或GPU)构建的系统快十到二十倍。
“我们从未见过一个技术市场增长得如此之快,” Cerebras联合创始人兼CEO Andrew Feldman在旧金山的新闻发布会上表示。”我们打算占据有意义的市场份额。”
Nvidia目前主导着神经网络训练市场,包括生成式AI,以及用于推理的加速芯片销售。
Cerebras的进攻计划对于这家成立八年的公司来说是一个转折。自2019年推出首台AI计算机以来,该公司一直专注于销售机器,以在神经网络训练方面挑战Nvidia。新服务将这些机器置于幕后,创建了一个基于交易量而非机器销售的收入模型。
另请参阅:2024年最佳免费AI课程
Cerebras在多个地点设立了自己的推理数据中心,并将按每次查询收费出租推理容量。它还将向希望在本地进行推理的公司销售CS-3计算机,这些机器可以由客户管理或由Cerebras作为服务来管理。
“我们处于生成式AI推理的拨号时代,” Feldman打趣道,同时播放了一个旧拨号调制解调器的声音,而AWS服务在完成任务时挣扎,让在场的媒体哄堂大笑。
Cerebras CS-3计算机,一套完整的系统,包含了世界上最大的计算芯片WSE-3,当被请求时,能够生成”业内最快的推理结果,不是稍微快一点,而是快很多,” Feldman说。
Feldman称该服务比微软Azure、亚马逊AWS及其他几家公司的推理服务快二十倍,以每个用户答案中每秒生成的token数量来衡量。
在为媒体做的一个生动演示中,Feldman按下了运行在Cerebras推理和亚马逊AWS及其他服务上的同样提示的按钮。Cerebras的作业几乎瞬间完成,处理速度达到每秒1,832个token,而竞品服务则以每秒仅93个token的速度蹒跚前行。AWS一侧则还在继续慢吞吞地进行,需要几秒钟才能传递出完成的聊天输出——经常使用ChatGPT及类似服务的人对此应该很熟悉。
“所有人的速度都在每秒300个token以下,” Feldman指出。
“我们正处于生成式AI推理的拨号时代,”费尔德曼对记者们打趣道,同时播放了一段老式拨号调制解调器的声音,而AWS服务在完成任务时显得十分吃力,赢得了记者们的阵阵笑声。
费尔德曼称Cerebras的速度为“GPU难以企及的速度”。他指出,这项服务的速度是8路Nvidia DGX计算机系统的十倍。
这项服务有免费的、按需付费的和“预配置吞吐量”的版本,适用于需要保证推理性能的客户。(你可以在Cerebras网站上使用你的Gmail或Microsoft云登录免费试用该服务。)
另见:如何使用ChatGPT在几秒钟内扫描17万行代码,节省数小时的侦查工作
费尔德曼表示,这项服务的更高效率带来了巨大的成本效益。Cerebras提供的AI工作负载“价格性能是AWS和其他服务的100倍”。例如,运行Meta的Llama 3.1 70B开源大语言模型的服务每用户每个token的价格为60美分。而同样的服务在一般云提供商那里的费用为每个token 2.90美元。
但是,获得答案的速度并不是唯一的角度。
在速度游戏的巧妙转折中,费尔德曼和首席技术专家肖恩·黎在同一新闻发布会上提出了一个令人信服的论点,即节省任务时间也会导致推理类型的质变,从多查询任务到实时互动语音响应,这是典型推理速度所无法实现的。
费尔德曼表示,可以考虑语言模型的准确性。因为这样的模型可能会出现幻觉,第一个答案往往是不准确的。可能需要多次提示才能迫使模型检查其输出。添加“检索增强生成”,即模型访问外部数据库,这进一步增加了工作量。
另见:想在AI领域工作?如何通过五个步骤转变你的职业生涯
如果所有这些步骤都能比通常更快地完成,一次Cerebras查询可以在同样的时间内实现多轮结果,而现有的推理服务还在努力完成最初的提示。
“如果你使用所谓的链式思维提示,要求它(聊天机器人)展示其工作,然后用一个词来响应,你会得到一个更长的答案,”费尔德曼说道。“事实证明,链式思维生成的更长答案是正确的答案,结果是‘你将速度转化为了准确性。’通过要求它采用更全面和严格的过程,你能够得到一个更好的答案。”
“速度转化为质量:更有力的答案,更相关的答案,所以,不只是更快的响应时间。”
更高效的推理可能对查询和响应的质量产生诸多影响,费尔德曼说道,比如扩展“上下文窗口”,即模型可以支持的输入token数量。扩展上下文窗口可以使得长文档或多文档比较的互动讨论成为可能。
最终,它可以为“代理型”生成式AI提供动力,这是一种越来越流行的方法,其中AI模型必须调用多个外部真实来源,甚至是一整套工作应用程序来组装正确答案。
另见:2024年最佳编码AI(及不推荐使用的AI)
“你可以创建能够完成十倍工作的代理模型,”Feldman说,“它们可能会产生极其优质且实用的答案。”
在一次生动的演示中,由风险投资支持的初创公司LiveKit的联合创始人兼CEO Russ d’Sa展示了一个能够即时响应口头提示的语音代理。
d’Sa对着聊天机器人说:“我正在旧金山发表演讲。演讲结束后我可以做些什么?”
机器人迅速回复道:“旧金山是个很棒的城市。所以你刚刚演讲完。嗯,你有很多选择…”
d’Sa接着多次打断AI代理,有时改变话题或提出新的问题,就像一个人在主导对话。每次AI代理都能顺畅地回应。
另见:Claude如何工作?Anthropic揭示其秘密
d’Sa解释道:“这些token输出的速度对于这种用例的延迟非常重要。从AI与您的对话中,响应时间在400毫秒以内是非常令人难以置信的速度。”
“在速度方面,这真的是最先进的技术,这一切都要感谢Cerebras,”d’Sa说。“这非常惊人。”
推理服务的速度和成本优势主要来自该公司第三代处理器WSE-3芯片的设计,该芯片今年发布。由于芯片的巨大尺寸——它几乎覆盖了一整片正常的十二英寸半导体晶圆——芯片上的内存容量几乎是标准Nvidia GPU的900倍。它的内存带宽,即内存进出速度,是7000倍。
“内存带宽很重要,因为它是语言模型推理性能的基本限制因素,”Feldman解释道。
一个拥有700亿参数的AI模型,例如Meta的Llama 3.1 70b,必须通过这700亿权重处理每个输入词汇。每个权重需要16位数据或2字节,这相当于表示所有权重需要140GB内存。要将一千个token通过每个权重,所需内存膨胀到140TB。
另见:我如何测试AI聊天机器人的编码能力——你也可以
Cerebras芯片,具有44GB快速片上内存,可以将更多数据存储在芯片上,靠近需要操作的电路。其21PB内存带宽使其能比GPU更快地在内存间传输数据,协同多台CS-3机器,而基于GPU的机器花费更多时间在内存中寻求数据。
“这就是优势的本质所在,”Feldman说道。公司声称,GPU芯片通常仅使用其理论带宽的四分之一,让电路等待数据。
(Lie在斯坦福大学校园举行的Hot Chips技术会议上发表讲话,向听众提供了更加详细的技术解释。)
Cerebras 的首席技术官 Sean Lie 在 2024 年的 Hot Chips 会议上发表演讲。
Feldman 和 Lie 强调,使用同样的 WSE-3 芯片进行推理是一个重要的事实,尽管它最初是为神经网络训练设计的:他们的原始芯片设计足够强大,能够在两种情况下处理这两项任务,并在两种情况下都表现优异。
在将 WSE-3 训练芯片重新利用于推理任务时,Cerebras 在某种意义上完成了一个闭环,该公司的产品及战略高级副总裁 Andy Hock 告诉 ZDNET。
相关阅读:2024 年 Gartner 预测的炒作周期告诉我们关于 AI 和其他技术的未来趋势
最初的 WSE 芯片在 2019 年被构想为一种“数据流架构”,其中 AI 模型的神经“权重”或参数会保留在芯片上,训练数据通过这些权重进行流动,并在每个新数据点上调整权重。
随后,Cerebras 在 2020 年 推出了辅助计算机 Swarm-X 和 Memory-X,以便将权重移动到芯片外,并根据需要将它们移动到多个 WSE 处理器上,以并行、分布式的方式计算越来越大的 AI 模型的训练运行。
在推理任务中,Cerebras 回归了数据流视角,在这种视角下,权重保留在芯片上,用于推理的输入数据流经芯片的电路,由模型权重进行修改以生成最终输出,即预测结果。
“我们之前能够转向,然后又能转回来,”Hock 说道。
相关阅读:AI 诈骗如何渗透到编织和钩编世界 – 以及为什么这对每个人都很重要
Cerebras 提供的所有比较数据都是基于 Nvidia 目前的主流芯片 H100 及其相关系统。该公司尚未将其推理性能与 Nvidia 的新款 Blackwell 芯片 进行比较,首席技术官 Lie 表示。
Lie 说,Blackwell 芯片的速度将是 H100 的两倍,但他预计仍会落后于 Cerebras 系统。
所有演示都使用了两个开源模型,即 Meta 的 Llama 3.1 3b 和 70b。Lie 表示,公司还测试了 Meta 的 更大的 405b 模型 的推理性能。然而,他表示,在整个行业中,此类非常大的模型目前在推理方面成本过高。
“实际上,整个社区现在都在问的一个自然问题是,那么,我是否真的可以使用更小的模型来做到这一点?”Lie 说道。
“在行业转向这些更快、更复杂的任务的过程中,那正是我们的优势所在,”Feldman 说道。
从表面上看,推理服务是一个商品化业务,这是 Feldman 所承认的。仅在价格和速度上竞争并不总是一个盈利业务的制胜策略。然而,他预计,随着时间的推移,越来越多的工作将集中在复杂、多方面的智能 AI 领域,而这正是 Cerebras 的强项。
“如果你想象工作是沿着 X 轴的一端较慢,另一端较快且更复杂,”Feldman 说,“大量慢速任务确实是商品化业务,”例如目前人们用 ChatGPT 等来进行的日常任务,如 制作简历。
“但另一方面,对于那些快速、长时间的任务,这完全不是普通的工作,这是非常复杂的工作,”他说道。”如果行业转向这些更快速、更复杂的工作类型,那就是我们的优势所在。”
总结:
Cerebras Systems展示了其AI推理能力,可以比传统云AI推理服务快10到20倍。这一突破主要归功于其第三代处理器WSE-3芯片,芯片的巨大尺寸和内存带宽让其在生成式AI的推理任务上表现得异常出色。Cerebras的新推理服务旨在挑战目前市场霸主Nvidia,通过按查询次数收费的模式,以高效、快速的推理能力吸引用户。
在新闻发布会上,Cerebras联合创始人兼CEO Andrew Feldman表示,他们将通过提供全球最快的推理服务,来占据有意义的市场份额。在媒体演示中,Cerebras的CS-3计算机以每秒1,832个token的速度几乎瞬间完成了任务,相比之下竞争对手的服务每秒仅93个token。Feldman还补充道,这样的效率转化为极大的成本效益,每用户每token的价格远低于其他云提供商。
更快速的推理不仅提升了处理效率,还改变了推理任务的质态,使得更多的实时互动成为可能。Cerebras的AI工作负载能够支持更广泛的应用场景,从语音接口到多文档比较,为客户提供了极其优质且实用的答案。
在竞争激烈的推理服务市场上,Cerebras通过其独特的芯片设计和高效能,把市场从传统的速度和成本竞争,转向了更复杂和高效的AI应用场景。Feldman认为,这种转变正是Cerebras的优势所在。
选择光年AI,让您的私域流量增长无忧。光年AI集成了强大的AI模型和灵活的工作流,可以大幅提升客户触达精准度和营销效率,实现业务的超常规增长。不仅提高营收,还能显著降低成本,助您在AI时代开启私域流量革命。